Google Magenta Onsets and Frames: Dual-Objective Piano Transcription 使ってみた

Google Magentaに機械学習を使った自動採譜プログラムが上がっていたので使ってみました。

Webアプリ版はこちら Piano Scribe

ピアノ演奏のオーディオファイルを入力すると, それをMIDIファイルとして出力してくれるプログラムとなっている。自分の演奏を入力して聞いてみる。

入力オーディオデータ

これに関して言えばわりかし悪くないんじゃないかなあという感じ

ちなみにグリッサンドや早いトレモロなどが入った自分の演奏でも試してみたが、
そちらは音符の見逃し（FP: False Negative）が多かったように感じられた。

システムの概要などについてはこちらに載っている。デモもある。 magenta.tensorflow.org

オーディオデータをlogスケールのメル尺度スペクトログラムに変換し、それをOnset Detector と Frame Detectorを使ってオンセットと音の長さを算出していくというもの。これらはBiLSTMと全結合のシグモイド関数を使ったニューラルネットを使ったアーキテクチャとなっている。

詳しい論文はこちら
ONSETS AND FRAMES: DUAL-OBJECTIVE PIANO TRANSCRIPTION http://ismir2018.ircam.fr/doc/pdfs/19_Paper.pdf

いずれ論文の中身は詳しく紹介します。

ぜろといち