Google Magenta Onsets and Frames: Dual-Objective Piano Transcription 使ってみた
Google Magentaに機械学習を使った自動採譜プログラムが上がっていたので使ってみました。
Webアプリ版はこちら Piano Scribe
ピアノ演奏のオーディオファイルを入力すると, それをMIDIファイルとして出力してくれるプログラムとなっている。 自分の演奏を入力して聞いてみる。
入力オーディオデータ
出力MIDI
Dropbox - Kapustin Sonata 1-1.mid
これに関して言えばわりかし悪くないんじゃないかなあという感じ
ちなみにグリッサンドや早いトレモロなどが入った自分の演奏でも試してみたが、
そちらは音符の見逃し(FP: False Negative)が多かったように感じられた。
システムの概要などについてはこちらに載っている。デモもある。 magenta.tensorflow.org
オーディオデータをlogスケールのメル尺度スペクトログラムに変換し、それをOnset Detector と Frame Detectorを使ってオンセットと音の長さを算出していくというもの。これらはBiLSTMと全結合のシグモイド関数を使ったニューラルネットを使ったアーキテクチャとなっている。
詳しい論文はこちら
ONSETS AND FRAMES: DUAL-OBJECTIVE PIANO TRANSCRIPTION
http://ismir2018.ircam.fr/doc/pdfs/19_Paper.pdf
いずれ論文の中身は詳しく紹介します。