BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Facebook Researchが音源分離用のAIシステムを開発

Facebook Researchが音源分離用のAIシステムを開発

原文(投稿日:2020/03/12)へのリンク

Facebook Researchは先頃、ディープラーニングを採用した音源分離(music source separation)システムのDemucsをリリースした。Demucsは、人による評価を基準とした分離後の音楽の品質において、これまでに報告されているものを上回っている。

音源分離はブラインド信号源研究(blind source separatin)と呼ばれる、高度に研究されたプロセスにおけるアプリケーションのひとつである。このプロセスには、混合した信号系列の中からメタ情報を使用せずにひとつの信号系列を分離する、という処理が含まれている。音楽であれば、個々のコンポーネントはボーカルやその他の楽器のトラックにあたる。信号源分離の分野が最初に注目を浴びたのは、複数のパイロットの入り混じった声をひとつのスピーカで聞かなければならないという、航空管制官の問題が始まった時だった。これに対して、英国の科学者であるColin Cherry氏は1953年、この効果を"カクテルパーティ問題(cocktail party problem)"と名付けた。

信号分離の分野における既存の成果に促されて研究を続けた科学者たちは、2000年代の初めになると、音楽からの信号分離にAIを使用し始めるようになった。現在では短時間フーリエ変換(short-time Fourier transform, STFT)によるスペクトログラム生成が、音源分離における最先端技術の中核となっている。これらのシステムでは、各フレームの各音源毎の音源スペクトルにマスクを生成した上で、入力された混合フレーズを再利用し、マスクされたスペクトルで逆STFTを実行することによって出力音声を生成する。スペクトラム分析を基本として構築されたシステムは、周波数と音量の一定した、例えばメゾピアノやレガートバイオリンなどの楽器の音源分離に優れる一方で、残留ノイズによって広範囲の周波数を発生する打楽器の分離は難しい状況にある。さらに、複数の楽器のオーバーラップがこれに加わると、情報が失われ、マスク処理で再生することは不可能になる。Demucsはこの問題に、スペクトログラムなど単一の構造を分析するのではなく、トラック全体のコンテキストにおける個々の音源について学習することで対処している。

Demucsは生の入力波形を直接操作して、各音源の波形を生成するディープラーニングモデルである。U-netアーキテクチャでは、大きなストライド(stride)を持った広い転置畳み込み(wide transposed convolutions)に基いた、畳み込み(convolutional)エンコーダとデコーダを使用する。波形モデルは一般的なコンピュータ画像モデルと同じように動作し、いずれも高レベルのパターンを推測する前に、ニューラルネットワークを使って基本パターンを検出する。

スペクトログラムベースのモデルは、Demucs以前の最も進んだ波形ベースモデルであったWave-U-Netよりも、パフォーマンスにおいて勝っていた。Demucsは、調整されたハイパーパラメータと長・短期記憶(long short-term memory)を持つ点でWave-U-Netのアーキテクチャを継承する一方、単一データ点ではなく、データシーケンス全体をネットワークで処理できるようにしている。これらの改良の結果として、デコーダが抑制された音符を補完するスマートさを得たことが、ひとつの音声が別の音声を音量的に圧倒する、という問題をシステムが処理する上で有効に働いた。

DemucsはMusDBデータセットを使って人による評価が行われ、その結果が他の最先端の音源分離システムと比較されている。下記の表はFacebook Reserachがリリースした論文から引用したものだ。"Mean Opinion Scores"は、品質と別ソースからのアーチファクト除去について、最初に与えられるスコアである(1:アーチファクトと歪が多い、5:完璧な品質でアーチファクトなし)。

次は全般的なコンタミネーション(contamination、汚染)である(1:頻繁かつ大きなコンタミネーション、5:コンタミネーションなし)。

38人がそれぞれ20のサンプルを評価した。各サンプルは、MusDBからの8秒間の音楽である。

コードと研究結果の再現方法、およびモデルがGitHubで公開されている。

この記事に星をつける

おすすめ度
スタイル

BT