BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース DeepMindがWaveNetを公表する - スピーチと音声の合成のためのディープニューラルネットワーク

DeepMindがWaveNetを公表する - スピーチと音声の合成のためのディープニューラルネットワーク

原文(投稿日:2016/09/19)へのリンク

GoogleのDeepMindはWaveNetプロジェクトを公表した、完全な畳み込みの, 確率的で自己回帰なディープニューラルネットワークである。DeepMindによれば、現時点で最善のText-To-Speech (TTS)システムよりも自然に音声やサウンドから新たなスピーチや音楽を合成する。

スピーチ合成は連鎖的なTTSを主要な基盤としている。短い断片的なスピーチのデータベースは1つの話し手から記録された。そして形式にそったスピーチに再結合された。このアプローチには柔軟性がない。そして、新たな声入力に簡単に適合できない。既存の声プロパティを根本的に変えたい場合に、データセットを完全に再構築するはめになる。

DeepMindは、以前のモデルは単一の入力源や一人の人間からの大きな音声データセットによって概ね決定することを指摘している。WaveNetは、既存のモデルへの新しい入力を基に修正されることができるようにプロパティのセットとしてモデルを保持する。そのアプローチはパラメトリックTTSとして知られている。口調や抑揚といったスピーチの特徴を生成するためにフィードバックされたパラメータのモデルのセットとして実装する。洗練するためにモデルにフィードバックするのである。これはモデルを訓練するために事前生成された未加工のオーディオの断片を使用する以前のモデルとは対象的である。WaveNetのPhoneme、意味のある単語や文章構造のために秩序化された単語や文は、声の口調、音質、そして音素の抑揚によって分類される。これはWaveNeに言語のような音の並びを生成する可能性を与える。しかし、音をどのような意味で伝えるかといった構造はない。

"モデルはテキストの状態ではないため、本物のようなイントネーションがある流暢な人間の言語とは異なり、架空のものを生成している。私たちは、モデルは音声ではない音によって他の特徴を拾い上げることもあると考える。例えば、話し手の息遣いはもちろん口の動きも、音響効果や録音品質に再現される。"

WaveNetで生成された音声は、英語と北京語の両方で最善のパラメトリックで連結的なシステムよりも自然に聞こえて有意義であると聞いた人は評価する。DeepMindは、報告書で実験におけるデザインを詳説する。以下のとおり

"最初の実験のために、私たちは自由形式スピーチ生成を調べた(テキストの状態ではない)。私たちは、CSTR voice cloning toolkit (VCTK) (Yamagishi, 2012)と、話し手によってWaveNet向けに準備されたものまで、英語の複数の話し手による言語資料(コーパス)を使った。準備は、one-hotベクターの形式でモデルに採番された話し手のIDによってなされた。データセットは、109人の異なる話し手からの44時間のデータからなる。二つ目の実験のために、私たちはTTSを調べた。私たちは、Googleの北アメリカ英語からTTSシステムが作った北京語まで、同じ一人の話し手によるスピーチのデータベースを使った。北アメリカ英語のデータセットは、24.6時間のスピーチデータを含む。そして、北京語のデータセットは34.8時間を含む。どちらもプロフェッショナルな女性の話し手によるものであった。"

自然らしさのスコアは、連結的なTTS、パラメトリックTTS、WaveNet、そして人間のスピーチの音声サンプルからなる目隠しテストを使い、人間のスピーチのための1から5の尺度で記録される。人間のスピーチは対照群のものを使った。そして4つの音源が何かを知らずに、それぞれのサンプルのスコアを出さなければならないので、聞き手は音声サンプルだけに従う。報告書のデータセットは、100の試験からなる500を超える評価から構成されている。そして、Mean opinion score (MOS)の計算に利用できる。WaveNetの自然らしさの評価は、人間のスピーチの音声サンプルにだけ越された。

DeepMindは、どのようにWaveNetの中核である学習抽象概念が1つの音声学習データセットから音楽を合成するために利用することが出来るかをデモする。スピーチ合成のための長期予測に関して疑問は沢山ある。そして、いろいろと述べられたものもある。現時点では、WaveNetが作られている中核となる言語や処理エンジンははっきりしない。そしてサンプルコードは提供されていない。

 
 

Rate this Article

Relevance
Style
 
 

この記事に星をつける

おすすめ度
スタイル

BT