Amazonは最近、ニュースを読むのに適するように、Alexaの声をカスタマイズする開発を発表した。以前の実装では、テキストから音声への変換機能は、音声の小さな断片を連結して全文の結果を生成することで実現されていた。Amazonは、自然なだけでなく、音声に変換されるテキストのコンテキストに応じてさまざまなスピーキングスタイルを提供できる音声を合成するために、生成系ニューラルネットワークを使用する。
このシステムの最初のアプリケーションは、ニュースを読むのにより自然に聞こえるような声のデモンストレーションであった。AmazonのAlexaは今後数週間以内に新しい声に切り替わるであろう。ニュースキャスターに似た音声は、ニュースチャンネルからオーディオの断片をキャプチャし、次に機械学習を利用してテキストの読み方を検出することによって可能になった。これらのニュアンスは、決定論的アルゴリズムでは識別が困難なため、統計的アプローチを使用してそれらを検出、適用する。Amazonが機械学習アルゴリズムにニュースキャスターのように聞こえるようにする方法を教えるのに必要なのはわずか数時間のデータであった。これは、さまざまなスタイルに対して実施できる可能性があることを意味する。
ニュースキャスターのような声を手に入れるための1つのアプローチは、そのニュースキャスター自身のスタイルで読み上げて、録音した彼らの声を小さな声のサンプルに分割して、最終的な出力でそれらを合成するための、才能ある声を採用することである。これは時間と費用がかかる。ニューラルテキスト読み上げシステムの革新は、音声サンプルの話し方を識別する「スタイルエンコーディング」モジュールを採用していることである。このようにして、システムは、大量のニュートラルスタイルの音声データと、数時間の所望のスタイルの補足データとを組み合わせる。それは、特定の人の話し方に特有なものとは無関係な、スピーチに関してニュアンス、韻律、その他の特性などの側面をモデル化できる。
この発表は、最近のAlexaでのささやきモードの追加に続くものである。ささやきモードでは、デジタルアシスタントとの深夜または早朝モードでの会話で、より柔らかい音声トーンが実現できる。Googleアシスタントはすでにロンドンに拠点を置くAIラボDeepMindによって開発された機械学習に基づく音声合成を使用している。AppleのSiriは、隠れマルコフモデル機械学習を使用して、最大20時間のプロの録音音声から声を合成している。
Rate this Article
- Editor Review
- Chief Editor Action