最近のブログ記事で、MicrosoftはAzure Cognitive Servicesに含まれるニューラルネットワークによる音声合成機能のパブリックプレビューを発表した。今回のリリースで、生成された音声は実際の録音と区別がつかなくなる。この技術は、チャットボット、バーチャルアシスタント、電子書籍などデジタルテキストのオーディオブック変換に適用できる。
この技術は、この秋のMicrosoft Igniteで初めて明らかにされたもので、音声品質、ランタイム性能、サービス可用性の面で改善されてきた。
音声品質は、様々な話者による膨大な教師あり事前学習により改善された。さらに、教師なし事前学習からの多くのフィーチャーが含まれており、より堅牢なニューラルモデル設計になっている。Microsoftでテクニカルフェローを務めるXuedong Huang氏は、これら機能強化のメリットについて次のように説明している。
私たちの音声合成機能は、ディープニューラルネットワークを利用することで、韻律と呼ばれる音声言語のアクセントとイントネーションのパターンマッチングと、音素のコンピュータ音声への合成において、従来の音声合成システムの限界を克服しています。
音声合成システムは新しいものではないが、Huang氏は以前のシステムとMicrosoftの最新サービスの違いを次のように説明する。
従来の音声合成システムは、独立したモデルによって支配された言語分析と音響予測という別々のステップに韻律を分解します。これはこもった、うるさい音声合成になる可能性があります。私たちのニューラル機能は韻律予測と音声合成を同時に行います。これにより、より流暢で自然に聞こえる音声になります。
ハードウェアアクセラレーションを用いたコード最適化、並列推論モデル、モデルの単純化により、現在のニューラル音声合成エンジンの性能は以前のバージョンの6倍だ。ランタイム性能はほぼ即時だとMicrosoftは考えている。Huang氏は、今回の機能強化がサービスに与える影響について次のように説明する。
リアルタイムファクターは前のバージョンから0.05X未満に改善されました。つまり、1ミリのオーディオを50ミリ秒未満で生成できます。
Microsoftはコンピュータが生成した音声が「実際の録音と区別がつかない」ことを実証するサンプルをいくつか提供している。
現在、プレビューサービスでは、Jessaと名付けられた女性の声とGuyと名付けられた男性の声を含む、事前に作成された2種類の英語の音声を提供している。今後、独自ブランドの音声を作りたい顧客のためのカスタマイズサービスとともに、追加の言語対応が利用できるようになるだろう。
AKS(Azure Kubernetes Service)はニューラル音声合成サービスを動かす基本インフラストラクチャを提供し、米国、欧州、アジアの3つのデータセンターで利用できる。
プレビュー期間中はディスカウントが利用できる。詳しくはAzureの料金ページを参照してほしい。