Google Researchチームが、特定の人物の声でテキスト音声変換(TTS)をカスタマイズできるゼロショット音声変換(VT)モデルを開発した。これにより、パーキンソン病やALSなどで声を失った話者が、TTSデバイスを使って元の声を再現できるようになる。このモデルは言語を跨いでも機能する。
このモデルは少数ショットとゼロショット・オペレーションをサポートしており、音声を複製するために必要なのはわずか数秒のリファレンス音声である。これは声を失う前に自身の音声サンプルを多数「保存」していないであろう話者にとって重要な機能である。スピーカー・エンコーダーは音声のスペクトログラムを使って音声埋め込みベクトル表現を作成し、その埋め込み表現はGoogleのモジュール式TTSシステムのデコーダーステージに渡される。実験でGoogleチームは、このシステムが言語を越えて機能し、リファレンス・スピーカーが話さない言語の音声を生成できることを発見した。
スピーチセラピストのRichard Cave氏は、この研究についてXにこう書いている。
自然音声の合成近似がどこに向かっているかの驚くべき事例だ-そしてなんて素晴らしいユースケースだ!エキサイティングな時代だ。
新しいVTモデルは、Googleが開発したTTSシステムをベースにしており、多言語の「発見された」データ(テキストのみのデータ、音声とテキストが対になったデータ、書き起こしされていない音声データを含む)で訓練されている。このシステムは100以上の言語でTTSを行うことができる。システムはテキスト・エンコーダを使って、テキスト・データをトークンのシーケンスに変換する。トークンは次に、出力音声の期待される長さにマッチした別のシーケンスを生成する継続時間予測器に渡される。最終的に音響的特徴を付与するデコーダーに渡される; VTはこのデコーダーによって行われる。
音声変換モデルのアーキテクチャ。画像ソース:Google研究ブログ
Googleは人間の審査員に、人間の話者(「リファレンス」音声)とVTモデルによって生成された音声サンプルのペアを判定させる実験を行った。審査員達はサンプルが同一話者によるものか判断を求められ、76%の割合で同一話者であると審査員達は考えた。同様の実験を英語以外の言語を母国語とする審査員にも行った。音声のペアには英語のリファレンス音声と、審査員の母国語の生成音声が含まれていた。審査員達は73%の割合で同一話者だと考えた。
AIによる音声変換は活発な研究テーマであり、InfoQは最近いくつかのVTシステムを取り上げた。2023年、InfoQは、3秒間の音声録音で音声を複製できるマイクロソフトのVALL-E、6ヶ国語の音声を生成でき、音声録音の編集やノイズ除去もできるメタのVoicebox、TTS、自動音声認識(ASR)、音声変換を伴う音声合成翻訳(S2ST)を実行できるGoogleのAudioPaLMについて書いた。今年初め、InfoQはボイスクローニングをサポートするAmazonのBASE TTSを取り上げた。
AIモデルの音声クローン能力は悪用される懸念がある。Googleの新VTモデルの場合、研究者は音声透かしを出力に加えた:それは「合成された音声波形内の知覚できない情報」であり、ソフトウェアで検出できる。