BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Googleの音声AI AudioPaLMが音声転送で翻訳を行う

Googleの音声AI AudioPaLMが音声転送で翻訳を行う

Googleの研究者は、音声転送によるテキスト音声変換 (TTS)、自動音声認識(ASR)、音声翻訳(S2ST)を行う大規模言語モデル(LLM)であるAudioPaLMを発表した。AudioPaLMはPaLM-2 LLM をベースにしており、翻訳ベンチマークではOpenAIのWhisperを上回っている。

AudioPaLMはデコーダのみのTransformerベースのモデルであり、テキスト入力と音声入力を単一の埋め込み表現に統合する。個別のASR、機械翻訳(MT)、TTSモデルのカスケードを使用する従来のS2STモデルとは異なり、AudioPaLMは話者の声のような音響特徴を保持できまる。AudioPaLMは、S2STとASRベンチマークで最先端のスコアを達成し、また、ゼロショット能力を示し、学習データに存在しない入力とターゲットの組み合わせでASRを実行するのだ。FLEURSデータセットで評価したところ、AudioPaLMはASRタスクにおいてOpenAIのWhisperを"著しく"上回った。

InfoQは最近、他の多言語AI音声モデルをいくつか取り上げた。2022年、OpenAIは97 の異なる言語からの音声音声を文字起こしおよび翻訳できるエンコーダー/デコーダーTransformerベースのASRモデルWhisperをリリースしたのである。今年初め、Metaは1,100以上の言語のASRとTTSが実行できるwav2vecベースのモデル、MMSをリリースした。

これらとは対照的に、AudioPaLMはデコーダのみのTransformerベースのモデルだ。これは、事前に訓練されたPaLM-2に基づいている。このモデルのトークン辞書は、音声波形の短いセグメントを表すアコースティックトークンを含むように拡張される。これらは、元のモデルのテキスト・トークンと同じ埋め込み空間にマッピングされるのだ。モデルへの入力は、音声とテキストの両方で構成される。テキスト入力には、「[ASR Italian]」のようなタスクの短い説明が含まれる。モデルの出力がデコードされると、音響トークンはAudioLMモデルを使用して音声波形に変換されるのである。

AudioPaLMアーキテクチャ 出典: https://google-research.github.io/seanet/audiopalm/examples/

AudioPaLMは、100以上の言語から抽出された数千時間の音声データで学習された。CoVoST2(AST)、CVSS(S2ST)、VoxPopuli(ASR)を含むいくつかのベンチマークで評価された。ASTとS2STではベースラインモデルを上回り、ASRでは"競争力"があった。FLEURSベンチマークを使用したゼロショットASTでは、AudioPaLMはWhisperを"著しく"上回った。また、Whisperは学習済みだがAudioPaLMは未学習の言語を含むASRタスクにおいても、Whisperを上回った。

研究者らは、AudioPaLMの音声生成品質、特にS2ST中に元の話者の音声を保持することに関しても評価した。研究チームは、"客観的指標と主観的評価研究"を組み合わせて、AudioPaLMの性能をベースラインモデルと比較し、AudioPaLMがベースラインを"著しく"上回ることを発見した。Googleチームは論文の中で、音声生成の品質を測定するためのより良いベンチマークの必要性を指摘している。

テキストと比較して、生成テキスト/音声タスクのための確立されたベンチマークのセットの豊富さは、あまり発展していない。この研究は、ベンチマークがより成熟している音声認識と音声翻訳に焦点を当てている。生成音声タスクのためのより多くのベンチマークとメトリックの確立は、研究をさらに加速するのに役立つだろう。

AudioPaLM については、Hacker News のスレッドで複数のユーザーが議論している。LLMが "幻覚を見る "傾向があることから、LLMの翻訳精度に関する質問に対して、あるユーザーは、AudioPaLMのような最先端のモデルでは、幻覚は "ほぼ存在しない "と述べた。AudioPaLMの翻訳に関して、別のユーザーは次のように述べている。

印象的なのは、"Morgenstund hat Gold im Mund"(朝の時間は金を口に含んでいる)を直訳するのではなく、"早起きは三文の得"という英語表現に置き換えていることだ。

AudioPaLMの出力例は、ウェブ上でいくつか見ることができる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT