最近の論文で発表されたSpirit LMは、話し言葉と書き言葉を混在させたパイプラインを作成し、音声とテキストを同じマルチモーダルモデルに統合することを可能にする。Meta社によれば、テキストと音声トークンのインターリーブに基づく新しいアプローチにより、音声とテキストに別々のパイプラインを使用する従来のソリューションの本質的な制限を回避することが可能になるという。
Meta社の新しいモデルは、7Bで事前訓練されたテキストのみの言語モデル(Llama 2)をベースに、音声を含むように拡張したものだ。この目的のため、モデルはテキストと音声の両方で継続的に学習される。
音声とテキストのシーケンスは1つのトークンストリームとして連結され、自動的にキュレーションされた小規模な音声テキスト並列コーパスを用いて、単語レベルのインターリーブ手法で学習されます。
Meta社によれば、Spirit LMはテキストLLMに期待される意味解析能力と、音声モデルの表現能力を融合させたものだという。しかし、後で説明するように、Spirit LM のテキストのみの性能は Llama 2 よりも若干劣っている。
LLMを拡張して音声入出力をサポートする通常のアプローチは、自動音声認識(ASR)を使って音声をテキストに書き起こし、それをLLMに送り込み、その出力を最終的に音声に変換するというパイプラインを構築することだとMeta社の研究者は説明する。これは、GPT-4oやHumeのEVI 2が採用しているアプローチであり、感情的に変化した音声を生成できると主張している。しかし、Meta社の研究者は述べている。
このようなパイプラインでは、表情豊かな音声のモデリングと生成は言語モデルから制約を受けるため、表現の観点からは生成の質が低下します。
SpiritのLMは、テキストのみのシーケンス、音声のみのシーケンス、インターリーブされたシーケンスの混合で学習される。音声はピッチやスタイル単位だけでなく、音声単位(HuBERT)を表すトークンにも変換される。これにより、単語の境界でランダムにテキストから音声モダリティに切り替えることで、インターリーブされた学習シーケンスを作成できる。
Meta社の研究成果の一つは、Spirit LMはテキストLLMと同様に新しいタスクを学習でき、テキストと音声プロンプトの情緒を保持できることだ。後者の主張は、Meta社の研究者が導入した「Speech-Text Sentiment Preservation」と呼ばれる新しいベンチマークに基づいている。このベンチマークは、音声やテキストの一連のトークンを生成し、それがプロンプトのセンチメントを保持するかどうかをチェックするもので、ポジティブ、ネガティブ、ニュートラルのセンチメントを表示するように事前に分類されている。
前述のように、研究者自身によれば、Spirit LMはテキストプロンプトに対してLlama 2のベースモデルほどの性能を発揮しておらず、これは訓練の改善によって解決したい制限だ。Spirit LMのもう一つの進化は、より大きなモデルをベースとして採用することであり、これによりさらなるパフォーマンスの向上が期待される。
最後の注意点として、Spirit LM はあくまで基礎的なモデルであるため、偽情報やスパムの生成、特定の発言者のなりすましといった悪用に対して安全であるための規定は含まれていない。同様に、Spirit LM は英語のみを対象としているため、様々なアクセントや方言など、社会的に少数派のグループを対象としていない。
Spirit LM には 2 つのバージョンがある。基本バージョンは音声の音素単位(HuBERT)のみを使用し、表現バージョンはピッチとスタイル単位も使用する。このモデルは重みとともに GitHubで公開されているが、ライセンスは非商用利用のみを許可している。