最近のブログ記事で、Googleは彼らの話者ダイアリゼーション技術をオープンソース化したと発表した。それによって人々の声を高い精度で区別することができる。Googleは、複数の参加者を含むオーディオストリームを参加者ごとの同種のセグメントに分割することでこれを実現できる。
音声を同種のセグメントに分割することには多くの応用がある。Googleのリサーチサイエンティスト、Chong Wang氏は次のように説明する。
「誰がいつ話したのか」という問題を解決することで、話者ダイアリゼーションは、医学的会話の理解、ビデオキャプションの作成など、多くの重要なシナリオに応用できます。
会話を正確にセグメント化できるようになると、オンラインとオフラインの両方のダイアリゼーションシステムの品質が向上する。これはヘルスケア業界で多くの実用的な恩恵をもたらす。最近のAnnals Family Medicine Journalが次のように報告している。
医師は、文書化された電子健康記録(EHR)に、11時間の勤務時間のうち6時間を費やすこともあります。その結果、ある調査によると、調査を受けた医師の半数以上が少なくとも1回は燃え尽き症候群となったことを報告しています。
教師付き学習を使用して音声ディクテーションシステムをトレーニングすることはこれまで困難であったとWang氏は説明する。
教師付き学習でこれらのシステムを訓練することは困難です。標準的な教師付き分類作業とは異なり、強固なダイアリゼーションモデルには、訓練に関与していなかった別個の音声セグメントと新しい個人を関連付ける能力が必要です。重要なこととして、これはオンラインとオフラインの両方のダイアリゼーションシステムの品質に影響します。
ストリーミングオーディオ入力でオンライン話者ダイアリゼーションを使用すると、次の図に示すように、下の軸に異なる色で表示されているさまざまな話者を検出できる。
画像引用元: https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html
Googleは Fully Supervised Speaker Diarizationと呼ばれる研究論文を発表した。そこでは、従来のアプローチよりも効果的な方法で教師付き話者ラベルを使用する新しいモデルが導入された。このモデル内では、会話に参加している話者の数を識別する推定が行われ、それによってラベル付きデータの量が増加する。
NIST SRE 2000 CALLHOMEベンチマークの一部で、Googleの手法は7.6%という低いダイアリゼーションエラーレート(DER)を達成した。DERは「ダイアリゼーション出力で誤ってラベル付けされた入力信号のパーセンテージ」として定義される。これは、クラスタリングベースの方法を使用して達成された8.8% DERと、ディープニューラルネットワーク埋め込み方式を使用して達成されている9.9% DERを超える改善である。
最近の話者ダイアリゼーションシステムは、通常、k平均またはスペクトルクラスタリングのようなクラスタリングアルゴリズムを利用する。Wang氏は、これらのアプローチを使用することのいくに対するいくつかの欠点を説明している。
これらのクラスタリング方法は教師なしですので、データ内の教師つき話者ラベルをうまく利用することができませんでした。さらに、オンラインクラスタリングアルゴリズムは、ストリーミングオーディオ入力を伴うリアルタイムダイアリゼーションアプリケーションでは通常、品質が悪くなります。我々のモデルと一般的なクラスタリングアルゴリズムの主な違いは、我々の方法では、すべての話者の埋め込みがパラメータ共有リカレントニューラルネットワーク(RNN)によってモデル化されていることです。そして、時間領域でインターリーブされた、異なるRNN状態を使用して異なる話者を区別します。
このモデルがどのように機能するかを説明するために、4つの異なる話者(モデルは未知数の話者に対応できる)を考える。それぞれを独自の色(青、黄、ピンク、緑)で表す。各話者は、独自のRNNインスタンスを持ち、初期状態がすべての話者間で共有される。話者は別の話者が話し始めるまで自身のRNNを更新し続ける。たとえば、青い話者は黄色い話者に移行するまでに会話を開始するかもしれない。これら両方の時間枠の間、各話者は、自身が話している間に自身のRNNを更新する。会話がある話者から別の話者に移るにつれて、これはすべての参加者にまたがって起こる。
画像引用元: https://ai.googleblog.com/2018/11/accurate-online-speaker-diarization.html
Wang氏は、RSS状態を使用することが重要である理由を説明している。
話者をRNN状態として表現することで、RNNパラメータを使用して、さまざまな話者や発話で共有される高度な知識を習得することができます。これにより、ラベル付きデータの有用性が高まります。これとは対照的に、一般的なクラスタリングアルゴリズムは、ほとんどの場合、各単一の発話を個別に処理するため、大量のラベル付きデータの恩恵を受けることは困難です。
RSSの状態に基づくアプローチを使用することによる出力は、誰がどのくらいの期間話したかを識別するタイムスタンプ付きの話者ラベルである。さらに、このアプローチはリアルタイム性が要求されるアプリケーションに適している。
今後も、GoogleはDERをさらに削減し、オフラインのデコードを実行するためにコンテキスト情報を統合していく。話者ダイアリゼーション技術についてさらに学ぶために、Googleは論文を発表し、そのソースコードをGitHubで公開した。
Rate this Article
- Editor Review
- Chief Editor Action