ワシントン大学のAIを搭載したヘッドフォンで、群衆の中の一人の声を聞き取ることが容易に

原文リンク(2024-06-01)

"ターゲット・スピーチ・ヒアリング "は、ワシントン大学で開発された新しいディープラーニング・アルゴリズムで、ユーザーが話者を"登録"し、その声を取り巻く環境ノイズをすべてキャンセルする。

現在このシステムでは、ヘッドホンを装着している人は、誰かが話しているのを見つめながらボタンをタップするか、3～5秒間その人を見る必要がある。これにより、ディープラーニング・モデルが話者の発声パターンを学習し、そのパターンにラッチするため、リスナーが動き回ったり、話者を見なくなっても、再生できる。

単純なアプローチは、ターゲット話者を登録するためにクリーンな発話例を要求することだ。しかし、これはヒアラブル・アプリケーションの領域には適していない。なぜならば、きれいな発話例を得ることは、実世界のシナリオでは困難であり、ユニークなユーザーインターフェースの問題が生じるからである。我々は、装着者がターゲットの話者を数秒間見て、話者の1つの、短く、非常にノイズの多い、バイノーラル例をキャプチャする、最初の登録インターフェースを提示する。

この登録ステップで重要なのは、装着者がスピーカーの方向を見ていることである。そのため、装着者の音声は2つのバイノーラルマイクロホンで揃うが、他の干渉スピーカーはそろわない可能性が高い。この例は、ターゲットスピーカーの特性を用いてニューラルネットワークを訓練し、対応する埋め込みベクトルを抽出するために使用される。次に、これを別のニューラルネットワークを使って、不協和音の中から目的の音声を抽出する。

研究者らによると、これは既存のノイズキャンセリングヘッドフォンと比べて大きな前進であり、すべての音を効果的に打ち消すことはできるが、スピーカーの音声特性に基づいて選択的にスピーカーを選ぶことはできないという。

これを可能にするために、研究チームは、最先端の音声分離ネットワークTFGridNetを最適化し、組み込みCPU上でリアルタイムに動作させること、合成データを使って現実世界の未知の話者にも汎化できるシステムを構築するためのトレーニング方法を見つけることなど、いくつかの問題を解決しなければならなかった。

セマンティック・ヒアリングの研究者の一人であるShyam Gollakota氏は、彼らのプロジェクトが現在のAIのアプローチと異なる点は、クラウドベースのサービスに依存することなく、オンデバイスAIを使って人々の聴覚知覚を修正することを目指している点だと強調する。

現時点では、システムは一度に一人の話者しか登録できない。もうひとつの制限は、同じ方向から他の大きな声が聞こえてこない場合にのみ登録が成功することだが、ユーザーは最初の結果に満足できない場合、明瞭度を向上させるためにスピーカーに対して再度登録できる。

研究チームはコードとデータセットをオープンソース化し、対象音声の聞き取りを改善するための今後の研究を促進している。

作者について

Sergio De Simone

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco

ワシントン大学のAIを搭載したヘッドフォンで、群衆の中の一人の声を聞き取ることが容易に

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。