InfoQ ホームページニュースディープラーニング技術を使用してIBMは音声認識で新たなマイルストーンを達成

ディープラーニング技術を使用してIBMは音声認識で新たなマイルストーンを達成

2017年4月12日読了時間 2 分

作者：

Srini Penchikala
Senior Software Architect

翻訳者

編集部Ｔ

原文(投稿日：2017/03/31)へのリンク

IBMの調査チームは最近、SWITCHBOARD言語コーパスを使用して、5.5％の単語誤り率で音声認識における新たな業界記録に達したことを発表した。これは、人の誤認率と言われる5.1％に近づいている。人は通常、聞いた20単語のうち1つから2つの単語を聞き逃している。5分の会話では80語程度となる。

研究プロジェクトでは、ディープラーニング技術を適用し、音響モデルを取り入れている。音声認識モデルは、Long Short Term Memory（LSTM）とWaveNet言語モデルを使用し、3つの音響モデルのスコア融合を行った。音響モデルには、複数の特徴入力を備えたLSTMと、スピーカとの対話型マルチタスクラーニングで学習した別のLSTMと、25の畳み込みレイヤと時間拡張された畳み込みを持つ残差ネット（ResNet）を備えた第3のモデルが含まれている。最後のモデルは、陽性の例から学習するが、陰性の例も活用するため、類似の音声パターンが繰り返されるときにより良い結果が得られる。

モントリオール大学のモントリオール学習アルゴリズム研究所（MILA）のYoshua Bengio氏が音声認識についてコメントした。

近年の目覚しい進歩にもかかわらず、音声認識や物体認識のようなAIタスクのパフォーマンスを人と同じレベルに到達させることは科学的な課題として依然として残っています。実際、標準ベンチマークでは、実際のデータの変動や複雑さが現われているとは限りません。たとえば、データセットが異なれば、タスクの異なった側面に多かれ少なかれ影響を与えることになり、その結果は人間のパフォーマンスがどのように評価するかに大きく左右されます。たとえば、音声認識の場合、熟練したプロの転記者を想定するなどが考えられます。

彼はまた、IBMの研究は、音声認識にニューラルネットワークとディープラーニングを音響モデルと言語モデルに適用し、その進歩に貢献していると述べた。

他の音声処理のニュースとして、IBMはDiarizationをWatson Speech to Textサービスに追加した。この追加は、会話中に個々の話者を区別するようなユースケースに役立つであろう。これらすべての成果は、人間の耳、声、脳がどのように相互作用するかという複雑さに適合する技術の導入に役立つであろう。

このコンテンツのトピックは応用研究です。

デベロップメント
デベロップメント

人のフォロワー: 55
設計/アーキテクチャ
設計/アーキテクチャ

人のフォロワー: 97
AIと機械学習、データエンジニアリング
AIと機械学習、データエンジニアリング

人のフォロワー: 76
Big Data
Big Data

人のフォロワー: 6
IBM
IBM

人のフォロワー: 1
データベース
データベース

人のフォロワー: 12
Artificial Intelligence
Artificial Intelligence

人のフォロワー: 2
応用研究
応用研究

人のフォロワー: 0

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

We protect your privacy.

Login with:

アカウントをお持ちでない方

ディープラーニング技術を使用してIBMは音声認識で新たなマイルストーンを達成

このコンテンツのトピックは 応用研究 です。

関連記事:

関連記事

関連するコンテンツ

スポンサードコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは応用研究です。