IBMの調査チームは最近、SWITCHBOARD言語コーパスを使用して、5.5%の単語誤り率で音声認識における新たな業界記録に達したことを発表した。これは、人の誤認率と言われる5.1%に近づいている。人は通常、聞いた20単語のうち1つから2つの単語を聞き逃している。5分の会話では80語程度となる。
研究プロジェクトでは、ディープラーニング技術を適用し、音響モデルを取り入れている。音声認識モデルは、Long Short Term Memory(LSTM)とWaveNet言語モデルを使用し、3つの音響モデルのスコア融合を行った。音響モデルには、複数の特徴入力を備えたLSTMと、スピーカとの対話型マルチタスクラーニングで学習した別のLSTMと、25の畳み込みレイヤと時間拡張された畳み込みを持つ残差ネット(ResNet)を備えた第3のモデルが含まれている。最後のモデルは、陽性の例から学習するが、陰性の例も活用するため、類似の音声パターンが繰り返されるときにより良い結果が得られる。
モントリオール大学のモントリオール学習アルゴリズム研究所(MILA)のYoshua Bengio氏が音声認識についてコメントした。
近年の目覚しい進歩にもかかわらず、音声認識や物体認識のようなAIタスクのパフォーマンスを人と同じレベルに到達させることは科学的な課題として依然として残っています。実際、標準ベンチマークでは、実際のデータの変動や複雑さが現われているとは限りません。たとえば、データセットが異なれば、タスクの異なった側面に多かれ少なかれ影響を与えることになり、その結果は人間のパフォーマンスがどのように評価するかに大きく左右されます。たとえば、音声認識の場合、熟練したプロの転記者を想定するなどが考えられます。
彼はまた、IBMの研究は、音声認識にニューラルネットワークとディープラーニングを音響モデルと言語モデルに適用し、その進歩に貢献していると述べた。
他の音声処理のニュースとして、IBMはDiarizationをWatson Speech to Textサービスに追加した。この追加は、会話中に個々の話者を区別するようなユースケースに役立つであろう。これらすべての成果は、人間の耳、声、脳がどのように相互作用するかという複雑さに適合する技術の導入に役立つであろう。
Rate this Article
- Editor Review
- Chief Editor Action