マイクロソフトはこのほど、Cognitive Speech Serviceの新機能として、発音評価、新しいSTT(Speech to Text)言語、プリビルドおよびカスタムニューラルボイスの強化により言語学習を加速させることを発表した。
Microsoft Azure Cognitive Speech Servicesは、Speech to Text、Text to Speech、カスタムニューラルボイス(CNV)Conversation Transcription Service、Speaker Recognition、Speech Translation、Speech SDK、Speech Device Development Kit(DDK)といった技術やサービスの包括的なコレクションで、アプリケーションへの音声取り込みを加速させる。
発音評価は、Azure Cognitive ServicesポートフォリオのSpeech Serviceの機能で、アメリカ英語、イギリス英語、オーストラリア英語、フランス語、スペイン語、中国語を含む10以上の言語とバリエーションで公開されており、さらにプレビュー中の言語もある。Azure Neural Text-to-Speech and Transformerモデル、順序回帰、および階層構造を利用して、単語レベルの評価の精度を向上させ、あらゆる背景の言語学習者にスキルアップを提供している。
さらに、Azure Speech to textは、多言語学習シナリオのためのリアルタイムの言語識別をサポートし、わかやすく読みやすい文脈で人と人の対話を支援する。このサービスの新しいSpeech-to-Text(STT)言語は、最新の多言語モデリング技術と伝達学習技術を活用した膨大な量のデータに基づいており、逆テキスト正規化(ITN)、大文字表記(適切な場合)、読みやすさを高める自動句読点を含む出力を提供している。
最後に、Microsoft Azure AIは、AI教師やコンテンツ読み上げ機能などのために、さまざまな組み込み済みのニューラルボイスを提供する。また、Custom Neural Voice(CNV)は、人間の音声サンプルをトレーニングデータとして使用し、アプリケーション用にカスタマイズされた独自の合成音声を作成できる。CNVはニューラルボイス合成技術をベースにしており、ブランドを表現したり、機械を擬人化して会話するのに優れている。教育関連企業では、例えばDuolingoやPearsonのように言語学習のパーソナライズにこの技術を利用している。
マイクロソフトのプリンシパル・プログラム・マネージャーであるQinying Liao氏は、Azure Techコミュニティーのブログ記事でこう述べている:
Microsoftは、140以上の言語とロケールをカバーする400以上のニューラルボイスを提供しています。これらのText-to-Speechボイスを使用すると、よりアクセシブルなアプリ設計のために読み上げ機能を迅速に追加したり、チャットボットに声を与えてユーザーに豊かな会話体験を提供できます。
Azure AIのシニアプロダクトマーケティングマネージャーであるAndy Beatman氏は、Azure AIのブログ記事で次のように述べている:
AI、特にスピーチサービスの教育分野への統合は、学習体験を大きく向上させ、教育効果を高めることができるため、ますます重要になってきています。Azure Pronunciation AssessmentやCustom Neural Voiceなどの音声サービスは、教育プラットフォームにおいてパーソナライズ、自動化、分析を提供し、生徒のエンゲージメントと成果の向上につなげることができます。
最後に、Azure Cognitive Speech Servicesの詳細については、ドキュメントのランディングページで確認可能だ。さらに、ユーザーはSpeech Studioを使用して、カスタム音声機能が音声の認識向上にどのように役立つかをテストができる。