Microsoftがニューラルテキスト読み上げAIへの限定アクセスを発表

原文(投稿日：2021/02/14)へのリンク

最近、Microsoftは、Custom Neural Voiceと呼ばれるニューラルテキスト読み上げAIへの制限付きアクセスを発表した。このサービスにより、開発者はカスタム合成音声を作成できる。

Custom Neural Voiceは、Azure Cognitive ServicesのSpeechにおけるText-to-Speech（TTS）機能である。この機能により、ユーザはブランドに合わせて独自のカスタマイズされた合成音声を作成できるようになる。昨年9月のプレビュー以来、この機能はAT&T、Duolingo、Progressive、Swisscomなどの様々な顧客が、顧客向けのブランド音声ソリューションを開発するのに役立った。この機能は一般向けに利用可能（GA）である。ただし、顧客がCustom Neural Voiceへアクセスする際には、サービスの誤用を防ぐための技術的な制御が適用される。顧客はサービスを利用するために申請する必要がある。

カスタムニューラルボイス用のMicrosoftの基盤となるニューラルTTSテクノロジは、3つの主要コンポーネントで構成される。その3つは、テキストアナライザ、ニューラル音響モデル、ニューラルボコーダーである。最初のコンポーネントであるテキストアナライザは、テキストから自然な合成音声を生成する役割を持っている。テキストは最初にテキストアナライザーに入力される。テキストアナライザーは、音素（特定の言語で単語を他の単語と区別する基本的な音の単位）シーケンスの形式で出力を提供する。次に、音素シーケンスは、テキストで提供される単語の発音を定義する。これは、音色、話し方、速度、イントネーション、ストレスパターンなどの音声信号を定義する音響特性を予測するためにニューラル音響モデルに入力される。そして最後に、ニューラルボコーダーは合成音声を生成するために、音響特性を可聴波に変換する。

ニューラルTTS音声モデルは、実際の音声録音サンプルに基づくディープニューラルネットワークを使用してトレーニングされる。カスタムニューラルボイスのカスタマイズ機能により、顧客はニューラルTTSエンジンをユーザシナリオに合わせて調整できる。カスタムニューラルボイスを活用するには、顧客はAzureアカウントとサブスクリプションが必要となる。その後、機能の使用が承認されると、カスタム音声プロジェクトを開始し、データをアップロードし、音声モデルをトレーニング、テスト、デプロイできるようになる。

出典: https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/how-to-custom-voice.md

顧客がカスタムニューラルボイスを利用できるユースケースはさまざまある。例えば、カスタマーサービスのチャットボット、音声アシスタント、オンライン学習、オーディオブック、公共サービスのお知らせ、リアルタイムの翻訳がある。アーリーアダプタの1人であるSwiss.comは、自社のブランドを独自に表す音声アシスタントを構築することで、より魅力的なカスタマーエクスペリエンスを作成したいと考えていた。Microsoftスイスのニュース記事で、著者は次のように書いている。

Swisscomは、スピーチサービスを使って、インテリジェントな多言語音声アシスタントの利用を顧客に提供しています。これにより、顧客体験を向上させ、独自のデジタル変革を加速させられます。

MicrosoftのプリンシパルプログラムマネージャーであるQinying Liao氏は、Azure AIブログの投稿で、カスタムニューラルボイスを活用する利点について説明している。

このテクノロジーを利用したカスタムニューラルボイスを使用すると、ユーザは少数のトレーニングオーディオで非常にリアルな音声を作成できます。この新しいテクノロジーにより、企業はトレーニングデータの準備に従来必要だった労力の10分の1を削減できることができます。同時に、従来のトレーニング方法と比較して合成音声出力の自然さを大幅に向上できます。

さらに、Constellation Research Inc.の主席アナリスト兼副社長であるHolger Mueller氏は、InfoQに次のように語っている。

コンピュータをより人間らしいものにするためには、音声が重要な要素である。2020年には、企業は、過去の合成音声の特徴的な、ロボットの標準化された音声から離れる必要がある。クラウドにより、このレベルのパーソナライズされた音声エクスペリエンスの作成が実現される。それは同時に、可用性、安価なコンピューティング、運用能力を備える。したがって、これはIaaS / PaaSプレーヤー全体に広く利用されるユースケースであり、企業とその顧客、さらには従業員がより人間的な経験を得るのに適している。

最後に、TTS音声モデルをカスタマイズする機能に加えて、Microsoftは54の言語とロケールをカバーする200を超えるニューラルおよび標準音声を提供している。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは Cloud です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco