GoogleはCloud Text-to-Speechの一般提供を開始すると発表した。これにより、自然な音声出力をデバイスやアプリケーションに追加することが可能になる。さらにGoogleは、Cloud Speech-to-Textをアップデートして、より広範な機能セットを追加すると同時に、可用性と信頼性を向上したことも発表した。
今年3月の発表以来、Cloud Text-to-Speechには、人の声をより自然な音にする技術であるWaveNet音声のより多くの言語への対応が、ユーザから求められてきた。Googleは、17種類の新たなWaveNet音声を追加することによって、さらに多くの言語でCloud Text-to-Speechを使ったアプリ構築が可能になることを期待している。現時点では、14の言語とバリエーションで、30の標準音声と26のWaveNet音声による、合計56の音声をサポートしている。
GoogleのCloud To-Speechではさまざまなテクノロジを活用しており、そのひとつがWaveNetである。WaveNetは、よりリアルで鮮明な音声出力が可能な、生のオーディオ波形を生成するディープニューラルネットワークだ。Googleはさらに、text-to-speechで使用すオーディオプロファイル(ベータ版)を提供しており、さまざまな種類のハードウェア上での再生用にサービスを最適化することが可能になっている。その一例としてGoogleは、発表の中で次のように述べている。
オーディオが電話回線、ヘッドフォン、あるいはスピーカで再生される意図のあることを指定して、オーディオを再生用に最適化することが可能になりました。例えば、アプリケーションの音声が主としてヘッドフォンで聞かれる場合、特にヘッドフォンに最適化された合成音声をCloud Text-to-Speech APIで生成することができます。
7月のGoogle Cloud Nextで発表されたCloud Speech-to-Textの新機能が、今回、ベータ版として利用できるようになった。言語を自動識別して複数の言語を受け入れ可能なアプリケーションの開発や、スピーカダイアライゼーション(speaker diarization)による話者の分離、複数チャネル認識、ワードレベルでの信頼性向上などが実現する。
Google Text-to-Speechの基本は、人の声を解釈して内容を記録する転記サービスである。さらに、このサービスでは、カンマやピリオドといった、適切な句読点を出力テキストに付加することもできる。Googleは今後、サービスをさらに拡充して、Cloud Natural Languageを使ったセンチメント分析を含む、複数話者の転記が可能な新しいマルチチャネル認識機能に進化させる予定である。オーディオサンプルがチャネルに分離していない場合、開発者はスピーカダイアライゼーションと呼ばれる機能を使用して、APIパラメータとして話者の数をインプットすることができる — 今回の発表によれば、マシンラーニングを経由することで、次のような機能が可能になる。
Cloud Speech-to-Textは、各ワードをスピーカ(speaker、話者)番号でタグ付けします。ワードにアタッチされたスピーカタグは、データ受信に伴って継続的にアップデートされます。これによってCloud Speech-to-Textは、誰が話しているのか、何を話しているのかを、より明確に把握できるようになります。
出典: https://cloud.google.com/blog/products/ai-machine-learning/announcing-updates-to-cloud-speech-to-text-and-general-availability-of-cloud-text-to-speech
スピーカダイアライゼーションとマルチチャネル認識機能に加えて、Cloud Speech-to-Textは複数の言語を受け入れて、それらを自動的に識別することができる。この機能では、音声とコマンド機能を使用して、Cloud Speech-to-Textのクエリに最大4つの言語コードを加えて送信することが可能だ。クエリを受信したAPIは、会話されている言語を判断し、トランスクリプトをその言語で返す。最後の機能は、ワードレベルの信頼性スコアである。これにより、特定の単語を強調するアプリを開発し、そのスコアに従って、必要に応じてそのワードを繰り返すようにユーザにユーザに指示するコードを記述することができる。
パブリッククラウドで利用できるのは、Googleの提供するSpeech-to-Textサービスだけではない。AmazonはAWS上で提供するPollyには、54種類の音声がリストされている。また、Microsoftの提供するText to Speechサービスはまだプレビュー段階だが、45以上の言語で75以上の音声を備えている。さらに、GoogleのSpeech-to-Textは、AWSのAmazon Transcribeという、一般提供されている機能豊富なサービスと競合することになる。また、こちらもプレビュー段階だが、MicrosoftもSpeech to Textサービスを用意している。このような競合の他に、サービスのユーザも、これらのスピーチとテキストのサービスに対して、さまざまな意見や議論を述べている。Hacker Newsの“Google text and speech service”スレッドでは、参加者のひとりが次のようにコメントしている。
主要なクラウドサービスプロバイダが揃ってこの価格でサービスを提供しているのだから、このコストが総コストの大きな部分を占めるようになるまでは、どのサービスを使っても大差ないのではないでしょうか。そうであれば、Googleが価格を引き上げるまでこのサービスを使って、その時になったらどうするか決めればよいのでは?結局のところ、APIコールに過ぎないのですから。
Mike Wheatley氏が先日、Silicon Angleに寄せた記事によれば、GoogleはCloud Text-to-Speechサービスで3つの市場を主要なターゲットとしている。
- コールセンタ用の音声応答システム。Cloud Text-to-Speechによって、リアルタイムな自然言語での会話が可能になる。
- IoTのセクタ。特にカーインフォメーションシステムやTV、ロボットといった製品で、デバイスからユーザへの音声による通知が可能になる。
- ポッドキャストやオーディオブックなど、テキストを音声に変換するアプリケーション。
Speech-to-TextとCloud Text-to-Speechの両サービスは、ともに試用が可能である。Speech-to-Textの価格設定の詳細は、価格ページを参照して頂きたい。Text-to-Speechの価格設定についても、同じく価格ページで確認することができる。
この記事を評価
- 編集者評
- 編集長アクション