最近のブログ投稿において、Googleは自身のCloud Speech APIが一般利用可能(GA)となったことを発表した。このCloud Speech APIにより、開発者は動的な翻訳に加え、動画、画像、そしてテキストの解析のような、認識処理のための訓練済み機械学習を利用可能になった。Cloud Speech APIは昨年の夏にオープンβの形で開始された。
Cloud Speech APIは、Google AssistantとGoogle Homeを含むGoogle自身の音声機能に端を発した、ニューラルネットワークベースの音声認識を活用している。このAPIは現在80以上の言語と変種に関する言語サービスをサポートしている。
- 発話中に即座にテキスト結果を提供するリアルタイムストリーミング
- あらかじめ録音された音声の書き起こし機能のためのバッチ
背景ノイズを除去することにより騒音の多い環境でも操作でき、新しい単語もしくはフレーズを辞書に追加することによりこれらをヒントとして学習することもできる。
一般利用可能の開始にあたり、Googleはいくつかの新機能と性能改善を追加した。
- 長文の音声に対する書き起こし精度の改善
- 処理の高速化。典型的にはバッチの場合に以前のバージョンの3倍高速となった。
- サポートするファイル形式の拡大。WAV、Opus、Speexが加わった。
Google Cloud Next '17における最近の発表で、GoogleのプロダクトマネージャーであるDan Aharon氏は、モバイル、Web、そしてIoTアプリケーションを用いた人間とコンピューターのやりとりを含む、Cloud Speech APIの背景にあるユースケースを示した。このサービスは、カスタマーサービスのシナリオにおいて、ビジネスのための音声解析を行うために使用することも可能である。
出典: (スクリーンショット) https://www.youtube.com/watch?v=7w_w01EGC7U
Aharon氏は音声を使用する背景にある流れと、それが変曲点に達した理由を考察した。
- 音声は高速である(タイピングが分速20・0語であるのに対し150語)
- ・
- より簡単である(階層的UIを必要としない)
- より便利である(ハンズフリーで操作できる)
- Androidアプリケーションの検索の20%は既に音声で行われている
- 常に受話可能な装置(Google Home、Google Pixel、Amazon Echo)が主流になってきている
GoogleはCloud Speech APIの能力を実演する2つの顧客シナリオを披露した。最初の例はAzarというモバイルチャットアプリケーションである。このチャットアプリケーションでは、ユーザが他のユーザとリアルタイムのビデオチャットによりやりとりをすることができる。ストリーミングの動画と音声に加え、ユーザの選択に応じ書き起こしの文章が提供される。これまでのところ、Azarは通算15億以上のマッチングを行い、大規模にサービスが運用されている。
出典: (スクリーンショット) https://www.youtube.com/watch?v=7w_w01EGC7U
Googleが披露したもう1つのユースケースはカスタマーサービスに焦点を当てている。現在、電話を通じてカスタマーサービスを提供している大部分の組織は、サービス開始すぐに顧客満足の目的で会話が録音されていることを伝えている。しかし、組織はそのデータに対して何を行なっているのだろうか? InteractiveTelのCTOであるGary Graves氏は、これらのデータは通常顧客との紛争時のみレビューされていると指摘している。しかし、Graves氏はカーディーラーを含む組織は結果として多くの機会を逃していると感じている。
単に私たちのカーディーラーの顧客がより売上を上げるだけでなく、それは心理的な転換を引き起こしています。なぜなら、それらのディーラーは説明責任を保持しているからです。現場に記録・監視ソリューションがあり、そのことを顧客が知っていることはその1つです。しかし、それは事後の行動であり、通話が問題になる状況でのみそれを活用することになっているからです。一方、Cloud Speechを利用することで、私たちはそれらの会話から行動可能な知見を掘り起こすことができます。これはディーラーが事前に行動でき、より高いレベルのカスタマーサービスを提供することを後押しします。
InteractiveTelがカーディーラーに提供する機能の中には、音声の書き起こしと感情解析ソリューションがある。電話で会話が行われているその場で、InteractiveTelはGoogle Cloud Speech APIを活用したプラットフォームにそれらを通すことができる。結果として、カーディーラーは販売員に行動可能な洞察を与え、通話毎の顧客の感情を知ることができる。
出典: (スクリーンショット) https://www.youtube.com/watch?v=7w_w01EGC7U
Google Cloud Next ’17におけるInteractiveTelのデモの一環として、Graves氏はリアルタイムの音声からテキストの変換やキーワード検知、感情解析を提供するために、彼らの技術をどう使用しているかを実演した。もし顧客が連絡先情報の提供を望んでいないとしても、販売員に頼らずにシステムで正確に捉えられる有用な情報がまだ多く存在する、とGraves氏は感じている。
出典: (スクリーンショット) https://www.youtube.com/watch?v=7w_w01EGC7U