Meta AI Researchは最近、デジタルアシスタント向けのエンドツーエンドのディープラーニングモデルProject CAIRaokeを発表した。プロジェクトCAIRaokeは現在MetaのPortalデバイスで使われており、リマインダータスクについて評価すると、以前の会話モデルよりも優れている。
Metaは、最近のInside the Labイベントでモデルを発表した。ほとんどの会話型モデルは4つの異なるコンポーネントのパイプラインで構成される。しかし、それと異なり、Project CAIRaokeはタスク指向ダイアログを実行するようにトレーニングされた唯一のニューラルネットワークで構成される。Metaによると、これにより、開発者は以前よりも少ない作業でモデルに新しいタスクドメインを追加でき、必要なトレーニングデータのセットは1つだけとなる。このモデルは現在、Portalでリマインダーを管理するために使われており、以前のアプローチの完了成功率に比べて「大幅に」改善されている。Metaは次のように述べている。
Project CAIRaokeの進歩により、人々とAIの間のより豊かなコミュニケーションを実現できると確信しています。これはメタバースを構築する上で不可欠なツールとなるでしょう。
タスク指向ダイアログシステムと呼ばれることもあるデジタルアシスタントの典型的なアーキテクチャは、自然言語理解(NLU)、ダイアログ状態追跡(DST)、ダイアログポリシー(DP)管理、自然言語生成(NLG)の4つのモジュールのパイプラインで構成される。これにより、開発者は事前に構築されたコンポーネントを利用できる。たとえば、NLUに対してはBERT、NLGに対してはGPT-2がある。ただし、Metaチームによると、このアーキテクチャにはいくつかの問題がある。たとえば、新しいタスクドメインのサポートを追加するには、各コンポーネントを順番に再トレーニングする必要がある。また、アップストリームコンポーネントのエラーは、予期しない形で伝播する可能性がある。
図1:従来のパイプラインダイアログシステム (画像ソース: https://ai.facebook.com/blog/project-cairaoke)
Metaのアプローチは、それら4つのモジュールを置き換える唯一の深層学習モデルをトレーニングすることである。Metaは技術詳細の多くを発表していないが、BlenderBot 2.0用に開発された技術を使って、インターネットから収集した知識を会話に含め、幻覚を減らしていると述べている。Project CAIRaokeには、不快な音声生成を防ぐためのBlenderBotのセーフガードも含まれている。モデルの堅牢性を向上させるために、Metaはデータ拡張技術を使った。これは、分布シフトがある場合や、敵対的攻撃が存在する場合でさえも、モデルのパフォーマンスを向上させることができる。ただし、Metaは、エンドツーエンドモデルのデバッグは「複雑な課題」であると述べている。
図2:CAIRaokeエンドツーエンドダイアログシステム (画像ソース: https://ai.facebook.com/blog/project-cairaoke)
Metaによると、Project CAIRaokeは現在Portalデバイスで使われている。一方で、現時点では、システムの機能の多くに対して野心的のように思われる。Metaは、パーソナライズされたショッピングを支援するためにその役割を拡大することを計画しており、最終的にはARメガネやVRヘッドセットなどのエッジデバイスに展開することを望んでいる。ただし、モデルがサポートする言語の数を増やすなど、「このビジョンを完全に実現するためにやるべきことがもっとある」ことを認めている。
チャットボットとデジタルアシスタントは活発な研究分野である。InfoQは以前、MetaのオープンソースBlenderBot 2.0、およびBaiduのオープンソースチャットボットPLATO-XLについて報告した。InfoQは、大学生が会話型AIモデルを開発するAmazonのAlex Prize SocialBotチャレンジについても取り上げた。Googleは最近、オープンドメインダイアログ用の大規模なTransformerベースのモデルを開発する研究に関する論文を発表した。これは、タスク指向ダイアログとは少し異なる問題である。タスク指向ダイアログはAIがユーザのタスクを実行するのではなく、任意のトピックについて会話するものである。
MetaのBlenderBotのソースコードは、MetatのParlAIオープンソースチャットボットフレームワークの一部としてGitHubから入手できる。