Blenderは、FacebookのAIおよびマシンラーニング部門であるFacebook AI Research(FAIR)が開発した、オープンドメインのチャットボット(chatbot)だ。FAIRによると、複数の会話スキルをブレンドすることを学習した初めてのチャットボットであり、共感を示したり、ほぼ任意のトピックについて議論したりすることが可能で、人間である評価者によるテストにおいてGoogleのチャットボットを凌駕したという。
現在最高のシステムのいくつかは、Webをソースとする巨大なテキストコーパスを使用して、数百万から数十億のパラメータを備えたニューラルネットワークをトレーニングすることで進化しています。私たちの新たなレシピでは、最大94億のパラメータ — 最大規模の既存システムの3.6倍以上 — という大規模なニューラルネットワークに加えて、スキルと詳細なジェネレーションをブレンドするという、その規模と同じ位重要なテクニックを取り入れています。
Blenderは、これまでに公開された、15億の会話例を含むパブリックドメインの会話情報を使用してトレーニングされた。生成されたニューラルネットワークは単一デバイスに収めるには巨大過ぎたため、いくつかの部分に分割することで、さらに大きなデータセットにスケールアップできるようにした。
スキルのブレンディングは、前述のように、Blenderの重要な機能のひとつだ。
ひとつの品質に特化するのではなく、優れたオープンドメインの会話エージェントは、それらをひとつの結束した会話フローへとシームレスにブレンドすることが可能であるべきです。
Blended Skill Talk(BST)と呼ばれる新しいデータセットをベースとするBlenderのスキルブレンディング能力には、一貫したパーソナリティの表示による自然な会話、オープンな話題を対象とした議論を行うナレッジの使用、共感(emphathy)の表現などが含まれている。
このようなスキルのブレンドには大きな困難が伴います。ジョークから深刻な話題に変わった時にトーンを合わせる、というように、適切な時にさまざまなタスクをスイッチする能力がシステムに必要となるからです。
Blendのもうひとつの特徴はジェネレーション戦略へのアプローチにある。ジェネレーション戦略は、チャットボットが自分自身を反復したり、長すぎる、あるいは短すぎる応答をしたり、その他の不備な表示を示したりしないために使用される。Facebookのエンジニアたちは、活発な会話とのんびりした会話との最適なバランスを取る手段として、サンプリングよりもハイパーパラメータを慎重に選択する方法を採用した。
Facebookのエンジニアたちは、Blenderを評価するために、人である評価者にBlenderのパフォーマンスをGoogleの最新のMeenaチャットボットと比較させた。テストはBlenderとMeenaのチャットログを比較することで行った。
Meenaの行うチャットとBlenderの行うチャットが示されると、評価者の67パーセントは私たちのモデルの方が人に近い、75パーセントはMeesaよりもBlenderと長く話したい、と言いました。
Facebookによれば、BlenderがMeesaより進んでいる点は、Blenderのスキルブレンディングとジェネレーション戦略に基づいて説明が可能であるという。驚きだったのは、テスト時に人との会話よりもBlenderとの会話を好ましく思った評価者が49パーセントであったのに対して、ブレンディングスキルを無効にしたモデルを使った場合には、これが36パーセントまで低下したことだ。
人に近いチャットボットの進化はBlenderで終わりではない。矛盾した応答や同じ応答の繰り返しをしたり、事実をでっち上げるような"幻覚"を起こすなど、不備な部分はまだたくさんある。
現在は、新たなアーキテクチャと別の損失関数(loss function)を使って、もっと長い会話でのモデルの会話品質を向上する方法を模索しているところです。会話中の有害な言葉を除去するための、より強力な分類器の開発にも力を入れています。チャットボットの性的バイアスを低減する研究も、一定の成果を収めています。
今後の開発におけるおもな研究分野としては、性的バイアスの低減、有害な言語の排除などが挙げられる。Facebookでは、BlenderがAI研究コミュニティを支援することによって、最先端のチャットボットがさらなる進化を遂げられるように願っている。