先日行われたAssociation for Computational Linguistics(ACL)の年次ミーティングでは、自然言語処理(Natural Language Processing、NLP)に関連するさまざまなAIの話題を取り上げた合計779件の論文が発表されたが、その中の200件近くは、Facebook、Google、Microsoft、Amazon、Salesforceなどのハイテク企業の研究チームによるものだった。
カンファレンスはオンラインで7月初めに開催され、Amazon ScholarのKathleen R. McKeown氏が基調講演を行った。NLPに関するワークショップやチュートリアルに加えて、産業界と学界のAI研究者たちが、自身の最新の成果を779件の論文で発表した。著名なハイテク企業からも多くの研究者が参加しており、最優秀論文に選ばれたものを含む56論文を提供したMicrosoftを筆頭に、Facebookが32件、Googleが31件、IBMが20件、Amazonが17件、Salesforceが9件の論文を発表した。
ACLカンファレンスは"数理言語学(computational linguistics)分野における最高のカンファレンス"だ。58回目となる今年のイベントは、ワシントン州シアトルで7月5~10日に開催される予定だったが、世界的なパンデミックの影響により、完全バーチャルなイベントに変更された。今年のカンファレンスのテーマは"これまでの活動とこれからの活動を把握する"という、NLPの60年間の進化を反映した数々の論文に関わるものだった。このテーマの下でAmazon ScholarのKathleen R. McKeown氏は、"Rewriting the Past: Assessing the Field through the Lens of Language Generation"と題して基調講演し、NLPの過去、現在、将来に関して、この分野の専門家たちにインタビューしたクリップを紹介した。
イベントの形式は学術的なカンファレンスに倣ったもので、NLPにおける25のさまざまな領域から提出された779件の研究論文によるプレゼンテーション、8件のNLPチュートリアル、19件のワークショップ --- 通常ならば丸1日を要するな集中的な"サブカンファレンス"の縮小版 --- が実施された。今年のカンファレンスには3,429件という、これまでで最も多い論文の提出があった。これは2年前の倍以上の数であり、提出数の60パーセントをUSAと中国が占めていた。論文の受理率は約25パーセントで、例年と同じであった。
Microsoftの研究者たちは50を越える論文を提出した。その中には、カンファレンスの最優秀論文を勝ち取った"Beyond Accuracy: Behavioral Testing of NLP Models with CheckList"というタイトルの論文も含まれている。カリフォルニア大学アーバイン校教授のSamir Singh氏との共著であるこの論文では、"NLPモジュールをテストするためのタスク非依存な方法論"であるCheckListを導入している。論文を書いた理由について、Singh氏は次のように説明する。
さまざまなデータセットによって、精度の面で人間を圧倒するNLPモデルを目にすることが多くなりましたが、これらのモデルにも、いまだ人間に劣っているタスクが数多くあります ... これらモデルの評価方法におけるこのミスマッチに対して、私たちには何ができるのでしょうか、そして、"真の"パフォーマンスとは何なのでしょうか?
CheckListは、期待するアウトプットのあるインプット文を入れ替えることによって、NLPモデルのテストケースを生成する。例えば"否定(negation)"は、"I love the food"を"I don't love the food"に変換することで、期待される感情分類をポジティブからネガティブに変化させる。このCheckListをMicrosoft Azure Text Analytics、Google CloudのNatural Language、Amazon Comprehendなど、いくつかのコマーシャルな感情分析モデルに使用した結果、いずれのモデルも否定テストを実行できないことが判明した。研究者らはCheckListツールのオープンソースバージョンを、論文の結果を再現可能なサンプルコードとともにリリースしている。
巨大ハイテク企業であるGoogleとFacebookは、機械翻訳やBERT Transformerモデルによる新たなイテレーションなど、いくつかのトピックに関して30程度の論文を提出している。GoogleはMobileBERTという、"リソースの制限された"デバイス用のコンパクトなモデルを公開した。このモデルは大規模なBERTモデルに比べて4.3倍小さく、5.5倍高速に動作する。さらにGoogleは、他の自然言語生成モデルのメトリクス評価用にチューニングされたBERTモデルのBLEURTも紹介した。Facebookは、いくつかのNLPタスクで新次元のパフォーマンスを達成する汎用化BERTのBART、フランス語タスク用のTransformerベースのモデルであるCamemBERT、GoogleのTAPASと同じように表形式データに関する質問に答えるためのモデルであるTaBERTなどについて講演した。
一部のハイテク企業は、コンテンツ提供に加えてイベントのスポンサでもある。Google、Amazon、Apple、Bloombergは"ダイアモンド"レベルのスポンサである。ただし、Amazonの研究者たちが17論文の発表と基調講演を行っているのに対して、Bloombergのプレゼンテーションは6件、Appleは3件に過ぎない。FacebookとIBMは"プラチナ"スポンサで、IBMは20件の論文も発表している。
Hacker Newでの最優秀論文に関する議論では、AI研究者のJeff Huang氏がリンクで紹介したこの種の賞に関する過去の歴史に対して、別のユーザが、次のように述べている。
Microsoft Researchが常にリーダとして、[コンピュータ科学における]優秀論文賞を他のどのトップ大学よりもたくさん受賞しているというのは、ちょっと驚きです。すごいですね。このこと自体が、Microsoft Researchについて物語っているのではないでしょうか。
カンファレンスの論文と使用されているコードの大部分は、Papers with Codeで公開されている。