テルアビブ大学(Tel-Aviv University)、Meta AI、IBM Research、Allen Institute for AI(AI2)の研究者らが、さまざまな分野から収集した長いテキスト列を処理対象とする自然言語処理(NLP)ベンチマーク用のタスクセットを、Standardized CompaRison Over Long Language Sequences(SCROLLS)としてリリースした。ベースラインのNLPモデルを対象とした実験結果からは、現行のモデルに改善の余地が多くあることが示唆されている。
このベンチマークとベースライン試験に関しては、arXivで公開された論文で解説されている。SCROLLSは、自然言語理解(NLU)、質疑応答、要約といったNLPタスクにおけるモデルのパフォーマンスを、数千字のテキストを含んだ7種類のデータセットで評価する。各データセットは、政府報告書、科学論文、法律文書、映画やテレビの台本、文献などから収集されたものだ。限定的な数の文ではなく、より長いテキストでNLPモデルを比較できるように、NLPコミュニティの能力を向上させることが、このベンチマークの目標である。研究者らは言う。
SCROLLSがNLPコミュニティにおいて、たったひとつの文や段落という段階を脱し、より長い文章を対象とした処理や推論というテーマに対処する契機になれば、と願っています。
ディープラーニングNLPモデルではTransformerがアーキテクチャの主流となっているが、Transformerの欠点のひとつは、処理可能な入力の最大長が限られている上に、その2乗でモデルに必要な計算能力とメモリ容量が増加する、という点にある。これに対象するために、ベーシックなTransformerに対する多くの改良が行われてきた。sparse TransformerやReformer、Performerなどがその例だ。しかしSCROLLチームは、これらさまざまなソリューションの評価タスクやメトリクスがモデル毎に統一されていないことが多く、それがテキスト内の長距離依存性(long-range dependencies)を処理するモデルの能力比較を難しいものにしている、と指摘する。
これに対処するため、同チームは、"自然な長さの文章"を含んだ既存のデータセットを手作業でキュレーションした上で、共通フォーマットに処理した。各データセットには、対応するNLPタスクがある。
- GovReport: 政府報告書から、役員向けのサマリを生成する
- SummScreenFD: TVショーの台本から、"要約(recap)"を生成する
- GMSum: 学術、企業、政府の会議記録から、クエリベースの要約を生成する
- Qasper: 学術論文から、内容に関する質問に回答する。
- NarrativeQA: 書籍または映画の台本から、内容に関する質問に回答する。
- QuALITY: 物語や記事から、内容に関する多肢選択型の質問に回答する。
- Contract NLI: 法的な契約から、法的な声明がその契約に"伴う"ものとできるかを推測する。
その上で、BARTとLongformer Encoder-Decoder(LED)という2つのベースラインTransformerモデルをSCROLLSでベンチマークした。さらに、単純に入力の最初を出力として再利用するという、SCROLL用の"ナイーブ"なヒューリスティックベースラインを作成して、その結果の評価も行った。その結果、モデルのパフォーマンスにいくつかの傾向があることが明らかになった。まず、いずれのモデルも、与える"コンテキスト"あるいは入力シーケンスが長いほど、パフォーマンスも向上した。コンテキスト長が同じ場合は、BARTがLEDの性能を上回った。これは"LEDの最適化が不十分である可能性を示唆"している。また、いずれのモデルも、ナイーブなヒューリスティックを"7~10ポイント"上回っていた。他の多くのNLPベンチマークとは異なり、このベンチマークでは、人レベルのパフォーマンススコアのレベルを特定することはできなかった。しかしチームでは、SCROLLSデータセットのいくつかで実施した結果から、それは"現在のベースラインよりもはるかに高いだろう"と結論付けており、モデルに改善の余地が多く残っていることを示唆している。
Twitter上の議論では、AI2の研究者であるSameer Singh氏の、短いテキストのNLUが解決されたと考えているか、という質問に対して、SCROLLSの作者のひとりであるOmer Levy氏が次のように返答している。
短いコンテキストで行うべき研究はまだたくさんありますが、単一文という快適領域から踏み出して、過小評価されているこの領域にもっと重点を置くべき時期に来ているのかも知れません。ほんの少し前まで、セマンティクス(NLU)では何もかもがうまくいってなかったので、ベンチマークの設計においても、文の類似性/内包性を超える必要はありませんでした。これらの問題が必ずしも解決された訳ではありませんが、BERT以降、状況が変わっていることは確実です。
SCROLLSデータセットはベンチマークのWebサイトで、論文の実験を再現するためのコードはGitHubで、それぞれ公開されている。