テルアビブ大学、長文NLPベンチマークSCROLLSをリリース

原文(投稿日：2022/03/01)へのリンク

テルアビブ大学(Tel-Aviv University)、Meta AI、IBM Research、Allen Institute for AI(AI2)の研究者らが、さまざまな分野から収集した長いテキスト列を処理対象とする自然言語処理(NLP)ベンチマーク用のタスクセットを、Standardized CompaRison Over Long Language Sequences(SCROLLS)としてリリースした。ベースラインのNLPモデルを対象とした実験結果からは、現行のモデルに改善の余地が多くあることが示唆されている。

このベンチマークとベースライン試験に関しては、arXivで公開された論文で解説されている。SCROLLSは、自然言語理解(NLU)、質疑応答、要約といったNLPタスクにおけるモデルのパフォーマンスを、数千字のテキストを含んだ7種類のデータセットで評価する。各データセットは、政府報告書、科学論文、法律文書、映画やテレビの台本、文献などから収集されたものだ。限定的な数の文ではなく、より長いテキストでNLPモデルを比較できるように、NLPコミュニティの能力を向上させることが、このベンチマークの目標である。研究者らは言う。

SCROLLSがNLPコミュニティにおいて、たったひとつの文や段落という段階を脱し、より長い文章を対象とした処理や推論というテーマに対処する契機になれば、と願っています。

ディープラーニングNLPモデルではTransformerがアーキテクチャの主流となっているが、Transformerの欠点のひとつは、処理可能な入力の最大長が限られている上に、その2乗でモデルに必要な計算能力とメモリ容量が増加する、という点にある。これに対象するために、ベーシックなTransformerに対する多くの改良が行われてきた。sparse TransformerやReformer、Performerなどがその例だ。しかしSCROLLチームは、これらさまざまなソリューションの評価タスクやメトリクスがモデル毎に統一されていないことが多く、それがテキスト内の長距離依存性(long-range dependencies)を処理するモデルの能力比較を難しいものにしている、と指摘する。

これに対処するため、同チームは、"自然な長さの文章"を含んだ既存のデータセットを手作業でキュレーションした上で、共通フォーマットに処理した。各データセットには、対応するNLPタスクがある。

GovReport: 政府報告書から、役員向けのサマリを生成する
SummScreenFD: TVショーの台本から、"要約(recap)"を生成する
GMSum: 学術、企業、政府の会議記録から、クエリベースの要約を生成する
Qasper: 学術論文から、内容に関する質問に回答する。
NarrativeQA: 書籍または映画の台本から、内容に関する質問に回答する。
QuALITY: 物語や記事から、内容に関する多肢選択型の質問に回答する。
Contract NLI: 法的な契約から、法的な声明がその契約に"伴う"ものとできるかを推測する。

その上で、BARTとLongformer Encoder-Decoder(LED)という2つのベースラインTransformerモデルをSCROLLSでベンチマークした。さらに、単純に入力の最初を出力として再利用するという、SCROLL用の"ナイーブ"なヒューリスティックベースラインを作成して、その結果の評価も行った。その結果、モデルのパフォーマンスにいくつかの傾向があることが明らかになった。まず、いずれのモデルも、与える"コンテキスト"あるいは入力シーケンスが長いほど、パフォーマンスも向上した。コンテキスト長が同じ場合は、BARTがLEDの性能を上回った。これは"LEDの最適化が不十分である可能性を示唆"している。また、いずれのモデルも、ナイーブなヒューリスティックを"7～10ポイント"上回っていた。他の多くのNLPベンチマークとは異なり、このベンチマークでは、人レベルのパフォーマンススコアのレベルを特定することはできなかった。しかしチームでは、SCROLLSデータセットのいくつかで実施した結果から、それは"現在のベースラインよりもはるかに高いだろう"と結論付けており、モデルに改善の余地が多く残っていることを示唆している。

Twitter上の議論では、AI2の研究者であるSameer Singh氏の、短いテキストのNLUが解決されたと考えているか、という質問に対して、SCROLLSの作者のひとりであるOmer Levy氏が次のように返答している。

短いコンテキストで行うべき研究はまだたくさんありますが、単一文という快適領域から踏み出して、過小評価されているこの領域にもっと重点を置くべき時期に来ているのかも知れません。ほんの少し前まで、セマンティクス(NLU)では何もかもがうまくいってなかったので、ベンチマークの設計においても、文の類似性/内包性を超える必要はありませんでした。これらの問題が必ずしも解決された訳ではありませんが、BERT以降、状況が変わっていることは確実です。

SCROLLSデータセットはベンチマークのWebサイトで、論文の実験を再現するためのコードはGitHubで、それぞれ公開されている。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Justin Sheehy、AIハイプの時代における責任ある開発者であるために

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Python 3.13の最新機能を分解する

CopilotがOneDriveで利用可能に：効率的な文書管理のためのAI搭載機能

セキュリティ専門家がSQLインジェクションで空港セキュリティの抜け穴を突く

PayPal社、Cosmos.AI MLOpsプラットフォームにLLMを利用した生成AIサポートを追加

NetflixのPushy：スケーラブルなウェブソケット・プラットフォームの進化：1億の同時接続を処理する

CanvaはどのようにWebRTCでリアルタイム・コラボレーションを拡張したか：WebSocketからシームレスなP2P通信へ

ソフトウェア組織における高速フローの実現

データメッシュ組織の構築

ソフトウェア会社での社内DORA調査の知見

パフォーマンスの向上とシャーディングの強化が図られたMongoDB 8.0がリリース

OpenAIがマルチエージェント・オーケストレーションの実験的オープンソース・フレームワーク「Swarm」をリリース

大学の研究者がLLMにおける思考連鎖推論の分析を発表した

JFrog社、強化されたDevSecOpsプラットフォームにランタイムセキュリティを統合

Google CloudがMemorystore for ValkeyおよびRedis Clusterにスケーラブルなベクトル検索機能を追加

WebAssemblyはコンテナの次の進化ステップかもしれない：ミュンヘンのInfoQ DevSummitでFermyonが語る

QCon San Francisco

QCon London

InfoQ Dev Summit Boston

Login with:

アカウントをお持ちでない方

テルアビブ大学、長文NLPベンチマークSCROLLSをリリース

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。