Hugging FaceはOpen LLM Leaderboard v2、大規模言語モデル向けの彼らのポピュラーなベンチマーキングプラットフォームのアップグレード版を最近リリースした。
Hugging Faceはリファレンスモデルの標準化された評価セットアップを提供し、再現可能で比較可能な結果を保証するためにOpen LLM Leaderboardを作成した。
LeaderboardはAIコミュニティにとって複数の目的を果たす。研究者や実務家にマーケティング要求と実際の進歩を分離した再現可能なスコアを提供することで、最先端のオープンソース・リリースの特定を助ける。事前トレーニング、ファインチューニングのいずれであれ既存の最高モデルとオープンに手法を比較することで、チームの成果を評価する。さらに、LLM開発の進歩に対して公的な認知を得るためのプラットフォームも提供する。
Open LLM Leaderboardは1年前の開始以来、機械学習コミュニティで広く利用されるリソースとなっている。Hugging Faceによると、Open LLM Leaderboardには過去10ヶ月で200万人以上のユニークユーザーが訪れ、毎月約30万人のコミュニティメンバーが積極的に協力しているという。
Open LLM Leaderboard v2はオリジナル版の制限に対処し、オープンソースLLM分野の急速な進歩に対応している。
InfoQはHugging FaceのLeaderboardメンテナーのAlina Lozovskaia氏に、このアップデートの背景にある動機とAIコミュニティへの影響について詳しく聞いた。
InfoQ: モデルのランキングの平均をとる前にランダムな性能を0点、最大スコアを100点に正規化するよう変更されました。この正規化方法は生のスコアを平均する場合と比べて、最終スコアにおける各ベンチマークの相対的な重み付けにどのような影響を与えますか?
Alina Lozovskaia氏:平均をとる前に各ベンチマークのスコアをランダムな性能を0、完璧な性能を100とするスケールに正規化することで、最終スコアにおける各ベンチマークの相対的な重み付けが、モデルの性能がどれだけランダムな確率をどれだけ上回ったかに基づいて調整されます。この方法ではランダム(より厳しいベンチマーク)に近い振舞いをするモデルにより多くの重みが与えられ、偶然を上回るわずかな改善を強調します。
逆に、モデルのスコアが既に生で高いベンチマークは、正規化後の寄与度が比例して少なくなります。その結果、正規化した平均は、各ベンチマークが単なる推測をモデルのパフォーマンスがどれだけ上回るかに応じて最終スコアに影響を与えることを保証し、単純に生のスコアを平均化する方法と比較してより公平でバランスの取れた総合ランキングが実現されます。
InfoQ: ベンチマークデータの汚染は既に問題となっており、一部のモデルが誤ってTruthfulQAやGSM8Kのデータで訓練されてしまっている。新しいベンチマークではこれを軽減するためにどのような技術的アプローチを取っていますか?例えば、モデル出力の潜在的な汚染をアルゴリズム的に検出する方法はありますか?
Lozovskaia氏:一般的に、汚染検出は活発ではあるものの非常に新しい研究分野です:例えば、このトピックに特化した最初のワークショップは今年のACL2024で開催されたばかりです(私達がスポンサーしたCONDAワークショップ)。この分野は非常に新しいため、確立したアルゴリズム的手法はまだありません。そのため、私たちは新たな技術(汚染されていない参照データに対するモデル出力の尤度を分析するなど)を探していますが、現時点では強力な制約のない手法はありません。
私達はLeaderboard特有の汚染を検出するための仮説の社内テストも行っており、近々進捗状況を共有したいと考えています。また、コミュニティの警戒心からも多くのベネフィットを得ており、大変感謝しています(ユーザーは常に疑わしいパフォーマンスや汚染の可能性があるモデルに直ちにフラグ付けしてくれる)。
InfoQ: MuSRベンチマークは10,000トークン以上のコンテキストウィンドウサイズを持つモデルを優遇しているようです。このタイプのタスクに向けてLLM開発に大きなシフトが起こると予想されますか?
Lozovskaia氏:最近、LLMが正確に解析できるコンテキスト長を拡張する傾向があり、この分野での改善は多くのビジネスアプリケーションにとってますます重要になっていくでしょう(複数ページの文書からの内容抽出、要約、ユーザーとの長い対話に正確に回答するなど)。
私達は従ってこのような長文脈処理能力を持つモデルがますます増えていくのを見てきましたし、それを期待しています。しかしながら、一般的なLLM開発においてはこの能力と他の優先事項、例えば効率性、タスクの多様性、短文脈タスクにおけるパフォーマンス等とのバランスを取る必要があるでしょう。オープンソースモデルの利点の一つは、誰もが自分に必要な特定のユースケースで高いパフォーマンスを得られることです。
大規模言語モデルとそのアプリケーションの世界をさらに探求したい方には、InfoQが提供する、QCon LondonでLoubna Ben Allal氏が発表した「Large Language Models for Code」をお勧めする。さらに、2024年のAI、ML、データエンジニアリングのトレンドレポートは、この分野の最新動向の包括的な概要を提供している。