BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース instructlab.aiは、合成データを使用して大規模言語モデル(LLMs)の微調整の複雑さを軽減する

instructlab.aiは、合成データを使用して大規模言語モデル(LLMs)の微調整の複雑さを軽減する

原文リンク(2025-03-07)

InstructLab.aiは、この論文で説明されているチャットボットのための大規模アラインメント(LAB)コンセプトをオープンソースで実装したものである。論文の要旨によると、LABは大規模言語モデル(LLM)の命令チューニングフェーズにおけるスケーラビリティの課題を克服することを目的としている。このアプローチは、LLMのための合成データベースのアライメントチューニングメソッドを活用する。このアプローチでは、作成された分類法によって、学習データの合成シードを提供できる。

このプロジェクトは、人間によるアノテーションデータや独自のモデルへの依存を減らすことで、LLMの微調整の複雑さとコストを削減することを約束する。このアプローチにより、ユーザーはMLに関する専門知識や強固なインフラがなくても、AIモデルを微調整できるようになる。このアプローチの中心には、学習データの合成シードを提供するために構築された、精巧な分類法である。分類法に基づいた合成データ生成と多段階調整フレームワークを使用することで、既存の知識を保持しながら、新しい知識と能力を基礎モデルに同化させることができる。従って、LLMの能力を、壊滅的な忘却の欠点なしに強化するための効果的なソリューションとなることが期待される。

分類法は、データをツリー状に格納したもので、各層が知識ノードとなる。3つのカテゴリーがある:

  • 知識データ - 書籍、技術説明書、マニュアルのような主題に関する専門知識で構成される。

  • 基礎スキル - 推論、数学、コーディングスキルのような追加知識習得のための能力で構成される。

  • 構成スキル - 前の2つのスキルに基づき、知識と基礎的スキルを必要とする仕事や質問に関連している。

分類法ツリーの知識ノードは、スキルに使用されるものと同様の*qna.yaml*ファイルで構成されるが、追加要素がある知識を提供するためには、ユーザーはGitHubでホストされているようなGitリポジトリを作成し、知識の提供の詳細を記述したマークダウンファイルを格納する必要がある。*qna.yaml*ファイルには、これらのリポジトリから情報を引き出すパラメータが含まれており、ユーザーが投稿したコンテンツの統合が容易になる。

画像ソース

Instructlab.aiは、コミュニティのスキルと知識を活用することで、これらを提供することを意図している。入力は*qna.yaml*ファイル内のわずか数行のYAMLコードと、ソースを引用するためのattribution.txtで構成されているため、対象ユーザーは幅広い。

トレーニングコンセプトは、出所に関係なく、どんなチャットモデルにも適用できる。InstructLabのGranite-7bモデルは、オープンソースのApache 2.0ライセンスで公開されている。

画像ソース

InstructLabは、整理されたユーザーからの投稿を使用して定期的にモデルを再トレーニングし、コミュニティ主導の継続的なアップデートによって機能を向上させている。

InfoQは、Red HatOpen Source Program Officeのインダストリーコミュニティ戦略ディレクターであるLeslie Hawthorn氏と、InstructLabのエンジニアリングリーダーであるMáirín Duffy氏に、プロジェクトの影響について話を聞いた。

Hawthorn氏:InstructLabが提示するコミュニティ主導のイノベーションの可能性を目の当たりにして、とても嬉しく思っています。既存のモデルを特定のドメイン用に微調整することから、言語理解やテキスト生成のような複雑な問題に取り組む新しいモデルを生み出すことまで、可能性は無限大です。そして、誰にもわからない。もしかしたら、この分野に革命を起こすような画期的なことを誰かが思いつくかもしれません!私はこの旅に参加し、コミュニティがどのような成果を上げるのかをみるのが楽しみです。

Duffy氏:私たちのツールやモデルAPI標準の採用を促進し、開発者がエコシステムを構築し、貢献しやすくすることを目指しています。

LLMは多くの産業で加速装置となっているが、すべてのモデルがすべてのシナリオに適しているわけではない。汎用のモデルを特定のケースに適応させるには、コストと時間がかかる。InstructLab.aiは、コミュニティ主導のプロセスを通じて、モデルのカスタマイズを民主化することを約束する。Instructlab.aiは、クリスマス直前にコミュニティによって構築された最初のモデルを公開した

作者について

関連するコンテンツ

BT