NVIDIAがHymba 1.5Bを発表: 効率的NLPモデルへのハイブリッドアプローチ

原文リンク(2025-01-03)

NVIDIAの研究者は、トランスフォーマーと状態空間モデル（SSM）アーキテクチャを組み合わせて前例のない効率とパフォーマンスを実現するオープンソース言語モデル、Hymba 1.5Bを発表した。NVIDIAの最適化されたトレーニングパイプラインで設計されたHymbaは、従来のトランスフォーマーの計算およびメモリの制約に対処しつつ、SSMの記憶能力を向上させている。

従来のトランスフォーマーベースの言語モデルは長期記憶と並列化に優れているが、二次計算量の複雑さと大きなメモリ要求という大きな課題に直面しています。一方、MambaやMamba-2のようなSSMは一定の計算量の複雑さとハードウェアの最適化を提供するが、記憶想起タスクでは性能が劣る。Hymbaは両方のアーキテクチャの強みを組み合わせることでこれらのトレードオフを解決している。

Hymbaのハイブリッド・ヘッドモジュールは高解像度記憶想起のためのアテンションヘッドと効率的なコンテキスト要約のためのSSMヘッドを融合し、両方のコンポーネントが順次ではなく並列で動作できるようにしている。この設計によりパフォーマンスを犠牲にすることなく、計算能力とメモリ要求を削減している。

Hymba 1.5Bアーキテクチャはいくつかの革新的なメカニズムを導入することで、精度を維持しながら効率を向上させることにフォーカスしている：

アテンション・オーバーヘッドの削減：アテンション計算の50％以上をSSM処理に置き換え、タスク精度を維持しながらコストを削減している。
ローカルアテンションの優位性：ローカルアテンションとSSMの組み合わせでグローバル情報を十分要約できるため、グローバルアテンションが最小限に抑えられている。
KVキャッシュ最適化：Hymbaは、層間キャッシュの冗長性を削減し、同等のトランスフォーマーモデルと比較して最大10倍のメモリ使用量削減を実現する層間KVキャッシュ共有を導入している。
メタ・トークン：プロンプトの前に付加される128個の学習可能な埋め込みが、メモリの初期化子として機能する。

hymba model architecture

出典NVIDIAブログ

学習可能なメタ・トークンの役割が議論されている。Superlinked社の機械学習スペシャリスト Daniel Svonava氏が質問を投げかけた：

学習可能なメタ・トークンが従来の方法と比較してどのようにアテンションメカニズムの焦点を改善するのか説明できますか?

データサイエンティスト Marek Barák氏はこのように説明した：

アテンションには、文中の最初のトークンに過度にフォーカスするという問題があります。最初のトークンは実際には多くの情報を持っていないため、これはほとんど意味的な理由がありません。メタ・トークンを使用すると、トークン全体に対してよりバランスの取れたソフトマックス分布が得られます。

Hymba 1.5Bは、Llama 3.2 1B、OpenELM 1B、Qwen 2.5 1.5Bなど、20億パラメータ未満の主要モデルとの直接比較においてトップパフォーマーであることを証明した。MMLU、ARC-C、Hellaswag、SQuAD-Cなどのベンチマークにおいて、Hymbaは競合を上回る性能を示した。

benchmark

出典：https://arxiv.org/pdf/2411.13676

NVIDIAはタスクのパフォーマンスと効率のバランスをとるために、Hymbaのトレーニングパイプラインを最適化している。事前学習戦略は2段階のプロセスを含んでいる：初期段階では多様でフィルタリングされていないデータセットで学習し、その後高品質データでファインチューニングを行った。教師ありファインチューニング（SFT）や直接選好最適化（DPO）を用いた強化学習などの段階を経て、指示ファインチューニングはモデルの能力を向上させている。

Hymba 1.5BはオープンソースリリースとしてHugging Face とGitHub で公開されており、研究者や開発者が実世界のアプリケーションでその能力をテストすることができるようになっている。

作者について

Robert Krzaczyński

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Robert Krzaczyński

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco

NVIDIAがHymba 1.5Bを発表: 効率的NLPモデルへのハイブリッドアプローチ

作者について

Robert Krzaczyński

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。