Rhymes AIは、テキスト、画像、ビデオ、コードを効果的に処理できるオープンソースのマルチモーダルネイティブMoE(Mixture-of-Experts)モデル、Ariaを発表した。ベンチマークテストにおいて、Ariaは他のオープンモデルを凌駕し、GPT-4oやGemini-1.5などの独自モデルに対しても競争力のある性能を示した。さらに、Rhymes AIは、微調整や開発のためのモデルの重み付けやガイダンスを含むコードベースを公開している。
Ariaには、マルチモーダルネイティブ理解や既存の独自モデルに対する競争力など、いくつかの特徴がある。Rhymes AIは、マルチモーダルデータと言語データを使用してゼロから構築されたAriaのアーキテクチャが、様々なタスクで最先端の結果を達成していると発表した。このアーキテクチャには、1トークンあたり39億のアクティブ化されたパラメーターを持つ、きめ細かい専門家混合モデルが含まれており、パラメーターの利用率を向上させた効率的な処理を提供する。
機械学習エンジニアのRashid Iqbal氏は、Ariaのアーキテクチャに関する考察を行った。
印象的なリリースだ!AriaのMixture-of-Expertsアーキテクチャと斬新なマルチモーダルトレーニングアプローチは、確かに他とは一線を画している。しかし、253億個のパラメータを39億個のアクティブパラメータだけで使用することの実用的な意味について興味がある。これにより特定のアプリケーションでレイテンシが増加したり非効率になったりするのか?
また、ベンチマークでGPT-4oやGemini-1.5のような巨人を打ち負かすことは素晴らしいことだが、管理されたテストだけでなく、実世界のシナリオでどのようにパフォーマンスするかを検討することが極めて重要だ。
ベンチマークテストにおいて、AriaはPixtral-12BやLlama3.2-11Bといった他のオープンモデルを凌駕し、GPT-4oやGemini-1.5のようなプロプライエタリなモデルに対しても競争力のあるパフォーマンスを見せている。このモデルは、ドキュメント理解、シーンテキスト認識、チャート読み取り、ビデオ理解などの分野で優れており、複雑なマルチモーダルタスクに適していることを裏付けている。
出典:https://huggingface.co/rhymes-ai/Aria
開発をサポートするため、Rhymes AIはAriaのコードベースを公開した。このコードベースには、モデルの重み、技術レポート、様々なデータセットでのモデルの使用と微調整のためのガイダンスが含まれている。コードベースには、vLLMのようなフレームワークをサポートし、さまざまなアプリケーションへの採用を効率化するためのベストプラクティスも含まれている。すべてのリソースはApache 2.0ライセンスの下で利用可能である。
Ariaの効率性はハードウェア要件にも及んでいる。推論に必要なGPUに関するコミュニティからの質問に対して、Leonardo Furia氏は次のように説明した。
ARIAのMoEアーキテクチャは、推論中にわずか35億個のパラメータのみをアクティブにするため、NVIDIA RTX 4090のようなコンシュー向けGPUで実行できる可能だ。幅広いアプリケーションに対してアクセスしやすくなっている。
API経由でAriaを提供する計画があるかというコミュニティからの質問に対して、Rhymes AIはAPIサポートが将来のモデルのロードマップにあることを確認した。
Ariaのリリースに伴い、Rhymes AIは、研究者、開発者、組織によるAriaの実用的なアプリケーションの探求と開発への参加を奨励している。この共同アプローチは、Ariaの能力をさらに高め、異なる分野にわたるマルチモーダルAI統合の新たな可能性を探ることを目的としている。
モデルの試用やトレーニングに興味のある方は、Hugging Faceで無料で利用できる。