Mistral AIのオープンソースモデル"Mixtral 8x7B"、GPT-3.5を上回る

原文リンク(2024-01-23)

Mistral AIは先日、スパース混合エキスパート（SMoE）大規模言語モデル（LLM）であるMixtral 8x7Bをリリースした。このモデルは総パラメータ46.7Bを含むが、その3分の1のサイズのモデルと同じスピードとコストで推論を処理できる。いくつかのLLMベンチマークでは、Llama 2 70BとGPT-3.5の両方を上回った。

Mistral 8x7Bは32kトークンのコンテキストの長さを持ち、スペイン語、フランス語、イタリア語、ドイツ語、英語に対応している。Mistral AIは、ベースとなるMixtral 8x7Bモデルの他に、Mixtral 8x7B Instructと呼ばれるモデルもリリースしており、こちらは直接優先最適化（DPO）を使って命令追従用にファインチューニングされている。両モデルのウェイトはApache 2.0ライセンスで公開されている。また、Mistral AIはvLLMオープンソースプロジェクトにこのモデルのサポートを追加した。Mistral AIによると、

Mistral AIは、最高のオープンモデルを開発者コミュニティに提供するという使命を続けています。AIを前進させるには、よく知られたアーキテクチャや学習パラダイムを再利用するだけでなく、新たな技術的転回が必要です。もっとも重要なことは、コミュニティがオリジナルのモデルから恩恵を受け、新たな発明や利用法を育むことです。

混合エキスパート（MoE）モデルは、学習と推論にかかる時間を抑えながらモデルサイズを大きくする方法として、LLMでよく使われる。このアイデアは1991年に遡り、Googleは2021年にTransformerベースのLLMへ適用した。2022年、InfoQはGoogleの画像テキストMoEモデルLIMoEを取り上げており、その性能はCLIPを上回った。同年末、InfoQはMetaの翻訳モデルであるNLB-200 MoEも取り上げた。このモデルは、200以上の言語を翻訳できる。

MoEモデルのキーポイントは、Transformerブロックのフィードフォワード層を、ルーターとエキスパート層の組み合わせに置き換えることである。推論中、Transformerブロックのルーターは、アクティブにするエキスパートのサブセットを選択する。Mixtralモデルでは、そのブロックの出力は、上位2つのエキスパートにソフトマックス関数を適用することで計算される。

モデルのファインチューニングを施したバージョンであるMistral 8x7B Instructは、ChatGPTの訓練に使用されたRLHF手法の代わりに、DPOを使用して訓練された。この手法はスタンフォード大学の研究者によって開発されたもので、RLHFと比較して「応答品質が同等または向上」しており、しかも実装がはるかに簡単である。DPOはRLHFと同じデータセット、つまり一方が他方より上位にランク付けされたペア回答のセットを使用するが、RLHF用に別の報酬関数を作成する必要はない。

Mistral AIは、コード生成、読解、数学、推論、知識を含むいくつかのタスクのベンチマークでモデルを評価した。Mistral 8x7Bは、12のベンチマークのうち9つでLlama 2 70Bを上回った。また、5つのベンチマークでGPT-3.5を上回った。Mistral AIによると、MT-BenchチャットボットベンチマークにおけるMistral 8x7B Instructのスコアは、"2023年12月現在、最高のオープンウェイトモデル "となった。LMSYSのリーダーボードでは現在（2024年1月23日時点）、GPT-3.5、Claude 2.1、Gemini Proを上回る7位にランクされている。

Hacker Newsでの議論では、このモデルの46.7BのパラメーターをすべてRAMにロードする必要があるものの、推論速度は13Bのパラメーターモデルに匹敵すると複数のユーザーが評価している。あるユーザーは以下のように述べている。

これならメモリ内蔵のMacbook Proに搭載できる。最近のローカルLLM界隈の発展により、私のラップトップのRAMを24Gbしか搭載しなかったことを後悔しています。

Mixtral 8x7Bと Mixtral 8x7B InstructモデルはHuggingFaceで購入可能だ。また、Mistral AIはmistral-small APIエンドポイントでホストされたバージョンモデルを提供している。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Mistral AIのオープンソースモデル"Mixtral 8x7B"、GPT-3.5を上回る

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。