InfoQ ホームページニュース Mistral AI、3つのオープンウエイト言語モデルをリリース

Mistral AI、3つのオープンウエイト言語モデルをリリース

2024年10月4日読了時間 4 分

作者：

Anthony Alford
Senior Director, Development at Genesys Cloud Services

翻訳者

Hiroaki.Sugimura

原文リンク(2024-08-06)

Mistral AIは3つのオープンウェイト言語モデルをリリースした：12Bパラメータの汎用LLM「Mistral NeMo」、7Bパラメータのコード生成モデル「Codestral Mamba」、数学と推論用に微調整された7Bパラメータのモデル「Mathstral」である。この3つのモデルはすべてApache 2.0ライセンスで提供されている。

Mistral AIはNeMoを "新しい最高の小型モデル "と呼んでいる。このモデルは128kトークンコンテキストウィンドウを持ち、ベースモデルと指示チューニングバージョンの両方が用意されている。Mistral NeMOは多言語をサポートしており、中国語、日本語、アラビア語、ヒンディー語を含む11言語で「強力な」性能を発揮する。Mistralはこのモデルのために、ソースコードと自然言語をより効率的に圧縮する新しいトークナイザー「Tekken」を開発した。MMLU やWinograndeなどのLLMベンチマークにおいて、Mistral NeMOはGemma 2 9B やLlama 3 8Bなどの同規模のモデルを凌駕している。

Codestral MambaはMambaアーキテクチャをベースにしており、ほとんどのLLMの派生元となっている一般的なTransformerに代わるものである。Mambaモデルは、Transformerよりも高速な推論と、理論的には無限のコンテキスト長を提供する。Mistral社は、「入力の長さに関係ない迅速な応答」と、CodeLlama 34Bのような大規模なTransformerベースのモデルと「同等」の性能をユーザーに提供できることをアピールしている。

Mathstralは、数学のためのAIを育成する非営利団体Project Numinaと共同で開発された。Mistral 7Bモデルをベースとし、、STEM科目のパフォーマンス向けにファインチューニングされている。Mistral AIによると、Mathstralは、MMLUで63.47%、MATHで56.6%など、いくつかのベンチマークで「同サイズのカテゴリーで最先端の推論能力を達成」している。

Mistral NeMoに関するHacker Newsでの議論の中で、あるユーザーが次のように指摘した。

[このモデルの特徴は］あらゆる点で改善されているよね？ラージコンテキスト、パーミッシブ・ライセンス、良いパフォーマンスを持つはずだ。ひとつだけわからないのは、12Bがどれくらいの大きさになるのかだ（意味：どれくらいのVRAM/RAMが必要になるのか）。Apache 2.0下のモデルとしては厄介かつかなり不可解なことに[Huggingface]は私がログインして「このモデルにアクセスするには、あなたの連絡先情報を共有することに同意する必要があります」に同意しない限り、ファイルを表示することを拒否する...しかし、見た目通り良いものであれば、Apache 2.0が許可している制限なし再投稿をするまで、私は様子を見る。

他のユーザーからは、Mistral NeMoが新しいトークナイザーを使っているため、リリース時点ではこのモデルは人気のあるOllamaフレームワークではサポートされていないという指摘があった。しかし、Ollamaの開発者は1週間もしないうちにNeMoのサポートを追加した。

ハッカー・ニュースのユーザーもCodestral Mambaについて議論し、「オフライン」またはローカルでホストされるコーディング・アシスタントとして良いソリューションになるかどうかを推測した。あるユーザーはこう書いている。

Mambaアーキテクチャが推論速度にどれほどの違いをもたらすのか、量子化がどれほど事態を悪化させるか、私には直感的に理解できないが、大まかな比較として、Mistral-7Bの4ビット/パラメータはCPU上で非常に使いやすい。コード生成にローカルモデルを使うことの問題は、プロフェッショナルなコンテキストで現れる：著作権で保護されたコードの再利用を避けるためにプロバイダーが用意しているだろうインフラを失う、そこに法的リスクがある。あなたのコンテキストでは障害にならないかもしれないが、私の日常では確実にそうなる。

新しいモデルは、HuggingfaceまたはMistralのmistral-inferenceSDKからダウンロードできる。Mistral NeMOとCodestral Mambaは、Mistral AIのla PlateformeのAPI経由で利用できる。Mistral NeMOはさらにNVIDIAのNIM推論マイクロサービス経由で利用可能で、Codestral MambaはTensorRT-LLMを使ってデプロイできる。

作者について

Anthony Alford

Anthony is a Senior Director, Development at Genesys where he is working on several AI and ML projects related to customer experience. He has over 20 years experience in designing and building scalable software. Anthony holds a Ph.D. degree in Electrical Engineering with specialization in Intelligent Robotics Software and has worked on various problems in the areas of human-AI interaction and predictive analytics for SaaS business optimization.

もっと見るより少なく

InfoQ ニュースレター

毎週火曜日に前週のまとめコンテンツをお送りいたします。（日本語版は不定期リリース）25万人のシニアな開発者コミュニティーにぜひご参加ください。サンプルを見る

We protect your privacy.

Login with:

アカウントをお持ちでない方

Mistral AI、3つのオープンウエイト言語モデルをリリース

作者について

Anthony Alford

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連するコンテンツ

スポンサードコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。