Mistral AIは3つのオープンウェイト言語モデルをリリースした:12Bパラメータの汎用LLM「Mistral NeMo」、7Bパラメータのコード生成モデル「Codestral Mamba」、数学と推論用に微調整された7Bパラメータのモデル「Mathstral」である。この3つのモデルはすべてApache 2.0ライセンスで提供されている。
Mistral AIはNeMoを "新しい最高の小型モデル "と呼んでいる。このモデルは128kトークンコンテキストウィンドウを持ち、ベースモデルと指示チューニングバージョンの両方が用意されている。Mistral NeMOは多言語をサポートしており、中国語、日本語、アラビア語、ヒンディー語を含む11言語で「強力な」性能を発揮する。Mistralはこのモデルのために、ソースコードと自然言語をより効率的に圧縮する新しいトークナイザー「Tekken」を開発した。MMLU やWinograndeなどのLLMベンチマークにおいて、Mistral NeMOはGemma 2 9B やLlama 3 8Bなどの同規模のモデルを凌駕している。
Codestral MambaはMambaアーキテクチャをベースにしており、ほとんどのLLMの派生元となっている一般的なTransformerに代わるものである。Mambaモデルは、Transformerよりも高速な推論と、理論的には無限のコンテキスト長を提供する。Mistral社は、「入力の長さに関係ない迅速な応答」と、CodeLlama 34Bのような大規模なTransformerベースのモデルと「同等」の性能をユーザーに提供できることをアピールしている。
Mathstralは、数学のためのAIを育成する非営利団体Project Numinaと共同で開発された。Mistral 7Bモデルをベースとし、、STEM科目のパフォーマンス向けにファインチューニングされている。Mistral AIによると、Mathstralは、MMLUで63.47%、MATHで56.6%など、いくつかのベンチマークで「同サイズのカテゴリーで最先端の推論能力を達成」している。
Mistral NeMoに関するHacker Newsでの議論の中で、あるユーザーが次のように指摘した。
[このモデルの特徴は]あらゆる点で改善されているよね?ラージコンテキスト、パーミッシブ・ライセンス、良いパフォーマンスを持つはずだ。ひとつだけわからないのは、12Bがどれくらいの大きさになるのかだ(意味:どれくらいのVRAM/RAMが必要になるのか)。Apache 2.0下のモデルとしては厄介かつかなり不可解なことに[Huggingface]は私がログインして「このモデルにアクセスするには、あなたの連絡先情報を共有することに同意する必要があります」に同意しない限り、ファイルを表示することを拒否する...しかし、見た目通り良いものであれば、Apache 2.0が許可している制限なし再投稿をするまで、私は様子を見る。
他のユーザーからは、Mistral NeMoが新しいトークナイザーを使っているため、リリース時点ではこのモデルは人気のあるOllamaフレームワークではサポートされていないという指摘があった。しかし、Ollamaの開発者は1週間もしないうちにNeMoのサポートを追加した。
ハッカー・ニュースのユーザーもCodestral Mambaについて議論し、「オフライン」またはローカルでホストされるコーディング・アシスタントとして良いソリューションになるかどうかを推測した。あるユーザーはこう書いている。
Mambaアーキテクチャが推論速度にどれほどの違いをもたらすのか、量子化がどれほど事態を悪化させるか、私には直感的に理解できないが、大まかな比較として、Mistral-7Bの4ビット/パラメータはCPU上で非常に使いやすい。コード生成にローカルモデルを使うことの問題は、プロフェッショナルなコンテキストで現れる:著作権で保護されたコードの再利用を避けるためにプロバイダーが用意しているだろうインフラを失う、そこに法的リスクがある。あなたのコンテキストでは障害にならないかもしれないが、私の日常では確実にそうなる。
新しいモデルは、HuggingfaceまたはMistralのmistral-inferenceSDKからダウンロードできる。Mistral NeMOとCodestral Mambaは、Mistral AIのla PlateformeのAPI経由で利用できる。Mistral NeMOはさらにNVIDIAのNIM推論マイクロサービス経由で利用可能で、Codestral MambaはTensorRT-LLMを使ってデプロイできる。