IBM社は、マルチモーダルと推論機能を搭載したGranite 3.2の最新モデルを発表した。。Granite 3.2の特徴は試験的に導入された思考連鎖推論機能であり、従来モデルを大きく上回る性能を発揮している。新たな大規模視覚言語モデル(VLM)は、いくつかのベンチマークスコアでより大型のモデルを凌駕しているほか、小型モデルより効率的なデプロイを実現している。
IBM社は、推論機能強化により、Granite 3.2 8B InstructとGranite 3.2 2B Instructが3.1以前の従来モデルを大幅に上回っていると発表している。現在、他社からは推論特化型モデルがリリースされているが、IBM社では推論機能をInstructモデルに組み込み、作業中の特定のタスクに応じたトグル切り替えをオプションとして実装している。
IBM社がGranite 3.2の推論機能構築に使用している手法のひとつが、推論スケーリングである。この手法は、LLMに複数の答えを生成させ、いくつかの報酬モデルに基づいて最適解を選ぶという方法に着想を得ている。なお、このプロセスは、推論過程にのみ適用される。
推論タスクで複数回答の評価から最適解を選ぶというこのアイデアは、回答生成の前段階であることが多い「思考の連鎖」にも適用可能です。事実、推論の良し悪しの判断に、推論過程全体の完了を待つ必要はありません。
IBM社では、DeepSeekで普及したアプローチを発展させたものを採用しており、1つの推論モデルを用いて進捗を自動測定するほか、探索型モデルを使用した推論空間探索を行っている。すなわち、プロセス報酬モデルはLLMによる誤った推論の回数を検出・回避に有益である一方、探索アルゴリズムが推論プロセスの柔軟性に貢献している。
IBM社の見解では、同社の推論スケーリングアプローチで、MATH500とAIME2024の数学的推論能力のベンチマーク性能が向上した結果、シングルパス推論においてGranite 3.2がより大型のGPT-4o-0513やClaude3.5-Sonnet-1022といったモデルを凌駕する性能を実現している。
Granite 3.2には、Granite Vision 3.2Bと名付けられた文書理解に特化したVLMも搭載されている。IBM社によると、本軽量モデルは、DocVQAやChartQAのようなエンタープライズベンチマークにおいて、より大型モデルに匹敵する性能を有しているが、テキストのみのGraniteモデルの代替品としての使用は意図されていない。本モデルの学習には、キュレートされたエンタープライズ・データのコアに基づいて構築された特定のデータセット「DocFM」が使用されており、ここには一般的なドキュメント画像、チャート、フローチャート、図表が含まれている。
Graniteファミリーモデルを構成するもう1つに、Granite Guardian 3.2がある。こちらは、プロンプトと応答におけるリスク検出が可能なガードレール搭載型モデルである。IBM社は、Guardian3.2のパフォーマンスはGuardian3.1と同等であり、より高速かつ推論コストやメモリ使用量を抑えた処理を提供していると述べている。本モデルでは新機能「信頼度スコア」も導入されている。信頼度を数値として提供することで、よりきめ細やかな潜在的リスクの評価が可能だ。
Guardian 3.2では、「Guardian 3.2 5B」と「Guardian 3.2 3B-A800M」の2つのバリアントが提供されている。前者は、Granite 3.1 8Bからパラメータを削減したモデルだ。後者は、推論時に合計3Bパラメータ数のうち800Mパラメータのみをアクティブにする最適化が施されている。
最後の特筆事項になるが、Granite 3.2では新しいTime Seriesモデル(TTM)が導入されており、従来モデルでサポート済みの分単位から時間単位の解像度での予測に加え、週単位や日単位での予測が可能になっている。
TTM-R2モデル(新しいTTM-R2.1バリアントを含む)は、平均絶対スケール誤差(MASE)で測定されたポイント予測精度において、すべてのモデルを上回っています。また、TTM-R2は、連続ランク付確率スコア(CRPS)で測定された確率予測でも上位5に入っています。
IBM社は自社発表の中で、TTMモデルのパラメータ数の規模が、MASEで2位のグーグルのTimesFM-2.0(500Mパラメータ)や3位のAmazon社のChronos-Bolt-Base(205Mパラメータ)との比較では「小さい」点にも言及している。
redditユーザーの一部がIBMの発表に感銘を受けた一方、他のユーザーは、同社の報告したパフォーマンスでは特定のベンチマークにオーバーフィットし、他のベンチマークを蔑ろにしているようにも思えると指摘している。とはいえ、ベンチマークテストの総合スコア"Overall"やコーディングのような複雑なタスクのパフォーマンスにより適した大型モデルとの比較で、このような小型モデル(8Bパラメータや2Bのパラメータ)が優れていると思うのは、浅はかな発想かもしれない。だが、こうした小型モデルは、より専門的なタスクで真価を発揮する可能性を秘めている。
一方で、同社のサービスは企業を重点的なターゲットとしており、これは万が一の事態に備えた法的保証の有無や、学習用データセットに関する潜在的な知的財産権の問題が重視されているためだとの推測もあがっている。
Graniteの全モデルがApache 2.0ライセンスの下でリリースされており、HuggingFace、watsonx.ai、Ollama、LM Studioでの利用が可能だ。