GoogleはAI Studioプラットフォームで利用可能なAI推論モデル Gemini 2.0 Flash Thinking Experimentalを発表した。この実験的なモデルは、複雑な問題を推論することでプログラミング、数学、物理学などのマルチモーダルタスクを処理するために設計されており、その思考過程を説明することができる。これはGemini 2.0 Flashモデルを基に構築されており、OpenAIのo1を含む類似モデルと整合している。
このモデルは構造化アプローチを採用しており、プロンプトを小さなタスクに分解し、関連する文脈を分析し、最も正確な回答を合成する。これらの能力にもかかわらず、単語の文字数を数えるような単純なタスクでエラーを示すなど、その推論は一貫性を欠くことがある。また、最大32,000トークンまでの入力制限をサポートし、テキストと画像の両方の入力に対応し、テキストのみ形式で最大8,000トークンの出力を生成する。このモデルは推論時間の計算量が増えるため、応答時間が数秒から数分と遅くなる。検索、コード実行、JSONモードなどの機能のための組み込みツールがなく、応答の正確性と完全性にばらつきがある可能性がある。Gemini 2.0 Flash Thinking Experimentalは、その推論能力と引き換えにより長い処理時間を必要とする。
Google DeepMindのチーフサイエンティスト Jeff Dean氏はこう述べている:
このモデルの設計は、推論結果を改善するために推論中の拡張計算を活用しています。
そして、AI Studioのプロダクトリーダー Logan Kilpatrick氏はこのリリースをこう表現した:
Googleの推論重視型AI探求における最初のステップです。
このリリースはDeepSeek-R1やAlibabaのQwenなどの競合他社の、AIにおける推論モデルの最近のトレンドに続くものである。これらのモデルは生成AIシステムの精度と信頼性を向上させることを目指しているが、特に従来のAIのスケーリング手法では効果が薄れてきているため、高い計算コストとパフォーマンスの課題を伴っている。
開発者はGemini API (v1alpha)またはGoogle GenAI SDKを通じてモデルにアクセスでき、これによりテキストおよび画像入力をサポートし、透明な推論ワークフローにフォーカスしたさまざまなアプリケーションへの統合が可能になる。研究向けリリースであるため、このモデルにはトークン制限や組み込みツール統合の欠如など、特定の制限がある。