Google DeepMindは、前モデルのGemini 1.5 Proの2倍の処理速度を実現するAIモデルGemini 2.0を発表した。このモデルはテキスト、画像、その他の入力を組み合わせて高度な推論を行う複雑なマルチモーダルタスクをサポートしている。JAX/XLAフレームワーク上に構築されたGemini 2.0は大規模に最適化され、複雑なトピックを探索するためのDeep Researchなどの新機能を含んでいる。現在、開発者と信頼できるテスターに提供されており、近くGeminiやSearchのようなGoogle製品に統合される予定である。
新モデルは前モデルに比べてスピードと精度が飛躍的な進歩を示している。例えばGemini 2.0 Flashは2倍の処理速度を維持しながら主要ベンチマークで以前の1.5 Proモデルを上回る性能を発揮している。加えてテキストと視覚的推論の組み合わせや、複数の入出力タイプにまたがる指示の実行などのタスクをサポートすることによって、マルチモーダル統合能力を示している。
Googleのエンジニアリング担当副社長 Bill Jia氏は、こう付け加えた:
Gemini 2.0は、私たちがオープンソース化し世界と共有しているJAX/XLA AIフレームワーク/コンパイラ上で完全ビルドされ、トレーニングされています。モデルのトレーニングは大規模に行われました。モデルの最適化、ファインチューニング、評価、エンドユーザー製品への統合のすべてが最先端技術をさらに発展させています。
本日、私たちはGemini 2.0を開発者と信頼できるテスターの手に渡そうとしています。そしてGeminiとSearchを先頭に製品への導入を迅速に進めています。本日からGemini 2.0 Flash実験モデルが全てのGeminiユーザーに利用可能になります。また、高度な推論と長文処理能力を使用してリサーチアシスタントとして働き、複雑なトピックを探索し、あなたの代わりにレポートをまとめるDeep Researchという新機能もローンチします。この機能は本日からGemini Advancedで利用可能です。
Gemini 2.0の能力は幅広い実用的なアプリケーションに適している。主な特徴は以下の通り:
- プロジェクトAstra:Google Maps、Search、Lensを使用できるAIアシスタント向けの高度なマルチモーダル理解を示すプロトタイプ。
- Project Marinerは、Gemini 2.0がWebブラウザ内でフォーム入力やコンテンツの分析などのタスクを直接実行できることをデモする。
- Jules:GitHubのワークフローと統合するように設計された開発アシスタントで、人間の監視下でコーディング作業を支援する。
実用的なツールを超えてGemini 2.0はゲーミングの分野でも活用されており、リアルタイムでゲームプレイを分析し、戦略的な提案やアドバイスを提供することができる。その空間認識能力はロボティクス分野でもテストされており、潜在的な用途には物理世界でのナビゲーションや問題解決も含まれる。
Google DeepMindはGemini 2.0の開発において安全性を基本理念として重視している。未承認の行動を防止し、ユーザーのプライバシーを保護し、悪意あるプロンプトインジェクションなどのリスクに対処するメカニズムが統合されている。また、モデルの設計により、ユーザーは堅牢なプライバシーコントロールを通じて機密情報を管理することができる。
Gemini 2.0に関するコミュニティからのフィードバックは熱狂的なものであった。例えば、CXリーダー Raj Nair氏はこう述べている:
GoogleのAI開発における素晴らしい進歩!Gemini 2.0、Project Mariner、コーディング・エージェントの能力はAIが実験的なものから実用的なアプリケーションへと移行しつつあることを示しています。Webブラウジングから開発ワークフローに至るまで、このような先進技術を日常業務に統合することは、間違いなく産業の形を変えるでしょう。
詳細情報は公式ドキュメント で確認できる。