Gemini 1.0 Ultraの発表から1週間後、Googleは次世代モデルであるGemini 1.5の追加詳細を発表した。新しいバージョンでは、コンテキストウィンドウが拡張され、"Mixture of Experts"(MoE)アーキテクチャが採用され、AIがより高速かつ効率的になることが期待されている。新モデルには、マルチモーダル機能の拡張も含まれている。
最大100万トークンを処理できる能力は、競合他社やその前身の能力をも凌駕している。GoogleCEOのSundar Pichai氏は、この機能の変革の可能性を強調し、これにより、クエリの瞬間に多くの個人的なコンテキストや情報を追加できるユースケースが可能になる。
Gemini 1.5のMixture of Experts手法の活用は、AIの効率を最適化するためのもう一つの前進である。クエリに基づいてモデルの関連部分を選択的にアクティブにすることは、スピードとリソースの節約の両方を保証するものであり、AIモデルがますます複雑化し、パワーを必要とするようになる中で重要な進歩である。このアプローチは、待ち時間を短縮することでユーザーエクスペリエンスを向上させ、AIをより持続可能なものにするための幅広い取り組みと一致する。
Google DeepmindとGoogle Researchのチーフ・サイエンティストである、Jeff Dean氏は以下のように述べている。
このモデルのマルチモーダル機能は、本全体、非常に長い文書集、数百のファイルにまたがる数十万行のコードベース、完全な映画、ポッドキャスト・シリーズ全体などと、洗練された方法で対話できることを意味します。
Gemini 1.5の組織化されたデモンストレーションを見たい人は、10万行のコードにわたる問題解決や44分の映画にわたる検索のビデオを参照することができる。
OpenAIがこの程、ChatGPTのメモリ機能を発表し、ウェブ検索へのプッシュを示唆していることから、最も強いAIを単に構築することに留まらないような競争が始まっている。GoogleがGemini 1.5で、より広範な消費者向け展開に先立ち、開発者と企業ユーザーの両方に焦点を当てていることは、ビジネス革新と個人の生産性に向けたツールとしてのAIの重要性を強調している。
本当に重要なのは、モデルが現実世界の問題を解決するために実際にコンテキストをどれだけうまく使用しているかということであり、Gemini-1.5 は見事に SOTA を上回りました。 -Jim Fan氏
Gemini 1.5をめぐって期待が高まる一方で、Googleがまだその可能性を最大限に探求する初期段階にあるということは明らかである。Gemini 1.5はVertex AIおよびAI Studioを通じてビジネスユーザーと開発者のみが利用できる予定である。このモデルの優れた機能には課題があり、特に最大のコンテキストウィンドウを伴うタスクの処理速度が課題である。Google DeepMind の研究担当副社長であるOriol Vinyals氏は、「レイテンシの側面については、私たちが…最適化に取り組んでいます。これはまだ実験段階、研究段階です」と認めている。しかし、将来の最適化の約束やさらに大きなコンテキストウィンドウの探求はGoogleが可能性の表面をなぞっただけであることを示唆している。
Gemini 1.5の詳細について興味のある開発者は、モデルカード、トレーニング情報、モデル評価の詳細など、モデルに関する追加情報をテクニカルレポートで見ることができる。