12月6日、Alphabetは次世代AIモデル「Gemini」の第一段階を発表した。Geminiは、CEOのSundar Pichai氏とGoogleDeepmindによって統括・推進された。
Geminiは、言語モデルの性能をテストする最も一般的な手法のひとつであるMMLU(大規模マルチタスク言語理解)において、人間の専門家を上回った最初のモデルだ。Geminiは、異なる入力に基づいてコードを生成し、テキストと画像を組み合わせて生成し、言語を超えて視覚的に推論できる。
GoogleCEOのSundar Pichai氏によると、GeminiはOpenAI のChatGPTを凌駕しているという。同氏は、テキストと画像を含む様々なタスクにおけるAIのパフォーマンスを測定する一連のテストにおけるGeminiの卓越性を強調した。
また、Gemini・Ultraは32の主要ベンチマークのうち30、特にマルチモーダルベンチマークにおいて最先端であることも素晴らしい。MMMUベンチマークは、そこでの進歩を示している。個人的には、主要ベンチマークのひとつであったMMLU(大規模マルチタスク言語理解)において、90%のしきい値を超えたことに興奮を覚える。年前の技術水準は30%か40%だった。つまり、この分野がどれだけ進歩しているかを考えてみてほしい。この57の科目で約89%が人間の専門家だ。このしきい値を超えた最初のモデルだ。 -Sundar Pichai氏
マルチモーダルな機能だけでなく、Geminiは効率性とスケーラビリティのために設計されている。そのアーキテクチャは、既存のツールやAPIとの迅速な統合を可能にし、AIにおける将来のイノベーションを推進する強力なエンジンとなっている。このオープンソースアプローチは、AIコミュニティ全体のコラボレーションと開発を促進し、進歩のペースを加速させ、Geminiの可能性が完全に実現されることを保証する。
Geminiの初期バージョンには、最大のUltra、中型のPro、大幅に小型で効率的なNanoの3種類がある。GoogleのBardは、ChatGPTに似たチャットボットで、Gemini・プロを搭載する。Nanoはグーグルの携帯電話Pixel 8 Proで動作する。
ソーシャルメディア上の反応は様々で、印象的な結果を報告する人もいれば、ハルシネーション(AIが事実に基づかない情報を生成する現象のこと)が続いていると指摘する人もいる。ニューメキシコ州にあるサンタフェ研究所の人工知能研究者、Melanie Mitchell氏は、"Geminiが非常に洗練されたAIシステムであることは明らかだが、GeminiがGPT-4よりも実質的に能力が高いということは私にはわからない "と述べた。
BardのGemini Proには非常に失望している。RAGを使えばもう難しくないはずの問題で、依然として非常に悪い結果を出してしまう。このような簡単な質問で、このような簡単な答えなのに、まだ間違っている。 -Vitor de Lucca氏
Geminiは、Google DeepMindによって開発されたマルチモーダル大規模言語モデルファミリーで、LaMDAと PaLM 2の後継モデルとして機能する。このモデルの名前は、NASAのGemini計画に関連している。このモデルはデコーダのみのTransformerで構成され、TPU上で効率的に学習と推論ができるように改良されている。入力画像は異なる解像度であってもよく、ビデオは画像のシーケンスとして入力される。音声は16kHzでサンプリングされ、ユニバーサル音声モデルによってトークンのシーケンスに変換される。
Geminiをリリースする前に、Geminiのチームは、先進的なGeminiモデルの開発に関連する主要な社会的便益と潜在的弊害を特定、評価、文書化するためのモデル影響評価を開発した。既知および予測される影響の理解に基づき、モデルの開発と評価の指針となる一連の「モデルポリシー」が策定された。Geminiのモデルを、影響評価の中で特定された方針分野やその他の主要なリスク分野に対して評価するために、包括的な一連の評価が実施された。
また、モデルのデータ層で緩和策が実施され、モデルの安全性の問題を緩和するためにインストラクションチューニングも利用された。ハルネーションを減らすために、アトリビューション、クローズドブックレスポンス生成、ヘッジの方法が利用された。10月にJoe Biden大統領が署名した大統領令14110に従い、GoogleはGemini・Ultraのテスト結果を米国連邦政府と共有すると述べた。
Geminiの詳細を知りたい開発者は、Googleが公開した技術レポートを読むことができる。