BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAI、脱獄耐性を向上させたGPT-4o miniモデルをリリース

OpenAI、脱獄耐性を向上させたGPT-4o miniモデルをリリース

原文リンク(2024-07-23)

OpenAIは、同社のフラッグシップモデルであるGPT-4oの小型版であるGPT-4o miniをリリースした。GPT-4o miniはいくつかのLLMベンチマークでGPT-3.5 Turboを上回り、OpenAIの最初のモデルで、脱獄とシステムプロンプト抽出に対するモデルの耐性を向上させる命令階層メソッドで学習される。

GPT-4o miniはGPT-4oフルモデルと同じ言語とモダリティをサポートするが、現在のところOpenAIのAPIはテキストと視覚のみで、音声とビデオの入出力は "将来的に "可能になる。このモデルはまた、同じコンテキストウィンドウ、128kトークン、2023年10月のトレーニング知識カットオフを持つ。また、GPT-4oと同じ安全性緩和が組み込まれており、さらにOpenAIの命令階層学習を用いて学習されている。この学習法は、ジェイルブレイクに対するモデルの堅牢性を最大30%向上させ、システムプロンプト抽出に対する防御力を60%向上させる。MMLUHumanEvalのようなLLMベンチマークでは、GPT-4o miniはGPT-3.5と同様にGemini FlashやClaude Haikuのような同等の小型LLMを上回っている。OpenAIによれば。

過去数年間、我々はAIインテリジェンスの目覚ましい進歩と大幅なコスト削減を目の当たりにしてきた。我々は、モデル機能を強化しながらコストを削減するというこの軌道を継続することに注力している。我々は、モデルがあらゆるアプリやウェブサイトにシームレスに統合される未来を描いている。GPT-4o miniは、開発者が強力なAIアプリケーションをより効率的かつ手頃な価格で構築し、拡張できる道を開いている。AIの未来は、よりアクセスしやすく、信頼性が高く、私たちの日々のデジタル体験に組み込まれつつあり、私たちはその道をリードし続けることに興奮している。

OpenAIはモデルの技術的な詳細をあまり公表していないが、同社は最近、命令階層に従うようにモデルを訓練する研究論文を発表した。重要なアイデアは、LLMに対する多くの攻撃ベクトルが、"LLMはしばしばシステムプロンプトを信頼できないユーザーや第三者からのテキストと同じ優先順位とみなす "という事実を利用しているということだ。これに対処するため、OpenAIは、LLMが "優先順位の低い "命令が優先順位の高い命令と衝突した場合に無視するように教えるトレーニングデータセットを開発した。

この方法を評価するため、研究者たちはまずデータセット上でモデルを微調整し、次にオープンソースの攻撃ベンチマークと独自の攻撃ベンチマークの両方でテストした。微調整されたモデルは、すべてのベンチマークで堅牢性の向上を示した。しかし、一部のベンチマークではモデルが「過剰に拒否」する傾向があることに気づいたが、実際のユースケースにおいて「モデルの挙動が顕著に低下する」ことはないという。

OpenAIのCEOであるサム・アルトマンはXに、2022年における同社の最高モデルtext-davinci-003はGPT-4o miniより「ずっとずっと悪い」と投稿した。また、LMSYSチームはXで次のように明らかにした。

GPT-4o-miniの初期バージョン "upcoming-gpt-mini "が先週アリーナでテストされた。6000を超えるユーザー投票により、我々はGPT-4-Turboの性能に達し、大幅なコスト削減を提供する初期のスコアを共有できることに興奮している。

しかし、ウォートン大学のイーサン・モリック教授はこう書いている。

GPT-4o-mini(なんという名前だろう)の第一印象は、小型モデルとしては印象的だが、最先端モデルの代わりにはならないということだ。複雑な教育プロンプトを与えられたとき、GPT-4oのように指示に従うことができず、ニュアンスを見逃す。

GPT-4o-miniは、ChatGPTだけでなく、OpenAI APIからもからも利用できる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT