BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAIがOperator、Webベースタスク用AIエージェントをリリース

OpenAIがOperator、Webベースタスク用AIエージェントをリリース

原文リンク(2025-02-18)

OpenAIOperatorのリサーチプレビュー版、ユーザーに代わってWebブラウザを使ってタスクを実行できるAIエージェントをリリースした。OperatorはWebArenaWebVoyager のベンチマークで最先端の性能を達成している。

Operatorを構築するために、OpenAIはGPT-4oから派生した新しいモデルComputer-Using Agent (CUA)を開発した。このモデルはGPT-4oの視覚能力を利用してブラウザ画面の内容を理解し、さらにボタンやメニューのようなGUI要素と対話するよう訓練されている。タスクを実行するために、タスクが完了するまで知覚、推論、行動のステップを繰り返しループする。OpenAIはいくつかの安全保護機能を組み込んでいる:例えば、Operatorはパスワードを入力する際にユーザーに操作を引き継ぐよう要求し、銀行取引などの高リスクタスクは拒否する。OpenAIによれば:

oモデルシリーズによる深い推論、GPT-4oによる視覚能力、強化学習と指示階層による堅牢性向上のための新しい技術において、私たちは重要な進展を成し遂げました。次に探求する課題領域は、エージェントの行動空間を拡大することです。ユニバーサルインターフェースによりもたらされる柔軟性がこの課題に対処し、人間向けに設計されたあらゆるソフトウェアツールを操作できるエージェントを実現します。エージェントに特化したAPIを超えることで、CUAは利用可能なあらゆるコンピュータ環境に適応できる-ほとんどのAIにとってまだ手の届かないデジタルユースケースの「ロングテール」に真に対応することができます。

2024年後半、InfoQはAnthropicのComputer Use機能のリリースを取り上げた。この機能により、Claudeモデルは画面上の画像を解釈し、マウスポインタを動かし、ボタンをクリックし、仮想キーボードを介してテキスト入力することでコンピュータと対話できる。ClaudeはいくつかのOSとWeb利用ベンチマークで記録を作ったが、OperatorはWebArena、WebVoyager、OSWorldでそれを上回る性能を示している。しかし、Operatorはこれらのタスクにおいてまだ人間の性能には及ばない:例えば、OSWorldで38.1%のスコアを記録しているが、人間は70%以上のスコアを記録する。

CUAベンチマークスコア。画像ソース:OpenAIのCUAレポート

OperatorはWebサイト上でアクションを実行できるため、OpenAIはGPT-4oに既に組み込まれている安全対策に加えていくつかの安全対策を追加した。特に重要なのはプロンプトインジェクションやフィッシングなど、悪意のあるWebサイトによる敵対的攻撃に対する保護機能である。OpenAIはレッドチームを使って保護機能をテストし、プロンプトインジェクション緩和策が「1ケースを除き全て」で機能したと主張している。

AI研究者で起業家のAndrej Karpathy氏は、XでOperatorについてこう書いている

OpenAIのOperatorのようなプロジェクトは、ヒューマノイドロボットが物理的な世界にとって重要であるのと同様に、デジタルの世界にとって重要です。元来人間のために設計されたI/Oインターフェースを介して、原理的には徐々に任意の一般的なタスクを実行することができる一般的なセッティング(モニターとキーボードとマウス、あるいは人間の体)。どちらの場合も人間が低レベル自動化の高レベル・スーパーバイザーになる、徐々に人間とAIが共存する世界に導かれます。これはドライバーがオートパイロットを監視するのに似ています。ビット反転が原子移動よりも約1000倍安価であるため、物理世界よりもデジタル世界の方が速く進行するでしょう。ただし、市場規模とオポチュニティは物理世界の方がはるかに大きく感じます。

OperatorはChatGPT ProユーザーだけがWeb経由で利用できる。OpenAIはこれを他の有料ChatGPTプランに拡大し、「スケールにおける安全性とユーザビリティに確信が持てるようになれば」、基盤となるCUAモデルをAPI経由で利用できるようにすることを計画している。

作者について

関連するコンテンツ

BT