OpenAIが新しいResponses API、Agent SDK、可観測性ツールを発表した。これらは本番対応エージェントを作成する際に直面する課題、例えばカスタムオーケストレーションの構築や、複雑な多段階タスクにおけるプロンプトの反復処理に対応するためのものだ。
OpenAIは高度な推論能力やマルチモーダルインタラクションなどの先進的な機能を活用して複雑なタスクを実行するエージェントが、近い将来、産業全体で生産性を向上させる重要な存在になると述べている。OpenAIによって発表された新しいツールは、開発者がOpenAIプラットフォームを使ってエージェントワークフローを簡単に構築できるようにすることを目的としている。
Responses APIはチャット補完機能とアシスタント機能を組み合わせており、新しいプロジェクトではChat Completions APIやAssistants APIよりも優先されるべきである。
私たちはResponses APIがエージェントアプリケーションを構築する開発者に対して、より柔軟な基盤を提供すると信じています。一度のResponses API呼び出しで、開発者は複数のツールとモデルターンを使用してますます複雑なタスクを解決できるようになります。
新しいAPIはWeb検索、ローカルファイル検索、マウスとキーボードを使用したコンピュータ操作を含む、外部ツールへの組み込みサポートも提供する。さらに統一されたデザイン、よりシンプルなポリモーフィズム、改善されたストリーミング、複数のSDKヘルパーなど、以前のモデルに対する開発者からのフィードバックに基づき、使いやすさを向上させるいくつかの改良が施されている。
Web検索に対して、Responses APIはChatGPT検索、GPT-4o検索プレビュー、GPT-4oミニ検索プレビューで使っているものと同じモデルを活用している。これらのモデルはSimpleQAベンチマークで90%と88%の精度を記録しており、これは標準的なGPTモデルのパフォーマンス(15%から63%の間に含まれる)を大幅に上回っている。しかしコンピュータ操作ツールはOSWorldベンチマークで38.1%であり、オペレーティングシステム上のタスク自動化に関してはまだ高い信頼性を持つとは言えないことを示唆している。
現在もChat Completions APIとAssistants APIは引き続き利用可能であるが、OpenAIは新しいモデルや機能で前者を強化することをコミットする一方で、同社はすでにAssistants APIを来年廃止予定であると発表している。
Responses APIに加えてOpenAIは新しいAgents SDKも発表した。このSDKは個別のエージェント定義やそれら間での制御移行(ハンドオフ)の管理、不適切・有害・望ましくない動作を防止するための入力および出力に対する安全性チェック(ガードレール)の定義、エージェントを観察するためのトレース可視化を通じて、エージェントワークフローをオーケストレーションすることを目的としている。
Agents SDKはカスタマーサポートの自動化、多段階リサーチ、コンテンツ生成、コードレビュー、営業見込み客探索など、様々な実世界のアプリケーションに適しています。
Agents SDKはo1、o3-mini、GPT-4.5、GPT-4o、GPT-4o-miniを含む現在のOpenAIモデルをすべてサポートしている。また開発者はベクトルストアとEmbeddings APIを通じて表現される外部の永続的な知識をエージェントに追加することができる。Responses APIに依存することで、Agents SDKはWeb検索、ローカルファイル検索、コンピュータ制御するための同じ外部ツールをサポートする。
Agents SDKは実験的なオーケストレーションエージェントSwarmを置き換えるもので、Responses APIやサードパーティのAPIを含む、あらゆるChat CompletionsスタイルのAPIと互換性がある。
コミュニティの反応の中で、Hacker News (HN)の読者の中にはOpenAIのChat Completions APIから離れる動きについて「非技術的」な理由によるものだと指摘し、彼らのプラットフォームとのロックインのリスクをもたらす可能性があると述べている。同様にAssistant APIの段階的な廃止は、良いアプローチはResponses APIのコードを書き換えることではなくラッパーを作成することであり、必要な場合に基盤となるLLMを置き換える可能性を確保できる、と提案する読者もいる。
別の観点では複数のHN読者が、Agent SDKやその他のエージェントミドルウェアを採用することは基本的に状態管理やビジネスロジックをサードパーティに「アウトソーシング」することを意味し、一方でLLMコンポーネントをできるだけ小さく保ち、その周りに自分自身のロジックを構築することが望ましいと指摘している。