OpenAIは、サードパーティの開発者が API経由でChatGPTとWhisperをアプリやサービスに統合して、AI活用した言語と音声テキスト変換機能へのアクセスを提供することを発表した。同社の従来の言語アプローチを使用する場合と比較してこのAPIを使用すると企業は ChatGPTとWhisperを自社のプラットフォームに容易に統合できるようになるのだ。
gpt-3.5-turboとも呼ばれる新しい ChatGPT モデルのコストは 1,000 トークンあたり $0.002で、現在使用されているGPT-3.5モデルの 10 分の 1で、会話以外の多くの用途でも最高のモデルである。GPTモデルでは非構造化テキストを一連のトークンとしてモデルに供給していたが、ChatGPTモデルでは関連するメタデータと共に一連のメッセージを消費する。
現代の言語処理技術は、人間に似た自然言語での入力に対する回答を生成可能だ。このモデルは、イディオム、スラング、口語表現などの言語のニュアンスを理解できるため、会話インターフェイスを作成するための効果的なツールである。ChatGPTを使用することで、開発者はチャットボットやバーチャルアシスタントなど、ユーザーにあわせた人間らしい対応をする会話型インターフェースを構築できる。そして最新のChatGPTモデルは、専用のオープンソース・プラットフォームのおかげで大幅に低価格化され、サードパーティにも開放されることになった。
OpenAI は、同社の音声からテキスト化技術である Whisperの新しい APIを公開した。同社によると1分あたり$0.006で音声の翻訳または書き起こしに使用できる。Whisperのモデルはオープンソースであるため、お金を使うことなく、自前のハードウェア上で動かせる。
OpenAIは開発者の意見の反映結果として特定のポリシー調整を進めている。その1つは、ユーザーが特に同意しない限りAPI経由で提供されたデータでモデルをトレーニングしない、というものである。
さらにOpenAIは特定のモデルのバージョンやシステム性能の制御の強化を望むユーザー向けに、専用インスタンスの提供を開始した。従来では、リクエストは他のユーザーと共有しているコンピューティングリソースを使用して処理されて課金される。専用インスタンスでは、開発者がクエリを処理するために特別に指定された時間制限つきコンピューティングリソースを購入できるのだ。このAPIはAzure上にホストされている。
AI は、すべての人に信じられないほどの機会と経済的エンパワーメントを提供可能だ。それを達成するための最善の方法は、誰もが AI を使って構築できるようにすることだ、と OpenAI は言っている。
これらのAPIのリリースは、より高度で洗練された言語アプリケーションを構築するための新しいツールや機能を提供するため、開発者コミュニティに大きな影響を与えることが期待されている。