OpenAIはこの頃、AIのリスクを軽減するためのPreparedness Frameworkのベータ版を発表した。このFrameworkには、4つのリスクカテゴリーとそれぞれのリスクレベルの定義が記載されており、OpenAIの安全ガバナンス手順も定義されている。
Preparedness FrameworkはOpenAIの全体的な安全性への取り組みの一部であり、特に最先端モデルによるフロンティアリスクについて懸念している。モデルを評価する中核的な技術的作業は、専門の準備チームが担当し、説得力、サイバーセキュリティ、CBRN(化学、生物、放射性物質、核)、モデルの自律性という4つのカテゴリーでモデルのリスクレベルを評価する。このFrameworkでは、モデルの開発や配備を進めても安全かどうかを判断するためのリスク閾値を定義している。このFrameworkはまた、潜在的なリスクの証拠を評価し、リスク軽減策を推奨する責任を負う安全諮問グループ(SAG)を含む、準備のための運用構造とプロセスも定義している。OpenAIによると、
我々は、新たなリスクをよりよく検知するために、厳格な能力評価と予測の設計と実行に投資しています。特に、リスクに関する議論を、仮説的なシナリオから具体的な測定やデータドリブンの予測へと移行させたいと考えています。また、現在起きていることにとどまらず、その先に何が待ち受けているかを予測することも望んでいます。安全対策が今後の技術革新と歩調を合わせるためには、私たちは単純に少ない労力で済ませることはできず、反復的な展開を通じて学び続ける必要があります。
Frameworkの文書では、4つの追跡カテゴリーにおける4つのリスクレベル(低、中、高、重要)の詳細な定義が示されている。例えば、サイバーセキュリティのリスクレベルが中レベルのモデルは、「既知のエクスプロイトを攻撃に発展させるなど、主要なサイバー操作タスクにおけるオペレーターの生産性を向上させる」ことができる。OpenAIは、モデルのリスクレベルを自動的に評価するための一連の評価を作成することを計画している。これらの詳細は公表されていないが、Frameworkには「ハッキングチャレンジの参加者が...ChatGPTを使用することでより高いスコアを得る」といった例示が含まれている。
Frameworkで定義されているガバナンス手順には、モデルの緩和前と緩和後のリスクレベルに基づく安全ベースラインが含まれている。例えば、モデルを制限された環境にのみデプロイする。ミティゲーション(攻撃軽減)後のリスクが「高」または「クリティカル」であるモデルは展開されず、ミティゲーション後のスコアが「クリティカル」であるモデルはそれ以上開発されない。また、ガバナンスの手順では、OpenAIのリーダーはデフォルトで安全性に関する意思決定者であるが、理事会は決定を覆す権利があるとしている。
このFrameworkに関するHacker Newsのディスカッションでは、あるユーザーがこうコメントしている。
AIの本当の危険性は、モデルが人間によって使用され、人間の説明責任を伴わずに、他の人間について決定を下すことだと感じています。これによって、新たな種類の組織的な虐待が人知れず行われるようになり、効果的に対応するためのリソースが不足しているため、恵まれないグループのほとんどが被害者となるでしょう。彼らの安全性モデルのどこにも、このリスクが取り上げられているのを私は見てきませんでした。
他のAI企業も、AIリスクの評価と軽減のための手順を公表している。この枠組みには、疾病管理センターのバイオセーフティレベル(BSL)プロトコルに倣ったAI安全レベル(ASL)の枠組みが含まれている。この枠組みでは、AnthropicのClaudeを含むほとんどのLLMは、"ASL-2であるように見える"。Google Deepmindはこの頃、AGIモデルを分類するためのFrameworkを発表したが、これには6つの自律性レベルとそれに関連するリスクのリストが含まれている。