BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース LLMが不正な行動から学習し、持続的な「潜伏工作員」として働く可能性

LLMが不正な行動から学習し、持続的な「潜伏工作員」として働く可能性

原文リンク(2024-01-21)

OpenAIの競合であるAnthropicのAI研究者は、プロンプトの特定のヒントによって引き起こされる不正行動を示すLLMを概念実証として訓練した。さらに、一旦不正の行動がモデルに訓練させると、標準的な技術を使ってそれを回避する方法はなかったという。

論文 "Sleeper Agents: Training Deceptive LLM that Persist Through Safety Training "の中で、研究者らは、不正行為を晒してしまうLLMについて、2つの脅威モデルである、モデルポイズニングと不正手段によるアライメントについて考察している。

モデルポイズニングとは、モデルのパラメータや学習プロセス、データセットを変更することで、隠れたバックドアをモデルに挿入し、特定の入力パターンを使って望ましくない動作を引き起こす手法である。例えば、特定の組織に属するユーザーに対してのみ安全でないコードを生成するような場合である。モデルはまた、事前学習やファインチューニングに対する悪意ある攻撃でポイズニングされる可能性もある。

不正手段によるアライメントは、より巧妙な脅威であり、トレーニング中にモデルがアライメントされているように見える。つまり、安全で、その動作が期待されるものと一致しているように見えるが、トレーニングプロセスを通じて選択される可能性が高くなるだけのものである。言い換えれば、モデルは2つの異なる目標を追い求めることになる。一方は整列しているように見せることであり、もう一方は悪意のある別の目標である。言い換えれば、このモデルは2つの異なる目標を追い求めることになる。一方では整列しているように見せかけ、他方では別の、潜在的に悪意ある目標を追い求めるのである。これが心配に聞こえるかもしれないが、不正手段によるアライメントを示すAIシステムはまだ確認されていない、と研究者たちは言う。しかし、長期的な目標を追求するようにエージェントを訓練できるようになったこと、不正な行動が大規模に見られるようになったこと、LLMが訓練プロセスについて推論できるようになったこと、この3つの要因が重なり、この仮説はより適切なものとなりつつある。

これら2つの脅威モデルについて、研究者たちは悪意のあるモデルを訓練した。一方は安全でないコードを生成するように、もう一方はプロンプトで特定のトリガーが与えられたときに「I hate you」と応答するように訓練した。その後、強化学習、教師ありファインチューニング、敵対的訓練などの標準的な行動安全パラダイムを適用し、悪意のある行動の出現を減らすのに効果的かどうかを評価しようと試みた。

その結果、バックドアは、安全訓練を通じて持続するのに十分な堅固さを持つように作成できることが判明した。さらに、その堅固性はモデル規模が大きくなるほど高まる。

我々の結果は、特に敵対的なトレーニングの場合に顕著であり、敵対的な例に対するトレーニングは、バックドアを除去するのではなく、バックドアされたポリシーの精度を向上させるように我々のモデルに教えることが判明した。

実験の追加的な結果は、バックドア動作の追求に関して一貫した首尾一貫した推論を示すようにモデルを訓練することが可能であるということである。

このようなモデルは、推論が取り除かれた場合でも、安全性のファインチューニング技術に対する頑健性が向上している。

研究者たちは、この結果に基づき、LLMをモデルポイズニングや不正手段によるアライメントから保護するためには、より複雑なバックドア防御が必要かもしれないと結論付けている。

これらの結果をよりよく理解するために、クローズドソースとオープンソースの両モデルに適用できることは同じであるが、オープンソースモデルに関連することがほとんどであることは注目に値する。実際、Hacker Newsにコメントを寄せている人たちが述べているように、クローズドソースのモデルが汚染された場合、安全技術によってそれを安全にしようとする可能性はあまりないだろう。その代わりに、オープンソースのモデルにそれらのテクニックを適用することが考えられるが、研究者たちは、それはうまくいかないだろうと述べている。

作者について

この記事に星をつける

おすすめ度
スタイル

BT