Nvidiaの大規模言語モデル(LLM)向けの新しいNeMo Guardrailsパッケージは、開発者が有害または攻撃的なコンテンツや機密データへのアクセスなどといったLLMのリスクを防ぐのに役立つ。このイノベーションは、これらモデルの動作を制御するために複数の機能を提供し、より安全なデプロイを保証するものであるため、開発者にとって極めて重要だ。特に、NeMo Guardrailsは、LLMが有害または攻撃的なコンテンツを生成するリスクを軽減することで、AI主導が進む環境において必要不可欠なセキュリティレイヤーを提供する。
NeMo Guardrailsは、LLMのふるまいをコントロールする多くの機能を有しており、開発者が直面するLLM関連リスクを軽減する。このパッケージは、Nvidiaが会話型AI用に開発したモデリング言語とランタイムであるColangをベースに構築された。「あなたの製品について話すように設計された顧客サービスのチャットボットがある場合、それが競合他社に関する質問に答えることは望んでいないでしょう。」とNvidia応用研究担当副社長のJonathan Cohen氏は述べる。「会話をモニタリングし、もしもそんな状況になった時、自分の望ましい話題へと会話を誘導していくのです。」と語る。
NeMo Guardrailsは大きく3つのカテゴリーをサポートしている。「トピック」「セーフティ」「セキュリティ」だ。トピック・ガードレールは、会話が特定のトピックに集中することを保証するものだ。セーフティ・ガードレールは、LLMとのやり取りが、誤った情報、有害な反応、不適切なコンテンツにつながらないようにする。また、適切な返答をするためのポリシーや、AIシステムのハッキングを防止する役割も担っている。セキュリティ・ガードレールは、LLMが悪意のあるコードを実行したり、セキュリティを脅かすような方法で外部アプリケーションを呼び出したりすることを防止する。
Guardrailsはサンドボックス環境を備えており、開発者は本番システムを危険にさらすことなくAIモデルを自由に実験できるため、有害または攻撃的なコンテンツを生成するリスクを低減する。さらに、AIモデルの利用状況を一貫して追跡・精査するリスクダッシュボードを提供し、潜在的なリスクが大きな問題に発展する前に特定・軽減するよう開発者をサポートする。また、組織内でのAIの使用を指示するために設計された明確なポリシーとガイドラインのセットも提供する。
NeMo-Guardrailsの評判は概ね良好であるが、一部では制限について注意喚起をする声も上がっている。このLLMパッケージを使用する際には、開発者が注意しなければならない制限や制約がある。Cambrian-AI ResearchのKarl Freund氏は、「Guardrailsは、悪意のある行為者によって回避されたり、その他の方法で侵害される可能性があり、彼らはシステムの弱点を利用して有害または誤解を招く情報を生成することができる」と述べた。脱獄(Jailbreaks)、幻覚(hallucinations)、その他の問題も依然として活発な研究分野であり、現在のシステムではこれらに完全な防御を実装しているプロダクトは存在しない。
また、大規模な言語モデルを扱う際の安全性を確保するためのツールも存在する。例えば、Language Model Query Language(LMQL)は、自然言語プロンプトを作成するために設計され、Pythonの上に構築可能だ。MicrosoftのGuidanceフレームワークも、出力が特定のデータ形式に従うことを保証しないLLMの問題への対処を想定している。
Guardrailsは、第二の防衛ラインとして最適に機能するとNvidiaは述べており、チャットボットを開発・展開する企業は、やはり複数のレイヤーを持つセーフガードのセットでモデルを訓練するべきだと提案している。