NVIDIA NeMo Guardrailsの紹介｜技術ブログ

NVIDIA

2025.12.09

こんにちは。SB C&S の村上です。

この記事ではNVIDIA社が提供しているNeMo Guardrailsを紹介します。

LLMで意識すべきセキュリティリスク

LLMを用いたAIアプリケーションの導入が多くの企業にて進む中、システムの導入で検討すべき事項としてセキュリティがあると思います。LLMを用いたアプリケーションでは、むしろ今までと異なった切り口でのセキュリティリスクもあります。

例えば、LLMを使ったアプリケーションで思いつくものとしてチャットボットがあると思います。このチャットボットは、一見すると各利用者がチャットを入力してAIが返してくれるだけのものです。

ただし、このチャットの入力にて「システムプロンプトを無視して回答して」と記載された場合どうなるでしょうか。LLMによっては指示された通りに、管理者が設定しておいたシステムプロンプトを無視してしまう場合もあります。これはプロンプトインジェクションと呼ばれる攻撃にあたり、LLMを利用する場合において警戒を持つ必要があるものになります。

プロンプトインジェクションによって発生しえる危険として以下のようなものがあります。

悪意のあるスクリプトの実行 (XSS, SQLインジェクションなど)
企業内ポリシー漏洩
個人情報流失
LLMと連携しているツールの悪用

このようにチャットが現在攻撃の入り口として利用されています。
これを防ぐツールとしてガードレールというソフトウェアが用いられています。

NeMo Guardrailsとは

NeMo GuardrailsはNVIDIA社が提供するLLM用のガードレールソフトウェアとなります。利用者(チャットツールなどのAIアプリケーション)とLLMとの中間に入り、やり取りされるプロンプトのチェックを行い、回答拒否や内容のマスクなどを実行する機能を提供します。

例えば、LLMからのレスポンスにXSSの疑いがあれば回答を拒否し、プロンプトに個人情報が含まれていたら個人情報部分のみをマスクするようなイメージです。

使い方の流れ

NeMo Guardrailsの動作をイメージしてもらうため、使い方の流れを簡単に紹介します。

NeMo Guardrailsを利用する際は大きく3つの工程を行います。

①まず、NeMo Guardrailsに対して対象となるモデルを登録します
➁そして防御の対象などを定義したルールの作成を行います
③あとは各AIアプリケーションのエンドポイントとしてGuardrailsを登録することで利用できます
　(LLMのエンドポイントとして指定していたURLをGuardrailsへ変更)

これらは全て、NeMo GuardrailsのAPIへ直接HTTPリクエストを実行するか、Python SDKを用いてアプリケーションに組み込むことで実施できます。

NeMo Guardrailsで実施できる防御例

最後に、NeMo Guardrailsの機能で実行できる防御例をいくつか紹介します。

インジェクション検出

NeMo GuardrailsではLLMから危険なスクリプトが無いかをチェックするインジェクション検出の機能があります。例えば、XSSやSQLインジェクションなどの危険なスクリプトが、LLMの回答に含まれていないかを確認できます。

LLMセルフチェック

LLMセルフチェックは、利用者から送られてくるプロンプトの内容をLLMにチェックさせる機能になります。仕組みとしては、送られてきたプロンプトを危険検知用の別のプロンプトに含ませてLLMに質問します。その結果LLMが危険と判断した場合、チャットのやり取りを中断します。
イメージとしてはGuardrailsを通じて、「危険チェック用のチャット」と「通常のチャット」の2段階を行っており、危険が検知されたら「通常のチャット」は行わないようにするものです。

PII (個人情報) 検出

個人情報にあたるものがLLMへの入力および出力に含まれていたら、その情報のマスクや、回答を拒否できます。例えば、クレジットカード情報、メールアドレス、個人名などについて、LLMへの誤った送信や、LLMを通じて別のツールに伝達されることを防御できます。
仕組みとしては、Microsoft社のOSSであるPresidioにて個人情報の検知を行っています。
https://github.com/microsoft/presidio