NVIDIA は、 ChatGPT のような生成 AI が正気を失うのを防ぐオープン ソース ソフトウェアである NeMo Guardrails を発表しました。メーカーの考えは、アプリケーションが正確で安全であることを保証するための一連のガイドラインを確立することです。これを実現するために、GPT-4 などの広範な言語モデル (LLM) を利用したアプリにルールを追加できるツール セットが提供されます。
メーカーによると、このソフトウェアは LangChain などのコミュニティによって作成されたキットで構成されています。これらには使いやすいテンプレートとパターンが含まれているため、開発者は必要なユーザー アクションを定義できます。これは、 ChatGPT などのアプリケーションとのやり取りを監視し、指示する一連のルールであるガードレールのおかげで可能になります。
NeMo Guardrails を使用すると、トピックから外れた応答の回避、安全でない接続の制限、悪意のあるコードの実行の防止など、さまざまな制限を設定できます。これらの手すりは 3 つのレベルで提供されます。
- 話題の手すり。アプリケーションが不要な領域に侵入するのを防ぎます。たとえば、顧客サービスのチャットボットが天気に関する質問に回答できないようにします。
- 安全手すり。これらにより、アプリケーションが正確かつ適切な情報で応答することが保証されます。不要な言語を除外し、信頼できる情報源のみへの参照を強制することができます。
- 手すりを安全に保護してください。これらは、安全であることがわかっている外部のサードパーティ アプリとのみ接続するようにアプリを制限します。
NVIDIA によると、このソフトウェアは使いやすく、開発者は誰でもチャットボットにテンプレートを実装できます。ルールはわずか数行のコードで作成され、Python ライブラリを使用するあらゆるアプリケーションに適用されます。
ChatGPT およびその他の AI は、NVIDIA の支援により信頼性が向上します。
このセキュリティ対策は、 AI を活用したチャットボットで見られる主な問題の 1 つを解決することを目的としています。ガードレールは、インタラクションに虚偽の情報、不適切なコンテンツ、有害な反応が含まれていないことを保証します。 ChatGPT は通常、情報をでっちあげて事実として提示するか、Bing の場合はいくつかのクエリの後におかしくなることが証明されています。
NeMo Guardrails は、NVIDIA が会話型 AI 用に開発した言語である Colang に基づいています。ガードレールはユーザーとアプリケーション (ChatGPT) の間に配置され、通信を監視し、モデルが確立されたドメイン内に留まるように対策を適用します。メーカーによれば、このガードレールは道路の幅を定め、車両の逸脱を防ぐ制限のようなものになるという。
3 つのカテゴリはさまざまなレベルで機能します。たとえば、トピックのガードレールを使用すると、トピックに集中し続けることができ、話題から逸れた場合には会話の方向を変えることができます。ガードレールは、適切または信頼性の高い応答を保証するだけでなく、Bing の初期の時代に見られたように、人間がルールを回避して不正な情報を取得することを防ぎます。
最後に、ガードレールはシステムを外部攻撃から安全に保つことを目的としています。このカテゴリは、LLM モデルが悪意のあるコードを実行したり、不正なアプリケーションを呼び出したりすることを防ぎます。このテクノロジーの導入が進むにつれて、 AI に対するサイバー攻撃はより高度になるため、このカテゴリは最も重要なものの 1 つとなります。
NVIDIA は、NeMo Guardrails が GitHub および NVIDIA AI Enterprise プラットフォームで利用可能になることを明らかにしました。このソフトウェアはオープンソースであり、コミュニティに依存して開発を継続します。
参考資料一覧
- https://blogs.nvidia.com/blog/2023/04/25/ai-chatbot-guardrails-nemo/
- https://python.langchain.com/en/latest/index.html
