GoogleはAIで生成したテキストに透かしを挿入できる技術を発表した。 Mountain View の巨人は、 SynthID がオープンソースとなり、今日から無料で提供されると発表しました。このツールは当初 2023 年に発表され、数か月前にその進歩を見ることができました。
X (Twitter) の Google DeepMind 公式アカウントは、SynthID が実験したい人なら誰でも公開されることを確認しました。この技術は、人工知能で生成されたコンテンツ用の透かしツールファミリの一部です。これにより、Google は言語モデルを通じて生成されたテキスト、画像、ビデオの識別を容易にしようとしています。
「本日、当社は更新された責任ある生成 AI ツールキットを通じて、SynthID テキスト透かしツールのオープンソースをリリースします」と Google DeepMind は述べました。 「ソースコードを公開することで、より多くの人がツールを使用してフラグを付け、テキスト結果が自分の LLM からのものであるかどうかを判断できるようになり、責任を持って AI を作成することが容易になります。」
SynthID ウォーターマークは、長いテキストやバリエーションに最適です。 DeepMind の開発者によると、これらのマークは人間の目には見えず、識別ソフトウェアを介してのみ検出できるとのことです。
SynthID は、Gemini によって生成されたテキストでその有効性を示しました。そのため、他の企業が自社の言語モデルに SynthID を実装し、発生する可能性のある技術的制限を特定できるようにコードを公開することに決めたのです。
AI が生成したテキストにおける SynthID の仕組み
Google によると、SynthID には、コンテンツの品質、正確さ、創造性に影響を与えない、知覚できない透かしが組み込まれています。マークアップは、各トークンに確率スコアを与えることによってテキスト生成プロセスに直接埋め込まれます。これらのトークンは、モデルが情報を処理するために使用する構成要素であり、文字、単語、または文の一部にすることができます。
「モデルの単語選択のスコアの最終パターンは、調整された確率スコアと組み合わされて、ウォーターマークとみなされます」と DeepMind の研究者は述べています。 「このスコアのパターンは、透かしの入ったテキストと透かしの入っていないテキストの予想されるスコアのパターンと比較されます。これにより、SynthID は、テキストが人工知能ツールによって生成されたものか、それとも他のソースからのものであるかを検出するのに役立ちます。」
SynthID は、2,000 万件のチャットボット応答のスコアを分析した実験でその有効性を示しました。 Google は、 Natureに掲載された記事の中で、同社のテクノロジーにより遅延への影響を最小限に抑えながら高い検出精度を実現できると述べています。ウォーターマークを挿入するプロセスでは言語モデルのリソースが使用されないため、後者は重要です。
「複数の LLM の評価では、SynthID-Text が同等の方法と比較して検出可能性が向上していることが経験的に示されており、標準ベンチマークと並べて人間による評価を行っても、LLM の機能に変化は見られません」と DeepMind のエンジニアは述べています。
SynthID は、Hugging Face を通じて、および Google の Responsible Generative AI ツールキット内で利用可能になります。
参考資料一覧
- https://ai.google.dev/responsible?hl=es-419
- https://www.nature.com/articles/s41586-024-08025-4
- https://x.com/GoogleDeepMind/status/1849110263871529114
