GoogleはGemini人工知能による画像生成を再び許可する予定だ。イギリスの黒人君主かアジアのナチスかという論争の後、このテクノロジー企業は2月に生成AIの開発を撤回した。数か月にわたるテストと修正を経て、 Gemini は本題に戻り、テキストの指示から写実的な人物画像を約束します。
テクノロジー大手は、 Image 3 で画像を生成する機能を含む、言語モデルの大幅なアップデートを確認しました。前回の I/O 2024 で発表された Image 3 は、テキストからリアルな画像を生成するための新しいモデルです。ユーザーは、Gemini や ChatGPT の場合と同じ方法で命令 (プロンプト) を入力するだけで済みます。
Gemini 社製品管理ディレクターの Dave Citron 氏は、「幅広いテストにおいて、Image 3 は他のイメージング モデルと比較して良好なパフォーマンスを示しました。」と述べています。 「画像 2 と同様に、AI が生成した画像マーキング ツールである SynthID を使用しました。」
物議を醸しているジェミニの画像はどうなるでしょうか?
Google によると、Image 3 は安全装置が組み込まれた高度なイメージング機能を提供します。このテクノロジー企業は技術文書の中で、セキュリティおよびコンテンツ ポリシーの違反を積極的に監視していることを示しています。エンジニアはマルチモーダル分類器を使用して、有害な表現となった画像を検出しました。
後者は、 「歴史的不正確さ」を含むコンテンツを避けるためにも機能します。グーグルは、自社のテクノロジーが不当な偏見を生み出したり強化したりすることを避けなければならないことは明らかだが、イギリスの黒人王のような大失敗を犠牲にしてそうすることはできない。
Googleは、「推奨されるセキュリティフィルターを使用して、いくつかのセキュリティデータセットでイメージ3のパフォーマンスをイメージ2のパフォーマンスと比較して評価した」と述べた。 「これらのデータセットは、AI が生成した画像における暴力、憎悪、露骨な性的表現、過剰な性的表現を評価することを目的としています。」同社によれば、違反率は画像2以下にとどまっているという。
画像 3 にはエラーがないわけではないことに注意してください。 Google は、性的コンテンツや暴力的なコンテンツは表示しないことを明らかにしましたが、AI によって生成されたすべての画像が完璧であるわけではないと警告しています。未成年者や過度に流血、暴力、または性的なシーンのすべての画像は、認識できる写実的な人物の生成と同様に禁止されます。
Google は、 Image 3 がスペイン語を含むすべての言語の Gemini アプリケーション (無料版を含む) に段階的に導入されることを確認しました。一方、人物画像の生成は、有料ユーザーの Gemini Advanced、Business、Enterprise 向けに英語のプレビュー バージョンで利用可能になります。
参考資料一覧
- https://blog.google/products/gemini/google-gemini-update-august-2024/
- https://arxiv.org/pdf/2408.07009
