Google は、MUM やLaMDAなどのさまざまな機械学習アルゴリズムで何ができるかを何度も実証しており、これらの進歩を「Image」と呼ばれる新しい人工知能モデルに反映し続けています。同社のAI部門責任者ジェフ・ディーン氏によると、これは「人間とコンピューターの間の共同創造性を解き放つ」ことを約束しており、シンプルで短いテキストの説明に基づいて画像を生成することができる。

「Image」は、Open AI (イーロン・マスクによって設立された会社) によって開発された人工知能であるDALL-E 2に非常に似ており、テキストの説明に基づいて画像を生成することもできます。ただし、両方のモデルには、画像の作成における詳細レベルや効率など、いくつかの違いがあります。

特に Google は、自社の AI が他のシステムと比較して、より正確な詳細レベルの結果を提供することを保証しています。これを検証するために、同社は DrawBench と呼ばれるベンチマークを作成し、自社の AI モデルを、VQ-GAN+CLIP、潜在拡散モデル、さらには DALL-E 2 などの他の同様のモデルと比較し、結果を「並べて」表示しました。これにより、「人間の評価者」がそれらを区別し、最も現実的なものを選択できるようになります。同社によれば、これらの評価者は、「Image」によって生成された画像は、他のモデルに比べて品質が高く、「画像とテキストの位置合わせ」が優れていると結論付けたという。

 Google AI は他の AI よりも高速かつ効率的であり、より複雑な説明も理解します

Google AI は他の AI よりも高速かつ効率的であり、より複雑な説明も理解します

Google AI

短いテキストの説明から画像を生成する Google の AI である「Image」も、U-Net と呼ばれる独自のアーキテクチャのおかげで「計算効率、メモリ効率が向上し、より高速に収束」します。したがって、その結果は、他のどのモデルよりも、またあらゆるタイプのテキスト記述からより正確に生成された超現実的な画像になります。

「非常に怒っている鳥」、「宇宙飛行士のヘルメットをかぶったアライグマが夜に窓の外を眺めている写真」、「月へ向かう宇宙船に乗っている脳」などは、Google があなたの行動を示す例として使用したフレーズです。人工知能モデルができること。これらは、Web サイトで見つけることができるものの一部です。

AIグーグル

一方、Google は、「Image」は特定の場所に基づいた説明や複雑なテキストを含む画像も作成できると主張しています。たとえば、ユーザーが「ディズニーランドでファスコラルクトス・シネレウス(コアラ)にプロポーズするプロキオン・ロトル(アライグマ)」と入力した場合、同社の AI はこの説明に基づいて画像を作成し、両方の動物の学名と名前を理解する必要があります。場所。

「イメージ」は現在社内プロジェクトであり、「有害な固定観念や表現」を含む画像の作成につながる可能性があるため、一般には公開されていないと同社は強調している。

「Image」は、キュレーションされていない Web スケール データでトレーニングされたテキスト エンコーダーに依存しているため、大規模な言語モデルの社会的バイアスと制限を受け継いでいます。そのため、Imagen には有害なステレオタイプや表現がエンコードされているリスクがあり、それがさらなる安全策なしで Imagen を一般公開しないという決定につながりました。

グーグル。

参考資料一覧

  1. https://gweb-research-imagen.appspot.com

この Google AI は、短いテキストの説明だけで超リアルな画像を作成できます・関連動画