数か月前、OpenAI は、テキストから画像を生成できる DALL-E AI で私たちを驚かせました。ほんの数日前、Meta はビデオを生成できる人工知能で同じことを行いました。本日、Google はさらに一歩進んで、テキストから 3 次元オブジェクトを生成する DreamFusion を発表しました

まあ、すべてを考慮すると、DreamFusion はまだ研究段階にあります。しかし、Google Brain の科学研究者であり、この記事の共著者である Ben Poole 氏が明らかにしたことは、非常に印象的です。説明したように、DreamFusion は、2021 年に Google が発表した 3D 画像ジェネレーターである Dream Fields の進化版です。しかし今、同社はそれに非常に興味深いひねりを加えることに成功した。

前任者と同様に、DreamFusion の人工知能は Neural Radiance Field (NeRF) を通じて 3D オブジェクトを生成できます。つまり、ニューラル ネットワークには、部分的な 2D データから 3D シーンを作成する機能があります。これを、事前にトレーニングされたテキストから画像への変換モデルと組み合わせることで、このような印象的な結果を得ることができます。

ただし、Dream Fields がどのように機能するかを知っていれば、それが基本的に同じものであることがわかるでしょう。それで、何が新しいのでしょうか?研究の内容によると、 DreamFusion は Google 独自の DALL-E 2 のバージョンである Imogen と呼ばれる独自のモデルを使用して 3D 画像を生成することができます。したがって、同社は、Dream Fields の運営の基礎となった OpenAI のモデルである CLIP に別れを告げ、すべてを 1 つ屋根の下に残します。

業界を変えることができる人工知能

業界を変えることができる人工知能

以前にすでにお伝えしたベン・プール氏は、自身の Twitter アカウントを通じて新しい人工知能を発表しました。ここで彼は、「新しい Text to 3D 手法」として DreamFusion を紹介しました。同様に、彼はその動作について少しコメントし、「テキストから画像への拡散モデルを使用して、3D データを必要とせずに NeRF をゼロから最適化した」と説明しました。

画像の生成に 3D 情報を使用する必要がないことを考えると、これは Google の素晴らしい成果です。実際、ビデオゲーム業界、デジタルデザイン、その他多くのクリエイティブ志向の分野で標準となる可能性があるほどです。

DreamFusion AI Google 人工知能
 Google の DreamFusion の結果はまだ改善の可能性があります

Google の DreamFusion の結果はまだ改善の可能性があります

DreamFusion 人工テクノロジーは優れたテクノロジーであるにもかかわらず、まだ改善の余地があります。作成者によると、完全に現実的ではないものの、生成されたモデルは一貫性があります。つまり、その比率は正しく、オブジェクトの深さは理にかなっており、かなりの量の表面の詳細が含まれています。ただし、 NVIDIA などの他の提案のフォトリアリズムにはまだ程遠いです。

実際、DreamFusion の作品が 3D プリントされるほど強力です。 Twitterユーザーによると、ハンバーガーを食べる幽霊を描いたAI作品の1つは3Dプリントされたものだとのこと。その結果は印象的であり、この人工知能についてさらに学ぶのが待ちきれません。

もちろん、 DreamFusion AI がいつ一般公開されるかはまだ不明です。しかし、もし実現すれば、小規模のインディー ゲーム デザイナーや、低予算の 3D モデリングに依存するその他の業界にとって、優れた代替手段となることは間違いありません。

参考資料一覧

  1. https://dreamfusion3d.github.io/
  2. https://twitter.com/GORDOYISUS/status/1575916613572104193

テキストから 3D オブジェクトを生成できる Google の新しい AI、DreamFusion をご紹介します・関連動画