DALL-E 2: それはどのように機能し、それは何を意味しますか?何もないところから画像を生み出すAIはまさに完璧で恐ろしい

Written by

in

DALL-E 2 の仕組みと、この生成 AI によってもたらされる課題と機会についてのツアー。

人工知能の出現が私たちが予期しない方向から来ているように見えるのは面白いことです。 AI に自動運転車の運転を手伝ってもらったり、最も反復的な作業を私たちの代わりにやってくれるロボットの頭脳になってもらうという試みは、労働に影響を及ぼしますが、まだ実現には遠いようです。少なくとも、大規模に。しかし、これまでに作成された2 つの最も強力な生成 AIである DALL-E 2 と IMAGEN によって作成された画像を含むここ数週間でインターネット上に広まった画像は、何らかの形でAI がそれに近づいているように見えることを物語っています。人間は自由時間を与えるために機械的な作業に従事しているのではなく、最も創造的な作業に従事しています。

DALL-E 2 は、OpenAI によって作成された生成 AI の 2 番目のバージョンです。OpenAIは、もともとイーロンマスクによって設立された会社で、後に経営陣を離れ、マイクロソフトから多額の資金提供を受けています。 DALL-E 2 は、巨大なデータベースと連携して機能し、テキストと画像の両方で参照を抽出して認識し、口が裂けるような結果を定式化できます。茫然自失と恐怖が入り混じった状態で。

これは、「スチームパンクな研究室で働くテディベア」というフレーズに対する DALL-E 2 の答えのいくつかの選択肢のうちの 1 つです。

「明らかに思われるのは、DALL-E 2 のような提案が業界全体を震撼させることになるということです。最初に思い浮かぶのはストック画像です。たった 1 つのフレーズで何十もの結果が得られ、いくつかは現実的で、その他はイラスト形式であるとしたら、ファンタジーの世界では、画像バンクは多くの関連性を失っている、とニューロストリームのハビエル・イデアミ氏は説明します。彼はコンピューターエンジニアであり、片足を技術面に、もう片足を芸術面に置いてキャリア全体を発展させ、現在は AI の可能性にどっぷりと浸かっています。 Geniverse.co は、私たちの指示に基づいて画像を返す一種のデジタルキャンバスです。

これに、最近知られるようになった Google による同様のプロジェクトであるIMGENが追加されました。このプロジェクトの場合は、現実的なアプローチによる画像の生成により重点が置かれています。

「ほんの数年以内に、これらのテクノロジーがパブリックドメインになり、私たちが使用するすべてのデバイス（携帯電話を含む）に統合されると、それらは今日では予測するのが非常に困難な結果を伴う変化の原動力となるだろうと私は信じています。」 Erasmusu の創設者であるハビエル・ロペスは、最近、これらの新しい画像生成形式がもたらす可能性に興味を持ち、研究していると指摘しています。

彼ら 2 人と一緒に、DALL-E 2 がどのように機能するか、そしてそれがもたらす課題と機会についてツアーに参加します。

「人間の脳が記憶を呼び起こすのと同じように機能します。」

Ideami は DALL-E ベータ版にアクセスできるため、その可能性を最大限に活用できます。彼は、ジェニバースでの活動の結果として直接それを手に入れたのではなく、もっと日常的な何かによってそれを手に入れました。「マイアミで、OpenAI の CEO であるサム・アルトマンに会い、私たちの取り組みについて話し、ベータ版へのアクセスを許可してくれました。」

DALL-E のような生成 AI は、人間から与えられたテキスト、開始画像、または場合によってはその両方を参照として受け取り、それらの要求に適合する画像を参照の中から特定し始め、変換します。

Ideami 氏は、DALL-E の主な差別化要因は、DALL-E が扱う膨大なデータセット (情報を取得するレコードの数) と、テキストと画像の両方のリクエストを接続して絡み合わせる方法であると説明しています。

DALL-E の特徴は、扱う膨大なデータセットと、処理時に画像とテキストをどのように組み合わせるかです。

DALL-E 2 が最終的に私たちが見た画像と同じくらい信じられないものを生成するプロセスは非常に複雑ですが、Ideami にとって、それを理解するための出発点として何か基本的なものがあります。 「記憶するときの人間の脳の仕組みとの類似性は、良い出発点となります。当社は特定の時点で情報を収集し、保管します。しばらくすると、私たちはその情報を記憶の形で呼び起こします。毎回同じになるわけではありませんが、その都度修正していきます。私たちが与えた情報の一部が AI に転送され、そのデータセットが検索され、私たちに与えられる画像が生成されます」と彼は例証します。

本題に入りますが、DALL-E 2 シーケンスは次のように動作します。

情報が取得されます。まず、テキストを特定の表現空間に割り当てるようにトレーニングされたエンコーダーにテキストが入力されます。私たちが何を求めているのかを可能な限り知ってください。
これは、膨大な「記憶」のバンクを検索します。次に、 priorと呼ばれるモデルが、テキストエンコーディングを、メッセージの意味情報をキャプチャする対応する画像エンコーディングにマッピングします。 AIがテキストと画像の照合を開始します。
画像が呼び出されます。最後に、画像復号モデルは、私たちが与えたと理解しているこの意味論的情報を視覚的に表現した画像を確率的に生成します。

Ideami 氏が説明を続けているように、 DALL-E のもう 1 つの決定要因は、テキストと画像を意味論的に結合してより良い画像を生成する方法です。ここで、CLIP (Contrastive Language-Image Pre-training) と呼ばれる別の OpenAI モデルが登場します。

CLIP は、数億の画像とそれに関連するキャプションを使用してトレーニングされ、特定のテキストと画像の関係を学習します。つまり、 CLIP は、画像からキャプションを予測しようとするのではなく、特定のキャプションが画像に対してどのような関係があるかを単純に学習します。この予測ではなく対照的な目的により、CLIP は同じ抽象オブジェクトのテキスト表現と視覚表現の間のリンクを学習できます。

「CLIP は、大量の画像とテキストを取得し、AI で言うところの同じ潜在空間でそれらを処理し、最初から高い抽象レベルでそれらを処理することができます。」とエンジニアは説明します。

最後に、その画像の解凍が開始されて、私たちが目にする製品が得られます。OpenAI マシンは、再び最適化された GLIDE と呼ばれる独自の拡散モデルを使用してこの製品を作成します。

この時点で、80 年代に月に AI の研究を残したテディベアよりも途方に暮れていると感じているなら、おそらく、これも Ideami が作成したこのインフォグラフィックが役立つでしょう。

DALL-E 2 infografía del proceso de inferencia, descarga las versiones en 38 megapixels en english y español en https://t.co/sIk8Uxp1L2 #dalle2 #dalle #generativeart #generativeai #generative @DotCSV @victorianoi @javilop @antor pic.twitter.com/BYqGtCH4Lm
— Javier Ideami (@ideami) May 9, 2022

ストック画像業界が最初に DALL-E 2 に陥る可能性があります

さて、そのようなテクノロジーはどのような影響をもたらすのでしょうか?クリエイティブ、デザイナー、イラストレーターは脅威を感じるべきでしょうか?

イデアミ氏とロペス氏は、ストックフォト業界が最も危機に瀕していると考えている。創造的な活動に関しては、必ずしも悪い方向に向かうわけではないが、改革を強いられる可能性があると彼らは考えている。

「時間の経過とともに、どの業種にもよりますが、一部の仕事は完全に再定義されるか、私たちが知っているように存在しなくなるのではないかと思います。つまり、数か月か長くても 2 ～ 3 年で、これらのテクノロジーがある程度成熟すれば、イラストレーターや写真家を必要とせずに、誰でも高品質のイラストや写真を作成できるようになるでしょう」とロペス氏は主張します。

また、市場や知的財産のような幅広い概念に直接影響を与える可能性もあります。「一方で、これらのデータセットが他のアーティストによる写真やイラストを基にしているという事実は、著作権法を再考する必要がある可能性があることを意味します。しかしその一方で、人間が絵を描くとき、彼または彼女は他のアーティストの作品からもインスピレーションを受けます。他のアーティストも…ただし、彼の頭の中にはデジタルデータベースの代わりにその「データセット」があります」とロペス氏は付け加えます。

「このようなツールがあると、最初は多くの創作が制限されるかもしれませんが、それ自体が創造性を促進することにもなると思います。 DALL-E 2 のようなモデルをブレーンストーミングやコンセプトに到達するための出発点として使用してください。 「創造性について知れば知るほど、創造性とは、そこから生まれたアイデアを組み合わせるということだと理解できます」とイデアミ氏は言いますが、それでもいくつか不穏な兆候にも遭遇しました。

「レディットで、アートを勉強したいというティーンエイジャーの投稿を見ましたが、自分の能力を見て、Dall-E 2 はそれを断念しました。そのため、私たちは、代替物としてではなく、補完物としてのその機能について多くのことを教育する必要があると考えました。」

参考資料一覧

https://ideami.com/
https://ジェネバース.co/
https://ジャビロップ.com/

DALL-E 2: それはどのように機能し、それは何を意味しますか?何もないところから画像を生み出すAIはまさに完璧で恐ろしい

「人間の脳が記憶を呼び起こすのと同じように機能します。」

ストック画像業界が最初に DALL-E 2 に陥る可能性があります