OpenAI によって開発されたDALL-E 2は、疑いもなく、生成 AI の能力を示す最良の例の 1 つです。このモデルは、短いテキストの説明を入力するだけで結果が得られるため、ソーシャル ネットワークで非常に人気があります。ただし、その用途は Twitter への投稿をはるかに超えています。
DALL-E 2 および他の同様のモデルは、記事の表紙画像 (ニューロストリームで何度か行ったことがあること) やビデオのシーンなど、専門的なコンテンツを説明するのに特に役立ちます。後者はまさに歌手のレイデンが最新のビデオクリップで行ったことです。
彼の次のアルバムのリードシングルである「Multiverse」のミュージックビデオは、実際、複数の制限があるにもかかわらず、 DALL-E 2のようなAIが何ができるかを示す最良の例の1つです。
このビデオクリップは、具体的には、レイデンが生涯を通じて異なる決断を下していたらどうなっていただろうかという物語を語っています。ここ数カ月間、さまざまな映画で目にしたコンセプトです。しかし、興味深いのは、どこでもすべてを同時に実現するという明確なうなずきを示すシーンであり、このシーンはほぼ完全に OpenAI の人工知能を使用して作成されています。
それはビデオのほぼ終わりで起こります。そして、この作品では、レイデンが彼のさまざまな多元世界とつながっているのを見ることができます。各フレームは歌手のまったく異なるバージョンです。これはまさに、従来の録音 (そう呼んでおこう) では非常に複雑だった可能性があるシーンです。
実際、レイデンのビデオクリップを監督したオムグローバル社のホアキン・レイシャ氏がニューロストリームに詳しく述べているように、シーンが続く 10 秒強の撮影は 2 つの方法で行われた可能性があります。 「デジタルで画像を一から作成することもあれば、レイデンの特徴を描写して各瞬間の写真を撮ることもありました」と彼は詳しく説明します。 2 番目に選ばれたのは、人工知能の使用でした。
Rayden、クロマキー、三脚、および 283 枚の写真
Reixa 氏は、このシーンを撮影するには人工知能を使用することが最も簡単で安価な方法だったと強調します。そしてレイデンがこの媒体で説明したように、必要な要素は 3 つだけでした。 「クロマキーで録音しました。私は静止し、三脚を使ってさまざまな位置に光を当てて、人工知能に私の特徴を埋め込むことができました」と歌手は強調した。したがって、生の結果は、動くビデオをシミュレートするために顔の周りを移動するライトとともにレイデンが現れる 283 枚の画像で構成されるシーケンスです。
その後、これら 283 枚の画像が DALL-E を介して 1 つずつ処理され、独自の画像をアップロードできるオプションが使用され、新しい写真が生成されます。レイデンの顔を保存するには、プラットフォーム自体のツールが使用されます。これにより、AI が独自のデザインを作成しないように画像の領域を制限できます。 「私たちは彼をDALL-E 2に入れ、彼に排除したくないものを描き、彼の中にクレイジーなものを入れました。それらの一部は人工知能自体によって生成されます」とレイクサ氏は述べています。
ただし、残りのプロセスは期待するほど単純ではありません。 DALL-E 2 は短いテキストの説明を使用して画像を生成することで知られていますが、これらは各プロジェクトのニーズに適合しない場合があります。たとえば、ビデオ クリップの場合、Reixa は画像をより長い形式に適合させる必要がありました。ただし、DALL-E では正方形のフォーマットのみを提供しています。したがって、アスペクト比を変換するには、追加のツールを使用する必要があります。
DALL-E 2 ではできないことを実現する Photoshop とその AI ツール
この場合、Omglobal チームは Photoshop と、同じく人工知能を活用した、コンテンツに基づいて画像を拡大できる機能を使用しました。 Photoshop の AI ですら複製したり拡大したりすることができない、より複雑なデザインの写真は、再び DALL-E 2 を通過しました。そして、より具体的には、写真を品質を損なうことなく細長い形式にカットできるまで、サイズを拡大するために画像を拡張するオプションです。
「時々、AI は完璧ではなく、洗練する必要がある奇妙なものを作成します。」
Photoshop を使用すると、DALL-E で生成された画像に現れるエラーを修正することもできました。その中には、「非常に奇妙な白いピクセル」、明確に定義されていない指などがあります。 「AI は完璧ではない場合があり、ビデオ クリップに収まるように洗練する必要がある奇妙なものを作成してしまうことがあります」と Reixa 氏は言います。最後のステップは、これらの写真を並べ替えて 1 フレームの長さを確立して、連続性のある画像を生成します。各フレームは完全に異なり、他の Rayden ビデオ クリップのフレームも含まれていて、よりユニークなスタイルが与えられます。また、スペインでミュージック ビデオのシーンを完成させるために人工知能が使用されたのは初めてです。
AI はオーディオビジュアル制作において非常に強い味方となり得る
「Multiverse」のミュージック ビデオは、繰り返しますが、DALL-E 2 の機能とアプリケーションの最良の例です。ただし、これは、このタイプのコンテンツで人工知能ができることのほんの一部にすぎません。さまざまな人工知能モデルを利用してビデオを一から生成するプラットフォームもあります。
そのうちの 1 つはQuickVidで、ChatGPT のおかげでスクリプト化されたクリップを作成できます。 Google Cloud Text-to-Speech API 経由のナレーション付き。 DALL-E 2を介してマルチメディア コンテンツを使用します。このようにして、ユーザー、あるいはさらにプロのコンテンツ作成者は、頭の中にあるコンテンツの簡単な説明を入力するだけで済み、残りの作業は AI に任せることができます。
もう 1 つの同様の AI はMovioのものです。これは、企業のプロモーションビデオの作成をモデルとするスタートアップで、書かれたテキストを音声で再現できるかなり現実的な人間を使用する可能性が際立っています。おそらく、完全に人工知能によって生成された視聴覚コンテンツを見るのは時期尚早でしょう。また、AI が見落としてしまう可能性のある細部を人間が磨き上げる必要がある可能性も非常に高いですが、プロの制作において人間が非常に強力な味方となり得ることは間違いありません。
