OpenAI の DALL-E は、短いテキストの説明を通じて画像を生成できる唯一の人工知能ではありません。 Googleはまた、数週間前に、イーロン・マスク(とりわけ)によって設立された会社によるAIの代替となる「 Image 」を発表したが、マウンテンビュー会社自体によると、これはより現実的で高品質なデザインを作成できるという。今回、マイクロソフトも競争に加わりました。これは、テキストから画像を生成するだけでなく、静的なデザインをビデオに変換できるAI であるNUWA-Infinityを使用して行われます。
Microsoft は、NUWA を「特定のテキスト、画像、またはビデオ入力から高品質の画像とビデオを生成するように設計されたマルチモーダル生成モデル」と説明しています。したがって、その操作は DALL-E や Image (Google) が実行できるものとあまり変わりません。ただし、両方の人工知能モデルに比べて一連の利点があります。テキストによる説明を使用して作成された画像からビデオを生成できる唯一の AI です。 AI は説明を通じてビデオを直接生成することもできます。
「DALL-E、Image、Parti と比較して、NUWA-Infinity は任意のサイズの高解像度画像を生成でき、長時間のビデオ生成もサポートします。」
NUWA、マイクロソフトの AI はあらゆる種類の画像も拡張可能
テキストの説明から画像やビデオを生成する Microsoft の AI である NUWA は、あらゆる画像を「拡張」し、より大きなサイズと解像度の画像を作成することもできます。具体的には、人工知能は元の写真に示されている情報を検出し、そのパラメータに基づいて、より完全な写真を生成します。たとえば、NUWA は、フィンセント ファン ゴッホの作品「星月夜」を拡張することができます。また、元のデザインで示されているものと同一の詳細と、非常に正確な継続が行われます。
マイクロソフトは今のところ、NUWA について、この AI の可能性と、テキストを画像に、画像をビデオに、テキストをビデオに変換する方法を示すいくつかの例以外には詳細を提供していません。あらゆるデザインを拡張する可能性として。これは間違いなく、DALL-E と Imagen にとって興味深いオプションですが、両方のアルゴリズムにも利点があります。
参考資料一覧
- https://nuwa-infinity.microsoft.com/#/
- https://github.com/microsoft/NUWA/blob/main/NUWAInfinity.md
