人工知能は飛躍的な成長を続けています。もはや、驚くべき精度でテキストを作成したり、チェスプレイヤーを破ったり、プロのビデオゲームチームと対戦したりすることができるだけではありません。自然言語で書かれた説明からリアルな画像を作成できるようになりました。
イーロン・マスク氏が共同設立し、マイクロソフト社の支援を受けている人工知能研究会社「OpenAI」は、 「DALL-E」と呼ばれるシステムを開発した。これは、テキストを解釈し、テキストをさまざまな視覚概念に関連付け、画像を作成するために GPT-3 の基礎を築くニューラル ネットワークです。場合によっては、結果が非常に優れているため、本物の写真のように見えます。
DALL-E は、2020 年 5 月に発表された深層学習に基づく第 3 世代の自己回帰言語モデルである GPT-3 の 120 億パラメータのおかげで実現します。この人工知能プログラムは、一般的な表現に関連する幅広い概念を組み合わせています。彼の最も驚くべき特質の 1 つは、存在すらしないオブジェクトを作成できることです。
DALL-E の人工知能は求められるものを創造します
合理的に何かを考えようとしすぎないほうがいいです。このシステムには、コンセプトを組み合わせてまったく新しいコンセプトを作成する機能があります。たとえば、チュチュを着た大根が犬を散歩させているのを見たい場合、あなたの願いはコマンドになります。 DALL-E の人工知能は、ペットの散歩中にこの野菜を提示します。それだけでは十分ではないかのように、一連の画像が表示されるので、最も美しい画像を選択できます。
一方、肘掛け椅子のあるリビングルームとローマのコロッセオの絵画をリクエストすると、人工知能システムはその解釈に基づいて一連の画像を提示します。 OpenAI チームによると、3D レンダリング エンジンとは異なり、DALL-E は結果を表示する前に、明示的に示されていない詳細を置き換えることができます。
OpenAI は、人工知能の分野で最も進歩した企業の 1 つです。その長期的な目標の 1 つは、「マルチモーダル」ニューラル ネットワークを構築することです。同社は、DALL-E はさまざまな視覚的およびテキストの概念を学習する能力のおかげで、世界をより深く理解できると主張しています。
参考資料一覧
- https://openai.com/blog/dall-e/
