多くの人がそうではないと考えているにもかかわらず、人工知能分野におけるAppleの取り組みは着実なペースで進んでいます。クパチーノの会社の研究者は、カリフォルニア大学サンタバーバラ校 (UCSB) と協力して、自然言語を使用して画像を編集できる新しいオープンソース モデルであるMGIEを作成しました。
確かに、今日のウェブには、生成人工知能から画像を作成できるツールがたくさんあります。しかし、Apple と前述の大学の専門家らの取り組みは、大規模マルチモーダル言語モデル(MLLM) を利用した「ガイド付き編集」に焦点を当てています。
このツールの開発者によると、MGIE は、素材やリクエスト自体に関する詳細なコンテキストがなくても、ユーザーが入力した画像と順序を解釈して編集を進めます。したがって、たとえば、提示されたケースの 1 つはピザの写真です。 「より健康に」という説明だけを使用して、Apple の人工知能は画像にトマトやハーブを含めるように画像を修正しました。
「MGIE は、MLLM と拡散モデルで構成されます。MLLM は、簡潔な表現的指示を導き出すことを学習し、明確な視覚的ガイダンスを提供します。拡散モデルは共同で更新され、エンドツーエンドのトレーニングを通じて、意図されたターゲットの潜在的な想像力を使用して画像編集を実行します。」このように、MGIE は固有の視覚的導出を利用して、曖昧な人間のコマンドに対処して合理的な編集を実現します。[…] 追加のコンテキストがなければ、「健康」が何を意味するかを理解することは困難です。 「MGIE は、『野菜の材料』をピザに正確に結びつけることができ、人間の期待に基づいた対応する編集を行うことができます。」
Apple とカリフォルニア大学サンタバーバラ校の研究者。
Apple と UCSB の研究者は、MGIE と協力して、大規模なマルチモーダル言語モデルが人工知能による画像編集を容易にするのに役立つことを実証したいと考えています。特に、望ましい結果を得るために必要な指示を提供します。
Appleの新しい人工知能は自然言語で画像を編集できる
プロジェクトの責任者らは、人間による指示は、現在の AI 編集方法にとっては短すぎることが多く、正しく理解して処理できないと指摘しています。したがって、このタスクにMLLMを使用すると、画像編集時の「制御と柔軟性が向上し」、領域マスクや過度に複雑な説明が不要になると彼らは主張しています。
彼らが提示した例は、この話全体が何についてのものかを理解しやすくします。ピザについてすでに述べたことに加えて、Apple の人工知能はPhotoshop スタイルの編集を行うことができます。ある画像では、前景に男性が見え、その後ろの遠くに肘掛け椅子に座っている女性が見えます。 「背景の女性を削除」コマンドを使用すると、MGIE は前景の被写体のみが表示されるように写真を変更します。しかし、それは女性を消去することに限定されません。また、男性の顔の表情にも焦点が移ります。
UCSB と Apple の専門家は、人工知能にローカル エディションを実行させることにも成功しました。たとえば、画像の残りの部分には触れずに、コンピュータの写真の画面に表示される内容を変更します。明るさを増やしたり、マテリアルの定義を調整したりするなど、全体的な最適化を行うだけでなく、他の可能性もあります。
これは研究プロジェクトであるため、Apple がこの人工知能を自社の公開ソフトウェアに組み込む計画があるかどうかはまだ不明です。しかし、冒頭で示したように、クパチーノの人々がこの種のテクノロジーにますます注目していることは明らかです。 Apple が最近、機械学習モデルを作成できるツールである MLX を導入したことを忘れないでください。
MGIE を試してみたい場合は、Hugging Face Spaces のこの試用版から直接試すことができます。オープンソースプロジェクトですが、GitHub のこのリポジトリから情報、コード、事前トレーニングされたモデルをダウンロードして、自分で試すことができます。
参考資料一覧
- https://arxiv.org/pdf/2309.17102.pdf
- https://huggingface.co/spaces/tsujuifu/ml-mgie
- https://github.com/apple/ml-mgie
