GPT-4 がおそらく 2023 年前半に発表されることはわかっていました。幸いなことに、OpenAI はこの点で期待を裏切りません。人工知能に特化したスタートアップへの主要投資家の 1 つである Microsoft は、来週世界中が新しい言語モデルについて知ることになると認めました。ただし現時点では具体的な日は明らかにしていない。
技術的なニュースの多くは公式発表まで保留されますが、レドモンドの研究者らはすでに重要な詳細を発表しています: GPT-4 はマルチモーダルになるということです。
言語モデルがマルチモーダルであるとは何を意味しますか?基本的に、テキストと画像の両方を解釈できます。 ChatGPT に命を吹き込んだ以前のバージョンでは、テキストを生成することしかできませんでした。
したがって、GPT-4 を使用すると、テキスト、画像、ビデオ、さらには音楽を生成することが可能になります。 Microsoft Germany のテクノロジー ディレクターである Andreas Braun 氏は、 Heiseが報じた声明の中で次のように述べています。
「来週 GPT-4 を発表します。まったく異なる可能性を提供するマルチモーダル モデルが登場します。たとえば、ビデオです。」
アンドレアス・ブラウン。
ブラウン氏は、言語モデルが人間の解釈能力にさらに一歩近づくため、GPT-4は人工知能分野のゲームチェンジャーであると述べた。もちろん、それに匹敵するまでにはまだ長い道のりがあります。
マルチモーダル言語としての GPT-4 のもう 1 つの利点は、異なる言語でのデータの入出力を管理できることです。この可能性を ChatGPT に転送すると、スペイン語でリクエストを行うことができますが、生成されるテキストは英語になります。明らかに、この目新しさは翻訳ツールにも大いに役立ちます。
Microsoft は、非常に多くの人々の日常生活に対する ChatGPT の影響は、10 年以上前に iPhone によって引き起こされた影響と同様であると繰り返し述べています。しかし、チャットボットの人気は、それを可能にする言語モデルの改善を継続するという同社の熱意を止めることはありませんでした。したがって、彼らは GPT-4 のプレゼンテーションに多大な注意を払っています。
同様に、サヤ・ナデラ率いる企業は、GPT-4が人々の仕事を奪うために存在しているわけではないことを明らかにした。たとえば、文字メディアで働く人たちです。主な目標は、作業を簡素化または強化することであり、作業を奪うことではありません。
「仕事を置き換えることではなく、反復的なタスクを以前とは異なる方法で行うことです。」
アンドレアス・ブラウン。
実際、マイクロソフトは企業が従業員に対し、仕事における人工知能の導入について研修することを推奨しています。 「従来の職務内容は変わりつつある。(AIによる)新たな可能性の豊かさから、新しくエキサイティングなキャリアが生まれつつある」とマイクロソフトドイツ社ディレクターのマリアンヌ・ジャニック氏は語った。
Microsoftは、同社の新しいAIであるKosmos-1でGPT-4を活用できる可能性がある
ちょうど 3 月の初めに、Microsoft はテキスト、画像、ビデオ、オーディオを分析し、その後その解釈に基づいて指示に従うことを約束する人工知能Kosmos-1 を発表しました。正確には、Kosmos-1 はマルチモーダル拡張言語モデル (MLLM) に基づいています。したがって、この AI も GPT-4 を利用できる可能性があります。
間違いなく、OpenAI が来週私たちに示してくれることは、人工知能のキャリアにおける新たなマイルストーンとなる可能性があります。 GPT-3 と GPT-3.5 がすでに全世界を驚かせたとしても、GPT-4 が達成できることはさらに有望です。
参考資料一覧
- https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html
