OpenAI は今週月曜日、これまでで最も強力な言語モデルである GPT-4oのプレゼンテーションで重要な飛躍を遂げました。この新しいバージョンの AI は「GPT-4 レベルの知能」を備えていますが、音声と画像の解釈に関してははるかに高い能力を備えています。

GPT-4o のプレゼンテーション中に、このスタートアップの最高技術責任者であるMira Murati 氏は、新しいモデルはすべてのChatGPTユーザーが利用できるようになると説明しました。これは、チャットボットがこのテクノロジーを有料版だけでなく、無料版でも実装することを意味します。

GPT-4o の大きな利点の 1 つは、オーディオと画像の処理をネイティブに実行できることです。これにより、同社は、X (Twitter) のフォロワーによって提供されたプロンプトを使用したデモを含む、いくつかのライブ デモンストレーションを実行できるようになりました。

GPT-4o のハイライトは、音声を使用して ChatGPT とより会話的な方法で対話できることです。したがって、ユーザーは遅延や遅延の問題を発生させることなく、応答の途中で言語モデルを中断して、元のプロンプトへの変更を要求できます。

OpenAI エンジニアはまた、スマートフォンのカメラを通じてキャプチャしたものをリアルタイムで解釈するGPT-4o の能力も実証しました。このようにして、ChatGPT は一次方程式を解くのに役立ち、人の顔を見たときにその人の感情を検出することが可能になりました。

 OpenAI が、ChatGPT のすべてのバージョンに間もなく導入される新しい AI を発表

OpenAI が、ChatGPT のすべてのバージョンに間もなく導入される新しい AI を発表

OpenAI からは、GPT-4o の展開が反復的に行われることが示されました。 ChatGPT に関する限り、新しい人工知能のテキストおよび画像機能は今日から利用可能になります。すでに示したように、無料版と ChatGPT Plus などの有料版のユーザーが利用できます。もちろん、サブスクリプション版にアクセスする人のメッセージ制限は 5 倍になります。

GPT-4o の音声モードについては、今後数週間以内に ChatGPT Plus 加入者にアルファ版が提供される予定です。このテクノロジーへのアクセスが OpenAI チャットボットに限定されないことは注目に値します。この言語モデルは、同社の API からも利用できるようになります。サム・アルトマンが投稿した記事

なぜ GPT-4o なのか?

なぜ GPT-4o なのか?

OpenAIの説明によると、「o」は「omni」に相当します。実際、プレゼンテーション中、この人工知能は対話し、組み合わせ、理解し、テキスト、音声、ビデオで応答を提供する能力により、オムニモデルと呼ばれていました。

開発者らは、GPT-4o はわずか 232 ミリ秒の遅延で音声リクエストに応答できると示していますが、平均は 320 ミリ秒です。これは、ChatGPT の音声モードの平均応答時間が約 5.4 秒だった GPT-4 と比較すると、大幅な進化です。

「GPT-4o を使用すると、テキスト、ビジョン、オーディオにわたって単一の新しいモデルをエンドツーエンドでトレーニングします。これは、すべての入力と出力が同じニューラル ネットワークによって処理されることを意味します。GPT-4o は、すべてを組み合わせた最初のモデルだからです。これらのモダリティでは、私たちはモデルで何ができるのか、そしてその限界を探るためにまだ表面をなぞっているだけです。」

オープンAI。

GPT-4o は、コードと英語のテキストを処理する場合、GPT-4 Turbo のパフォーマンスに匹敵します。ただし、入力方法として他の言語を使用する場合の「大幅な改善」も導入されています。プレゼンテーションでは、AIがどのように英語とイタリア語の会話をリアルタイムで翻訳するのかを見ることができました。

セキュリティの面では、OpenAIはGPT-4oの新機能が新たなリスクをもたらす可能性があることを認識していると述べている。そのため、一般公開は段階的に行われる予定です。以前に示したように、今日から ChatGPT ユーザーは入力方法としてテキストと画像を使用してこの AI の使用を開始できるようになりますが、出力方法としてはテキストのみを使用できます。音声応答は後で到着しますが、原則として、事前に選択された音声のカタログに限定されます。

Sam Altman 氏が率いるこのスタートアップは、GPT-4o の音声モードの制限を示すビデオも公開しました。主な問題の中には、英語以外の言語での特定のプロンプトが理解できないことや、応答に複数の言語が混在していることさえあります。

参考資料一覧

  1. https://twitter.com/sama/status/1790066685698789837
  2. https://vimeo.com/945591584
  3. https://www.youtube.com/watch?v=DQacCB9tDaw

OpenAI が GPT-4o を発表: これまでで最も強力な AI が ChatGPT で無料で利用可能になります・関連動画