GPT-4 は大学試験で ChatGPT を破壊しますが、それは本当に重要でしょうか?

Written by

in

OpenAI によると、GPT-4 は大学および大学院試験に合格するのに ChatGPT よりもさらに優れてい…

OpenAI の新しい言語モデルであるGPT-4のリリースは、現在すべての見出しを占めています。そして、Sam Altam 自身のスタートアップは、 ChatGPT Plusや十数のアプリケーションやサービスですでに利用可能なテクノロジーの機能を披露することを躊躇しません。実際、同社は、その新しい人工知能が大学試験や大学院試験に合格するのに ChatGPT よりもさらに優れていることを示す文書を公開しました。

GPT-4 技術レポートでは、多数の学術テストに直面した場合に言語モデルによって得られるパフォーマンスにかなりのセクションが割かれています。ほとんどの場合、OpenAI の新しいテクノロジーは、たとえば GPT-3.5 によって達成された結果を上回ります。

したがって、人工知能の開発者は、法科大学院入学試験 (LSAT)、大学入学共通テスト (SAT)、および大学院成績試験など、司法試験に合格するための試験で得られた結果を表に共有しています。 GRE)、他にもたくさんあります。

GPT-4 によって得られた結果のほとんどは GPT-3.5 の結果よりも優れており、場合によっては平均スコアを上回っています。 The Princeton Reviewで言及されているように、たとえば、LSAT で取得できる最高スコアは 180 ですが、平均は 152 です。後者を取得するには、通常は次の範囲内にある合計約 60 の質問に正解する必要があります。この場合、OpenAI の人工知能は163 というスコアを達成しましたが、その前任者では 149 でした。

大学試験または大学院試験を受ける際の GPT-4 は向上を続けています

バーに入るテストを受けたとき、GPT-4 は400 点中 298点を獲得しました。この場合、結果には複数州司法試験(MBE)、複数州エッセイ試験(MEE)、および複数州パフォーマンステスト(MPT) の 3 つの異なる試験が含まれていることは注目に値します。それぞれのテストは、多肢選択テストや一定の時間内に解く必要がある問題など、異なる形式で実施されます。

数学と証拠に基づいた読み書きのSATでも、彼は非常に良い結果を示しました。そこで彼は、それぞれ800 点中 700 点と 710 点のスコアを獲得しました。 800 点中、それぞれ 590 点と 670 点を達成していた GPT-3.5 よりも明らかに改善されました。

GRE の試験中、 GPT-4 は口頭および定量的に際立っていましたが、筆記試験では成績を向上させることができませんでした。これらの大学院試験で、彼は 169/170 (口頭)、163/170 (定量的)、および 4/6 (筆記) のスコアを達成しました。比較として、GPT-3.5 の結果は、同じモダリティで 154/170、147/170、および 4/6 でした。

OpenAI は、その新しい言語モデルが受けた試験が、対応する学術レベルで人間が受けなければならない試験と同じであることを保証します。そして同氏は、上記のテストに関する特別な訓練は行われていなかったと主張している。「試験に含まれる少数の問題は、トレーニング中にモデルによって確認されました。試験ごとに、これらの質問を削除したバリアントを実行し、2 つの質問のうち低いスコアを報告します。結果は代表的なものであると信じています。」とスタートアップは述べています。

AIは進化するが、依然として既知の問題がある

GPT-4 は、ある面ではすでに ChatGPT のオリジナルバージョンを馬鹿にしている進化を超えて、既知の問題を引き起こし続けています。 OpenAI は、新しい言語モデルの制限は以前の言語モデルと同様のままであると述べました。回答を提供する際に事実を「でっち上げる」場合に特に評価され、信頼性に影響します。

GPT-4 には、その機能にもかかわらず、以前の GPT モデルと同様の制限があります。さらに重要なことに、彼はまだ完全に信頼できるわけではありません（事実を「幻覚」させ、推論に誤りを犯します）。特に高リスクのコンテキストで言語モデルの結果を使用する場合は、特定のアプリケーションのニーズに合った正確なプロトコル (人間によるレビュー、追加のコンテキストによるグラウンディング、または高リスクの使用の完全な回避など) を使用して、細心の注意を払う必要があります。
OpenAI、GPT-4 の制限について。

さて、学科試験の話題に戻りますが、GPT-4 が学科試験に合格する「能力」があるということで、すぐに大騒ぎになりました。しかし、ChatGPT が医学や法律の試験で同じことをしたときに言ったことと同じことに戻ります。AIが試験に合格することは役に立ちません。

私たちは再び、人工知能を擬人化したいという古い物語に陥ってしまいます。何度も言いますが、いいえ、GPT-4 が入学試験に合格したからといって、スタンフォード大学やその他の米国の有名な大学に学生として出願できるわけではありません。

AI の専門家であるJoshua Levy は、この点に関して非常に興味深い概念を残しました。「GPT-4 が LSAT や GRE に合格したことは、信じられないほど素晴らしいことです。同時に、今週よく目にする論理的誤謬についても思い出してもらう必要があると思います。それは、ソフトウェアが人間向けに設計されたテストに合格できるからといって、合格できるわけではないということです」それは、「人間の試験は、ほとんどの、あるいはすべての人間が持つスキルをテストするものではない」と同氏がツイートしたのと同じ能力を持っているという意味だ。

参考資料一覧

https://cdn.openai.com/papers/gpt-4.pdf
https://www.princetonreview.com/law-school-advice/lsat-scores
https://twitter.com/ojoshe/status/1635724883853451269
http://2/gpt-4-que-es-when-sadra-novedades

GPT-4 は大学試験で ChatGPT を破壊しますが、それは本当に重要でしょうか?

大学試験または大学院試験を受ける際の GPT-4 は向上を続けています

AIは進化するが、依然として既知の問題がある