LMSYS によって実行されたAI の最後の主要な分類では、GPT-4 が 1 位の座から剥奪されました。革新的な Elo システムにより、研究者は新しい最高の大きな言語モデルを発見することができました。これは Anthropic によって作成されたClaude 3 Opusで、すでにOpenAI の宝石を超えたシステムです。
Elo システムはチェスプレイヤーの評価に長い間使用されてきましたが、現在では人工知能の評価にもその可能性が発見されています。これは人的要因に依存して投票を行い、その有効性は大規模言語モデル (LLM) の直接比較に基づいています。
最新のランキングでは、 GPT-4 を搭載した OpenAI と Claude 3 Opus を搭載した Anthropic が非常に良い位置にあり、さまざまなアップデートでトップの座を獲得しました。 TOP 5 の中で、Google のBard (Gemini Pro) は安全な距離から見ることができます。
クロード 3 が GPT-4 を圧倒し、上回る
Anthropic の言語モデルは1,253 ポイントを達成しました。これは、最高のパフォーマンスと結果を備えた AI の栄冠に十分な数字です。スコアは人間の投票を使用して分類を決定する Elo システムで設定されていることを強調することが重要です。
Claude 3 Opus は合計33,250 人によってテストされ、この表で+5/-5を達成した唯一の言語です。もちろん、GPT-4 は合計1,251 ポイントで、表内では +4/-4で非常に近いです。重要な事実として、OpenAI モデルは 54,141 人の投票を受けています。
Simeon Emanuilov 氏によると、 Claude 3 Opus の一貫性とパフォーマンスは現時点では GPT-4 を上回り、言語理解と生成においては他のモデルをはるかに上回っています。
OpenAIはまだ最後の言葉を言っていない
この Elo ランキングでは GPT-4 を現時点で 2 番目に優れた AIとして位置づけていますが、無視できない詳細があります。 4回もリストに載っているのは偶然ではありません。さまざまなアップデートにより、OpenAI がバージョンごとに飛躍的に向上していることがわかります。
主要な言語モデルの進歩は毎日、そして大規模であるため、このリストの有効期限は早めに設定されています。それぞれの更新は以前の更新を上回っているため、数か月間で最高の結果が得られたのは、おそらく改善能力が最も高い企業に集約されています。
Claude 3で達成したことについてAnthropicを損なうことはできませんが、 OpenAI が徘徊していることは否定できず、おそらく遅かれ早かれ将来のアップデートでその最初の地位を埋めることになるでしょう。
参考資料一覧
- https://medium.com/@simeon.emanuilov/claude-and-gpt-4-top-leaderboard-in-elo-rated-benchmark-of-llms-dfebebae987c
