Microsoft は、 Llama 2 や他の競合他社を上回るパフォーマンスを実現できる小型言語モデル (SML) である Phi-2のリリースを発表しました。 Microsoft Research によって開発されたこのモデルは、優れた推論能力と言語理解能力を実証しました。研究者らは複数のテストを実行し、一部のタスクではメタやグーグルのAIよりも優れたパフォーマンスを発揮することを発見した。
Phi-2 は、パラメーターの数が少ないトランスベースのモデル ファミリの一部です。 Microsoft によれば、その開発の背後にある考え方は、Llama や Mistral などの最も広範なモデルに近いパフォーマンスを達成できるという前提に基づいています。規模を把握するために、 Phi-2 には 27 億のパラメータがありますが、GPT-4 には約 1.7 兆のパラメータがあります。
この制限にもかかわらず、 Microsoft の人工知能は最大 25 倍の大きさのモデルと同等かそれを上回っています。数学とプログラミングの一連のテストで、Phi-2 は Meta の AI である Llama 2 を上回りました。開発者はさらに進んで、Gemini Nano 2 の前にそれを置き、そこでGoogle の人工知能と同じような方法で物理学の問題を解決することに成功しました。
「わずか 27 億のパラメーターを備えた Phi-2 は、いくつかの総合ベンチマークのパラメーター 7B および 13B でミストラル モデルおよび Llama-2 モデルを上回っています」と開発者は述べています。 「特に、コーディングや数学といった複数ステップの推論タスクにおいて、25 倍大きい Llama-2-70B モデルと比較して優れたパフォーマンスを実現します。」
Phi-2 は、Llama 2 よりも毒性が低く、偏った応答を提供します
より少ないパラメーターでこのような結果を達成するにはどうすればよいでしょうか?その秘密はトレーニングにあります。 Phi-2 は、NLP 合成テキスト、スタック オーバーフローから取得したコード サブセット、プログラミング コンテストなどを含むスイートでトレーニングされました。
Microsoft は、トレーニング データの品質がモデルのパフォーマンスに重要な役割を果たすと述べました。 GPT-4 とは異なり、Microsoft は教育的価値に基づいてフィルタリングされた Web データを厳選します。研究チームは、ファイの最初のバージョンから適用されてきた戦略である「教科書品質」のセットを使用しました。
「私たちのトレーニング データ ミックスには、モデルに科学、日常活動、心の理論などの一般知識と常識推論を教えるために特別に作成された合成データ セットが含まれています。」
Phi-2 トレーニングには 14 日間かかり、96 枚の NVIDIA A100 グラフィックス カードが使用されました。追加の改良は行われませんでしたが、SML は Llama 2 と比較して毒性や応答の偏りが少ないです。Microsoft Research は、学術的なベンチマークと内部ツールを使用して広範なテストを実行したとコメントしました。
残念ながら、 Phi-2 は研究プロジェクトでのみ利用可能です。 SML は、言語モデルの開発をサポートするために Azure AI Studio の一部として提供されます。現在のライセンスでは、ChatGPT などの商用アプリケーションでの使用は許可されていません。
参考資料一覧
- https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small- language-models/
