引用ジャングル

MMLU （Massive Multitask Language Understanding）は、数学、歴史、法律、医学など57の分野にわたる知識と推論能力を測定します。Llama 2 70Bのスコアは68.9%でした。Llama 3 70Bのスコアは82.0%でした。これはわずかな改善ではありません。人間の知識の57の領域全体で、このモデルは10問中約7問正解から10問中8問以上正解するようになりました。

HumanEvalは、平易な英語の説明から正しいコードを書く能力を測定します。Llama 2 70Bのスコアは29.9%でした。Llama 3 70Bのスコアは約81.7%でした。このモデルは、動作するコードを生成する能力をほぼ3倍に向上させました。

GSM8Kは、複数ステップの計算を必要とする小学校レベルの数学的推論問題（文章問題）を測定します。Llama 2 70Bの正答率は56.8%、Llama 3 70Bの正答率は93.0%でした。優秀な中学生であれば解ける問題では、10問中4問以上が不合格だったのが、10問中1問未満にまで改善しました。

AI入門：トークンからインテリジェンスへ ― 入門講座

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル