大規模言語モデルの人気学術テスト「人類の最後の試験」におけるGrok 4のパフォーマンスに言及した。このテストは、数学、科学、言語学など数十の科目で2,500問以上の問題で構成される。同社によると、Grok 4は追加ツールなしでテストを受けた場合、テキストベースの問題の約4分の1を解くことができたという。参考までに、OpenAIは2月に、同社のDeep Researchツールがテキストベースの問題の約26%を解くことができると述べている。
You may also enjoy…
大規模言語モデルの人気学術テスト「人類の最後の試験」におけるGrok 4のパフォーマンスに言及した。このテストは、数学、科学、言語学など数十の科目で2,500問以上の問題で構成される。同社によると、Grok 4は追加ツールなしでテストを受けた場合、テキストベースの問題の約4分の1を解くことができたという。参考までに、OpenAIは2月に、同社のDeep Researchツールがテキストベースの問題の約26%を解くことができると述べている。
You may also enjoy…
コメントを残す