GoogleがGemini 3 Proでパフォーマンスの王座を獲得してからわずか1週間後、Anthropicは待望のClaude Opus 4.5で反撃しました。Anthropicの新しいフラッグシップモデルはGoogleをトップの座から引きずり下ろすことはできませんでしたが、それでも前モデルから大きく進化しており、Anthropicが重視する分野において明確な前進を示しています。
Anthropicが最も注目しているベンチマークは、SWE-bench Verifiedです。これは、モデルの実世界のソフトウェアエンジニアリングタスクを解く能力を測定するものです。このテストでは、Claude Opus 4.5が80.9%でトップを獲得し、80%を超えた最初のモデルとなりました。
(アントロピックがクロード・オプス4.5で反撃 | コンラッド・グレイ | 予測 | 2025年12月 | Mediumから)
