投稿者: | 2026年3月24日

2025年11月17日から12月11日までの25日間で、4つの最先端AIモデルがリリースされました。GoogleはGemini 3を出荷し、xAIはGrok 4.1をリリースしました。AnthropicはClaude Opus 4.5をリリースし、SWE-bench Verified(実際のGitHubイシューのベンチマークで、AIが本番コードのバグを実際に修正できるかどうかを測定するもの)で80%を超える最初のモデルとなりました。数日後、OpenAIはGPT-5.2を80.0%でリリースしました。

これらは漸進的な改善ではなかった。2024年8月、最良のモデルは同じベンチマークで約33%のスコアだった。2025年11月までに、そのスコアは2倍以上になった。飛躍は緩やかなものではなかった。2023年から2026年にかけて22のAIモデルを同一のコーディングタスクでテストしたGoodeye Labsは、この飛躍を「ぎこちなく不器用」から「驚くほど有能」への変化と表現した。MIT Technology Reviewはさらに踏み込んで、「多くの開発者にとって、この飛躍は2022年11月にChatGPTが登場した時よりも大きなものに感じられた」と述べている。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です