引用ジャングル

Anthropic社のClaude Mythosで、わずか50の組織に限定して公開されました。その性能は驚異的です。ソフトウェアエンジニアリングのゴールドスタンダードであるSWE-bench Verifiedでは93.9%、生物学、化学、物理学の博士号レベルの問題をテストするGPQA Diamondでは94.6%という驚異的な精度を達成しました。考えてみてください。機械が大学院レベルの科学問題にほぼ完璧な精度で答えているのです。Mythosはまた、主要なオペレーティングシステムとブラウザにわたる数千ものゼロデイ脆弱性を独自に特定しました。私たちは、つい最近まで世界トップレベルの専門家だけが持っていた能力を、AIシステムが開発していく様子を目の当たりにしているのです。

Intelligence Goes Physical – by Peter H. Diamandis

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル