過去6ヶ月間、CodexとCursorの両方にGitHubのプルリクエスト(PR)をレビューしてもらいました。人間が生成したコードとAIが生成したコードの両方で、どちらか、あるいは両方が問題を発見した回数の多さに驚きました。この経験から、以下の点が明らかになりました。
1.私のコードには、自分が認識していたよりもはるかに多くのバグが含まれていました。私は数年間Superphonicのコードベースに取り組んできましたが、毎日ドッグフーディングを行っていましたが、問題に気づくことはありませんでした。AIコードレビュー担当者が指摘するバグの多さは、自分のコードの品質に対する私の評価を揺るがすほどです。
2.AIが自らを改善する余地はまだまだたくさんあります。同じLLMが、自身の別のインスタンスが生成したコードに問題を発見することがよくあります。たとえ基礎モデルの進歩がすべて止まったとしても、AIの出力品質を向上させるためにできることはまだまだたくさんあります。