投稿者: | 2026年1月2日

イリヤが「価値関数を使わないのは奇妙ですよね?」と言っていたと思います。基本的には最も愚かな形式の強化学習を使っているのです。もちろん、これらの人々は非常に賢く、GPUでそれを行う方法を最適化しており、彼らが達成していることは本当に驚くべきことです。しかし、概念的には、10 年前に行われていたものと比較しても、非常に愚かな形式の強化学習です。Atariのゲームをプレイしているものでさえ、基本的には時間差分学習の一種であるQ 学習を使用していました。時間差分学習は基本的に、今私が選択するアクションの価値関数のようなものがあり、その直後に何が起こるかを文字通り教えてくれるだけではありません。期待される総報酬などに対する長期的な結果がどうなるかを教えてくれます。

つまり、価値関数は… LLMに価値関数が全く存在しないというのは、本当におかしい。イリヤがそう言ったから私も言えるんだと思う。AIについて彼の知識の100分の1も知らないのに、これがうまく機能しているなんて、ちょっとおかしい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です