強化学習のみで自動運転車を訓練したいとしましょう。車間距離の確保、交差点での右左折、二重黄線をいつ越えても良いかといった、運転のあらゆる原則を明確な数式に変換する必要があります。これは非常に困難です。人間の運転例を大量に集め、モデルに「このように運転しなさい」と効果的に指示する方が簡単です。それが模倣学習です。
しかし、強化学習は自動運転システムの訓練においても重要な役割を果たします。2022年の論文で、Waymoの研究者は、模倣学習のみで訓練されたモデルは「デモデータによく表れている状況」ではうまく機能する傾向があると記しています。しかし、「データではほとんど発生しない、より異常な、あるいは危険な状況」では、模倣学習で訓練されたモデルが「予測できない反応」を示す可能性があり、例えば他の車両に衝突する可能性があります。
Waymo は、模倣学習と強化学習を組み合わせることで、どちらかの技術を単独で使用した場合よりも優れた自動運転パフォーマンスが得られることを発見しました。
You may also enjoy…
コメントを残す