まだ聞いたことがないかもしれませんが、「5D並列処理」という用語は、Meta AIの論文「The Llama 3 Herd of Models」によって初めて普及しました。従来、この用語はデータ、テンソル、コンテキスト、パイプライン、エキスパート並列処理を組み合わせた手法を指します。しかし最近、分散計算における冗長性を削減することでメモリを最適化する、新たなパラダイムであるZeRO(Zero Redundancy Optimizer)が登場し、ゲームチェンジャーとして大きな注目を集めています。各手法はトレーニング課題の異なる側面に対応しており、これらを組み合わせることで、数十億(あるいは数兆)のパラメータを持つモデルにも対応できるようになります。
You may also enjoy…
コメントを残す