言語や機能が何であれ、必要なときに正確に機能できるようにモデルを蒸留するのです。蒸留がこれに役立つことはおわかりいただけると思います。Nvidiaの最新の Blackwell チップは、約 4 倍の効率でした。軽量モデルは私たちにとって非常に重要です。そのため、推論の問題の多くと推論に関連するコストを解決します。私たちの仕事ではコストが大幅に下がることが分かっており、時間の経過とともに非常に管理しやすくなります。多くの企業にとって本当に大きなコストは、こうしたもののトレーニングであり、これも同じレベルに落ち着くと思います。収穫逓減の段階に達し、本当に 10 兆パラメータのモデルにする必要があるのか、それとも、たとえば化学、生物学、セキュリティ、または色付けを行うために軽量なものが必要なのか、といった問題が出てくるでしょう。今はビッグモデルの時代ですが、それが長く続くとは思えません。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

You may also enjoy…