1/ まず、背景を説明します。現在、トップクラスの AI モデルのトレーニングにはとてつもなく費用がかかります。OpenAI、Anthropic などは、コンピューティングだけで 1 億ドル以上を費やしています。4 万ドルの GPU が何千台も備わった大規模なデータ センターが必要です。工場を稼働させるのに発電所全体が必要なようなものです。
2/ DeepSeek が現れて、「LOL、代わりに 500 万ドルでこれをやったらどうなるか?」と言いました。そして、彼らはただ話しているのではなく、実際にそれを実行しました。彼らのモデルは、多くのタスクで GPT-4 や Claude に匹敵するか、それを上回っています。AI の世界は (私の十代の若者が言うように) 揺らいでいます。
3/ どうやって?彼らはすべてを根本から考え直しました。従来の AI は、すべての数字を 32 桁の小数点で表記するようなものです。DeepSeek は「8 桁だけ使用したらどうなるでしょうか。それでも十分な精度です!」と考えました。なんと、必要なメモリが 75% 削減されました。
4/ そして、彼らの「マルチトークン」システムがあります。通常の AI は、1 年生のように「猫が…座った…」と読みます。DeepSeek は、フレーズ全体を一度に読み取ります。2 倍の速度で、90% の精度です。何十億もの単語を処理する場合、これは重要です。
5/ しかし、本当に賢いのは、彼らが「エキスパート システム」を構築したことです。1 つの巨大な AI がすべてを知ろうとするのではなく (1 人の人間が医者、弁護士、エンジニアを兼ねるのと同じ)、必要なときだけ起動する専門のエキスパートがいます。
6/ 従来のモデルでは、1.8 兆個のパラメータがすべて常時アクティブです。DeepSeek では、合計 671 億個ですが、一度にアクティブになるのは 37 億個だけです。これは、大規模なチームを抱えているものの、各タスクに実際に必要な専門家だけを呼び出しているようなものです。
7/ 結果は驚くべきものでした: – トレーニング費用: 1億ドル → 500万ドル – 必要なGPU: 10万 → 2,000 – API費用: 95%安価 – データセンターハードウェアの代わりにゲーミングGPUで実行可能
You may also enjoy…
コメントを残す