投稿者: | 2026年4月25日

AI黎明期には、計算コストの大部分は初期モデルのトレーニングに費やされ、推論(タスクの実行)は比較的安価でした。しかし、モデルが進化し、システムに機能が追加されるにつれて、推論ははるかに多くのリソースを必要とするようになりました。

AIエージェント、つまり理想的には常に手取り足取り指導することなく、ユーザーに代わって複雑な多段階タスクを完了できるツールは、数年前の基本的なチャットボットモデルよりもはるかに多くのトークンを使用するようになりました。

AIエージェントの動力源としてますます重要になっている推論モデルは、推論側でも非常にコストがかかることで知られています。人気のオープンソースプラットフォームであるOpenClawなどのこれらのエージェントは、推論機能を持たないエージェントよりも一般的に効率的で効果的ですが、エンドユーザーには見えない舞台裏の作業に、はるかに多くのトークンを消費します。

これは、さまざまな可能性のある経路を「検討」したり、タスクの一部を実行するためにサブエージェントを起動したり、プロセスのさまざまなステップの正確性を検証したりすることのように見えるかもしれません。「1文のプロンプトを入力すると…何千何万ものトークンを独り言のように話します。」 「トークン、何千、何千もの単語、コーディングを始めると何万にもなるかもしれません」。

「毎日何千人、何百万もの人がこれらのものを使用している場合、ユーザーが常に大量のトークンを生成することによる推論コストは、トレーニング側をはるかに上回ります」 。モデルプロバイダーがこれらのトークンすべてで単純な利益を上げ、それらを簡単に処理できるコンピューティング能力を持っていれば、問題にはならないでしょうが、現状では負担になっています。

「ユースケースが爆発的に増加し、キャパシティが不足しています」。 

「過去 2 年間にエージェントを構築してきた人は誰でも、このような事態をある程度予見していました」

「ユースケースが爆発的に増加し、キャパシティが不足しています」。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です