投稿者: | 2026年4月19日

2017年、Google DeepMindは、トランスフォーマーと呼ばれるアーキテクチャを開発しました。残念ながら、これは1980年代の玩具シリーズとは何の関係もありません。このアーキテクチャは、言語翻訳ソフトウェアとして開発されました。十分な学習データと、入力データ全体を考慮に入れ、新しい入力ごとにそのデータを再帰的に処理するという斬新なメカニズムによって、トランスフォーマーアーキテクチャは全く新しい能力を実現しました。

それから5年後、OpenAIは当時としては非常に強力なモデルであるGPT-3.5と、そのウェブインターフェースであるChatGPTをリリースし、現在私たちが生成AI革命と呼ぶものの幕開けとなりました。GPT-3.5は、8192トークン(約5000語)の短期記憶容量を持ち、ユーザーが対話することで最大3000語の出力を生成することができました。

しかし、人々はすぐに、このモデルと新たな会話を始めるということは、文字通り最初からやり直すことを意味すると気づきました。このモデルは何も記憶しておらず、その背景知識(1750億個のパラメータ)には、世界に関する非常に不完全な知識しか含まれていませんでした。さらに重要なのは、その記憶が確率に基づいていたことです。事実の正しさではなく、高い確率に合致する回答を返していました。当時、2021年から2022年初頭にかけては、「1492年にアメリカ合衆国の大統領だったのは誰ですか」といった質問をGPTシリーズモデルに尋ねると、非常に自信を持ってクリストファー・コロンブスだと答えていました。

なぜそうなったのか?それは、その質問を確率に分解する際に、アメリカ合衆国という存在、大統領が重要な役割を担っていること、1492年が重要な日付であることなど、質問に含まれる様々な要素の確率を調べた結果、事実とは異なりクリストファー・コロンブスという名前が最も可能性の高い答えとなったからです。確率的な観点から見ると、クリストファー・コロンブスという名前はアメリカと1492年という年に関連付けられているのです。

比較的小さな短期記憶(いわゆるコンテキストウィンドウ)と確率に基づく長期記憶という、この2つの欠落した機能が、生成型AIの初期の頃の有用性を著しく制限していたのです。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です