引用ジャングル

Gomez氏が発表したOpenMythosは、一部のセキュリティ専門家のみに限定公開されているAnthropicの「Claude Mythos」を推測し、PyTorchを用いてゼロから構築したモデルである。中核となるアーキテクチャ「反復深度トランスフォーマー（Recurrent-Depth Transformer）」は、入力データを数百の異なる層に順次通過させる従来の方式とは異なり、単一の層を繰り返しループさせる構造を持つ。処理は3段階で構成され、入力データをモデルの内部表現に変換する初期段階を経て、同じパラメータの層を最大16回から64回ループさせる処理を行い、最後に内部表現をテキスト出力に変換する。

　このループ構造により、OpenMythosは文字トークンを外部に出力しながら思考プロセスを展開する既存モデルとは異なり、潜在空間内で反復処理を行いながら内部で推論を進める「沈黙の推論（Silent Reasoning）」を実現している。さらに、適応型計算時間（ACT）を採用し、問題の複雑さに応じてループ回数を動的に調整する。簡単な処理は少ないループ回数で早期に打ち切り、複雑な問題にはループ回数を増やして深く計算資源を割り当てることで効率的な動作を担保する。

　同一層の反復処理は、信号が指数関数的に増大する残差爆発のリスクを伴うが、OpenMythosは「Parcae」と呼ばれるアーキテクチャの線形時不変（LTI）制約という数学的アプローチを適用し、信号の増幅率を示すスペクトル半径を常に1未満に抑制して学習と推論の安定性を確保している。同時に、特定の専門家モデルのみを稼働させるMixture of Experts（MoE）をループ内に組み込み、全体の約5%のパラメータのみを動的に有効化する。これにより、7億7000万という小規模なパラメータ数でありながら、従来の巨大モデルに匹敵する推論性能と高速処理を両立させた。モデルの規模拡大のみを追求してきたAI開発の潮流に対し、推論の反復というアプローチがサイズを凌駕する可能性を証明している。

22歳の天才エンジニア「Claude Mythos」を推測でほぼ完コピ、無料で公開する（ビジネス＋IT） – Yahoo!ニュース

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル