AI の真の永続性には、ユーザー データの読み取りと書き込みの両方の機能が必要です。つまり、各インタラクションの後に新しい洞察を書き込み、この拡張された知識ベースから読み取り、将来のアクションに役立てるということです。優れた人間の旅行代理店が、通路側の席を好むことや、出張をミニ バケーションに延長することへの好みを記憶している様子を想像してみてください。強力な永続性を備えた AI も同様に、ユーザーに関する理解を継続的に構築し、参照します。
ChatGPT は選択的持続性の要素を導入しましたが、ほとんどの会話は事実上白紙の状態から進行します。真に持続的なシステムを実現するには、各プロンプトに関連するコンテキストを含む独自の長期記憶を構築する必要があります。
引用ジャングルは同名のTumblrページからインポートしています
最新の知見を知るサイト
-
-
・入力が大きくなるにつれて、モデルがシーケンスの前の関連情報に注目する能力が低下し、近さバイアスが生じる。
・その結果、モデルは入力の後半部分の情報を優先し、前半のコンテキストと矛盾したり無視したりする可能性があります。
-
休暇の計画を任されたバーチャルアシスタントは、最初は目的地を提案するかもしれませんが、その後、当初の旅程を完了することなく、地元の料理について話し合うようになるかもしれません。
-
長いストーリーを書く課題では、LLM は冒頭で「ジョン」という名前のキャラクターを紹介するかもしれませんが、後で説明なしにそのキャラクターを「マイク」と呼ぶことがあります。
-
LLM は、長いテキスト シーケンスにわたって一貫性を維持できなかったり、複雑なコンテキストを理解するのに苦労したりして、矛盾した応答や無関係な応答につながることがあります。これは、エージェントを開発するときに特に当てはまります。エージェントはルート タスクに集中できず、計画項目で薄められ、コンテキストから外れてしまいます。「コンテキスト ドリフト」と呼ばれるこの現象は、いくつかの方法で現れます。
-
大規模言語モデルは情報源を理解できず、パロディ記事と本物の記事を区別できませんでした。提供された記事のみに基づいて回答を提供するようにモデルに指示し、パロディ記事のいくつかを渡した場合、モデルは通常、それらがパロディであることを理解せず、それらを使用します。そのため、Gemini は、人々は 1 日に少なくとも 1 つの小石を食べることが推奨されている、またはピザにチーズを無毒の接着剤で固定する必要がある、という回答をある時点で得ることができました。
-
Patel ら (2021) による研究では、GPT-3 は優れた言語機能にもかかわらず、基本的な算術タスクに苦労していることがわかりました。3 桁を超える数字の計算では、モデルの精度が大幅に低下しました。
Zhang ら (2022) による別の研究論文では、LLM は正確な数値推論を必要とするタスクではパフォーマンスが低いことが実証されました。彼らは、GPT-3 や PaLM のような最先端のモデルでさえ、数値推論問題のデータセットで 50% 未満の精度を達成したことを発見しました。
-
1.モデルは「9.9」と「9.11」を別々にトークン化します。
2.これらは数値比較ではなく文字列比較として扱われる場合があります。
3.文字列の比較では、「9.11」は確かにアルファベット順で「9.9」の後になります。
これにより、9.9 は 9.11 より小さいという誤った主張につながります。
-
これらのエラーの根本的な原因は、LLM が数値入力をトークン化して処理する方法にあります。数値は一貫性のない方法で個別のトークンに分割されることがよくあります。
例えば:
・「380」は単一のトークンとしてトークン化される可能性がある。
・「381」は「38」と「1」の2つのトークンに分割できます。
・「3000」は1つのトークンである可能性があるが、「3100」は「3」と「100」に分割される可能性がある。
この一貫性のないトークン化により、モデルが数値の一貫した理解を維持することが困難になります。
-
水不足により植物が枯死するという情報が与えられた場合、LLM は、定期的な水やりによって植物の死を防ぐことができたと確実に結論付けない可能性があります。これは、水と植物の生存との因果関係を理解していないことを示しています。