大規模言語モデルは情報源を理解できず、パロディ記事と本物の記事を区別できませんでした。提供された記事のみに基づいて回答を提供するようにモデルに指示し、パロディ記事のいくつかを渡した場合、モデルは通常、それらがパロディであることを理解せず、それらを使用します。そのため、Gemini は、人々は 1 日に少なくとも 1 つの小石を食べることが推奨されている、またはピザにチーズを無毒の接着剤で固定する必要がある、という回答をある時点で得ることができました。
引用ジャングルは同名のTumblrページからインポートしています
最新の知見を知るサイト
-
-
Patel ら (2021) による研究では、GPT-3 は優れた言語機能にもかかわらず、基本的な算術タスクに苦労していることがわかりました。3 桁を超える数字の計算では、モデルの精度が大幅に低下しました。
Zhang ら (2022) による別の研究論文では、LLM は正確な数値推論を必要とするタスクではパフォーマンスが低いことが実証されました。彼らは、GPT-3 や PaLM のような最先端のモデルでさえ、数値推論問題のデータセットで 50% 未満の精度を達成したことを発見しました。
-
1.モデルは「9.9」と「9.11」を別々にトークン化します。
2.これらは数値比較ではなく文字列比較として扱われる場合があります。
3.文字列の比較では、「9.11」は確かにアルファベット順で「9.9」の後になります。
これにより、9.9 は 9.11 より小さいという誤った主張につながります。
-
これらのエラーの根本的な原因は、LLM が数値入力をトークン化して処理する方法にあります。数値は一貫性のない方法で個別のトークンに分割されることがよくあります。
例えば:
・「380」は単一のトークンとしてトークン化される可能性がある。
・「381」は「38」と「1」の2つのトークンに分割できます。
・「3000」は1つのトークンである可能性があるが、「3100」は「3」と「100」に分割される可能性がある。
この一貫性のないトークン化により、モデルが数値の一貫した理解を維持することが困難になります。
-
水不足により植物が枯死するという情報が与えられた場合、LLM は、定期的な水やりによって植物の死を防ぐことができたと確実に結論付けない可能性があります。これは、水と植物の生存との因果関係を理解していないことを示しています。
-
外が寒いのでコートを着ているというシナリオを提示された場合、LLMはコートを脱ぐと寒さを感じると推論できない可能性があります。これは、気温と服装の選択の因果関係を理解できないことを示しています。
-
モデルはすべてのトークンのペア間の注意スコアを計算し、異なる単語の互いの重要度を評価できるようにします。たとえば、「川沿いの銀行は閉鎖されています」という文では、モデルはコンテキストを理解するために「銀行」と「川」の間に高い注意スコアを割り当てる可能性があります。
-
入力テキストはより小さな単位、通常は単語またはサブワードにトークン化されます。次に、これらのトークンは埋め込みと呼ばれる数値表現に変換されます。たとえば、「猫はマットの上に座った」という文は、[「The」、「cat」、「sat」、「on」、「the」、「mat」] にトークン化され、各トークンに一意のベクトル表現が割り当てられます。
-
誰もが天才だ。しかし、魚を木登りの能力で判断すると、魚は一生自分は愚かだと信じて生きることになる。— アインシュタイン
-
私は推論能力のある数学者をほとんど知りません。— プラトン
推論は結論を導き出すが、経験の道を通じて心が結論を発見しない限り、その結論は確実なものにはならない。— ロジャー・ベーコン