契約違反は理論上の話ではない。以下の事例はいずれも、意思決定者が指定された領域に関わるものであり、それぞれの事例は、その役割に実際に求められる要件に基づいて製品が構築されていなかった場合に、どのようなコストが発生するかを示している。
法的。2023年、ニューヨークの弁護士スティーブン・シュワルツは、ChatGPTが捏造した6件の訴訟を引用した意見書を提出した。「Varghese v. China Southern Airlines, 925 F.3d 1339 (11th Cir. 2019)」は存在しない。シュワルツは後に、このツールが「自ら訴訟を捏造するはずがない」という信念のもとで活動していたと述べた。裁判所は5,000ドルの制裁を科し、偽の意見書に名前が載っている実在の裁判官全員に命令書のコピーを郵送するよう命じた。これが始まりだった。2025年末までに、研究者ダミアン・シャルロティンは、法的文書におけるAIの幻覚の記録された事例1,356件を追跡し、個々のケースの制裁は30,000ドルに達した。カリフォルニア州では、少なくとも1つの裁判所が、相手側の弁護士が相手側のAI生成の偽造を検出する義務を負う可能性があると示唆し始めている。弁護士が意思決定者だった。その設計では、彼らが決定を下す際に、入力内容を検証する手段が全くなかった。
医療分野。IBMのWatson for Oncologyは、MDアンダーソンがんセンターで3年間、6,200万ドル以上を費やしたが、内部監査で、Epicとの同期ができず、古い薬剤プロトコルで動作し、最新のエビデンスに基づかない治療推奨を生成していることが明らかになった。ジュピター病院の医師は、IBMの経営陣に対し、この製品について、公表記事にはふさわしくない言葉で説明した。Watson Healthは2022年にプライベートエクイティに売却された。これとは別に、Epicの敗血症予測ツールは、ベンダーが主張する信頼できるパフォーマンス数値に基づいて、米国の数百の病院に導入された。ミシガン大学医学部の研究者が独自の外部検証を行ったところ、このモデルは推奨閾値で敗血症症例の67%を見逃し、入院患者全体の18%にアラートを生成し、臨床医が見逃した症例のうち正しくフラグを立てたのはわずか7%だった。何百人もの臨床医が名目上は敗血症の意思決定者であったが、実際のパフォーマンスを検証する方法のないツールに頼っていた。
自律システム。2025年8月、フロリダ州の陪審は、オートパイロットモードのモデルSが起こした死亡事故について、テスラに3分の1の責任があると判断した。運転手は過失を認めた。テスラは、この事故を防ぐことができるシステムは存在しないと主張した。陪審はこれに同意せず、オートパイロットのマーケティングと設計方法が、運転手が実際にどのように使用するかに影響を与え、技術が保証する以上にユーザーを信頼するようにシステムを設計すること自体が、事故の一因となっていると判断した。長年、「オートパイロットが作動しているときの責任は誰にあるのか?」という質問に対する標準的な答えは、「運転手。システムは常に監視する必要がある」だった。陪審はこれに反論した。製品の設計が、人間が保持すべき判断を委ねるように訓練する場合、製品は結果を共有することになる。
刑事司法。エリック・ルーミスは2013年にウィスコンシン州で有罪判決を受けたが、その判決の一部は、独自の再犯予測ツールであるCOMPASによる高リスクスコアに基づいていた。アルゴリズムの入力とロジックは開示されなかった。ルーミスは、モデルがスコアを生成するために何を使用したかを調べたり、その根拠に基づいて異議を申し立てたりすることができなかった。ウィスコンシン州最高裁判所は、州対ルーミス事件で、判事はCOMPASが判決の「唯一の根拠」でない限り、引き続き使用できると判決を下した。この基準の問題点は、アンカリングと呼ばれるよく知られたバイアスである。権威あるように見える数値がいったんその場にあると、意思決定者がそれとは独立して推論していると信じていても、その数値が意思決定を左右する。ProPublicaの2016年の調査では、COMPASは同じリスクレベルの白人被告と比較して、黒人被告を将来の犯罪者として誤ってフラグ付けする可能性がほぼ2倍高いことが判明した。判事が意思決定者であった。そのデザインは、ページ上に検証不可能な数字を配置し、人間がそれを理解して推論できると想定していた。
分野は異なるが、パターンは同じだ。誰かが意思決定者に指名されたものの、その役割が実際に必要とするものに基づいて製品が設計されなかった。