マルチモーダルモデルとは、複数の種類のデータを処理および生成できるモデルのことです。以前の言語モデルはテキストのみを扱っていました。マルチモーダルモデルは、画像、音声、動画、コードを入力として受け取り、それらの形式の一部またはすべてを出力として生成できます。マルチモーダルモデルは、写真の説明、棒グラフの読み取り、音声メモの書き起こしとその内容への応答、または記述された説明からの画像の生成などを行うことができます。過去2年間にリリースされた最先端モデルのほとんどは、ある程度マルチモーダル機能を備えており、許容される入力の種類は、一般公開されているドキュメントが示すよりも速いペースで拡大しています。入力タイプの拡大は、新たな障害モードが発生する領域も拡大します。これらの障害モードの中には、テキストベースの障害モードよりも検出が難しいものもあります。なぜなら、画像を解釈するモデルには、その解釈が間違っている場合にそれを通知する組み込みのメカニズムがないからです。