2024年のハロウィーンに間に合うように、Metaは、テキストと音声の入出力をシームレスに統合できる同社初のオープンソースマルチモーダル言語モデルであるMeta Spirit LMを発表しました。
従来の音声用 AI モデルは、自動音声認識を利用して音声入力を処理し、それを言語モデルで合成してから、テキスト読み上げ技術を使用して音声に変換します。
このプロセスは効果的ではありますが、トーンや感情など、人間の音声に固有の表現力が犠牲になることがよくあります。Meta Spirit LM は、音声、ピッチ、トーンのトークンを組み込むことで、これらの制限を克服する、より高度なソリューションを導入しています。
• Spirit LM Expressive : ピッチとトーンの追加トークンが含まれており、モデルは興奮や悲しみなどのより微妙な感情状態を捉え、生成されたスピーチにそれを反映することができます。
たとえば、怒り、驚き、喜びなどの感情状態を検出して出力に反映できるため、AI とのやり取りがより人間らしく、魅力的になります。
You may also enjoy…
コメントを残す