引用ジャングル

2024年のハロウィーンに間に合うように、Metaは、テキストと音声の入出力をシームレスに統合できる同社初のオープンソースマルチモーダル言語モデルであるMeta Spirit LMを発表しました。

従来の音声用 AI モデルは、自動音声認識を利用して音声入力を処理し、それを言語モデルで合成してから、テキスト読み上げ技術を使用して音声に変換します。

このプロセスは効果的ではありますが、トーンや感情など、人間の音声に固有の表現力が犠牲になることがよくあります。Meta Spirit LM は、音声、ピッチ、トーンのトークンを組み込むことで、これらの制限を克服する、より高度なソリューションを導入しています。

• Spirit LM Expressive : ピッチとトーンの追加トークンが含まれており、モデルは興奮や悲しみなどのより微妙な感情状態を捉え、生成されたスピーチにそれを反映することができます。

たとえば、怒り、驚き、喜びなどの感情状態を検出して出力に反映できるため、AI とのやり取りがより人間らしく、魅力的になります。

Meta がテキストと音声の入力/出力を組み合わせた Spirit LM オープンソースモデルを発表 | VentureBeat

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル