AIに音楽を作らせるのは難しい。Sunoのチームは当初、音楽のように聞こえる音声を生成できるモデルを訓練するには、実際に必要だった量の100倍の計算能力と資金が必要になると考えていた。テキストは単語やフレーズという識別しやすい単位にきれいに分解できるが、音を構成する信号は高速かつ連続的であり、符号化するのがはるかに難しい。
しかし、2022年11月にChatGPTが公開されてから間もなく、Sunoは最初の技術的な突破口を見いだした。Sunoは、曲の構造やスタイルをモデルに学習させるのに役立つ音楽の要素を表現する方法を突き止めた。2022年末、4人はクチュコのケンブリッジの自宅のキッチンテーブルを囲み、モデルが初めて生成した、実際に曲のように聞こえるAIメロディーを興奮しながら聴いた。
「こちらが特に何かを教え込まなくても、モデルは短い音声の断片から始めて、徐々に長く、まとまりのある音を組み立てることを学んでいく。最終的には1曲まるごと作れるようになる」と、最高技術責任者(CTO)で共同創業者のクチュコは語る。