用文字和音訊輸入,可以創造出音樂、語音和聲音的任意組合
一組生成式人工智慧(AI)研究人員打造了一把聲音的瑞士刀,讓使用者只要使用文字就能控制音訊輸出。
雖然某些 AI 模型可以用於作曲或修改聲音,但都沒有像這款新產品在使用上如此靈活。
這款產品被稱作 Fugatto,為Foundational Generative Audio Transformer Opus 1 的縮寫,可以使用文字與音訊檔案的任何組合,產生或轉換提示描述的音樂、語音與聲音任意組合。
例如,它可以根據文字提示創作音樂片段、從現有歌曲中增減樂器、改變聲音的口音或情感,甚至讓人們發出從未聽過的聲音。
曾多次拿下白金唱片的製作人兼詞曲創作者 Ido Zmishlany 表示:「這個技術太瘋狂了。聲音是我的靈感來源。是它打動我創作音樂。我可以在錄音室裡即時創作出全新聲音,這實在讓人感到不可思議。」Zmishlany 同時也是 One Take Audio 的共同創辦人,而 One Take Audio 為針對尖端新創公司成立的 NVIDIA Inception 計畫一員。
深刻理解聲音
NVIDIA 應用音訊研究部門經理 Rafael Valle 指出:「我們希望創造一個能夠像人類一樣理解和生成聲音的模型。」Valle 是 Fugatto 數十位幕後推手之一,同時也是一位管弦樂指揮家與作曲家。
Fugatto 支援多種音訊產生與轉換任務,是第一個能展現突現性質(emergent property)的基礎生成式 AI 模型,也就是由各種經過訓練的能力進行互動所產生的能力,以及結合自由形式指令的能力。
Valle 表示:「Fugatto 是我們邁向未來的第一步,未來,音訊合成與轉換的無監督多任務學習將從資料與模型規模中浮現。」
使用案例代表性清單
比如說音樂製作人可以使用 Fugatto 快速製作聲音的原型或編輯歌曲的構想,嘗試各種風格、聲音和樂器。他們也能夠加入效果並提升現有曲目的整體音訊品質。
Zmishlany 表示:「音樂史也是一部科技史。電吉他為這個世界帶來了搖滾樂。當採樣器出現時,嘻哈音樂便誕生了。借助 AI,我們正在譜寫音樂的下一個篇章。我們有了一種新的樂器、一種製作音樂的新工具,這實在是太讓人期待了。」
廣告公司可以運用 Fugatto 快速針對多個地區或情境的現有廣告內容,對配音套用不同的口音和情感。
語言學習工具可以變得個人化,可使用說話者選擇的任何聲音。想像一下,線上課程將以任何一個家人或朋友的聲音所講授。
電玩遊戲開發人員可以使用這個模型來修改遊戲裡預先錄好的資產,以配合玩家在玩遊戲時不斷變化的動作。又或是他們可以根據文字指令及可選用的音訊輸入方式,即時動態創造出新的資產。
發出歡樂的聲音
Valle 表示:「酪梨椅(avocado chair)是我們特別引以為傲的模型功能之一。」Valle 這裡指的是一種由生成式 AI 模型所創造出的新穎視覺成像技術。
像是 Fugatto 可以做出喇叭或是薩克斯風的聲音。不管使用者描述什麼,模型就能創造出什麼。
只要經過微調和少量的歌唱資料,研究人員發現它可以處理未經過預先訓練的任務,例如從文字提示產生高品質的歌聲。
使用者可以進行藝術性控制
Fugatto 的新奇之處還在於它的幾項功能。
模型在推論的時候,會使用一種稱為 ComposableART 的技術,將只在訓練期間單獨出現的指令組合起來。舉例來說,提示的組合可以要求用法國口音說出帶有傷感情懷的文字。
此模型在指令之間進行插值的能力,讓使用者可以極細微地控制文字指令,在這個例子中即是可以控制口音的輕重或悲傷的程度。
設計該模型這些方面的 AI 研究員 Rohan Badlani 表示:「我想讓使用者以主觀或藝術的方式結合屬性,選擇他們對每個屬性的重視程度。」
擁有史丹佛大學電腦科學碩士學位且主攻 AI 的 Badlani 指出:「在我的測試中,結果時常令人驚訝,讓我覺得自己有點像是個藝術家,儘管我是一名電腦科學家。」
這個模型還能產生隨時間變化的聲音,Badlani 將這項功能稱為時間插值(temporal interpolation)。譬如它可以產生出暴風雨經過某個區域時的聲音,而漸強的雷聲則慢慢消失在遠方。它還能讓使用者精細控制聲景的演變方式。
此外,與大多數模型只能重現所接觸過的訓練資料不同,Fugatto 能讓使用者創作出從未見過的聲景,例如雷雨伴隨著鳥鳴聲緩緩進入黎明。
深入認識
Fugatto 是一個基礎的生成式轉換器模型,建立在團隊先前在語音建模、音訊聲碼處理及音訊理解等領域的工作基礎上。
完整版本使用 25 億個參數,在搭載 32 個 NVIDIA H100 Tensor 核心 GPU 的 NVIDIA DGX 系統上進行訓練。
Fugatto 的開發團隊由來自印度、巴西、中國、約旦和韓國等全球各地的不同人士所組成。他們的通力合作使得 Fugatto 生成多種口音及語言的能力變得更加強大。
其中最困難的部分是產生一個混合資料集,其中包含數百萬個用於訓練的音訊樣本。該團隊採用多方面的策略來產生資料和指令,顯著擴大模型可以執行的任務範圍,同時實現更加精確的執行表現,並在無需額外資料的情況下完成新的任務。
他們還仔細研究現有的資料集,以揭示資料之間新的關係。整個工作歷時超過一年。
Valle 記得有兩個時刻,團隊知道自己做出了一些成果。他表示:「第一次按照提示產生音樂時,突破了我們所有人的想像。」
隨後,團隊示範 Fugatto 回應一個提示,創造出狗隨著節拍吠叫的電子音樂。
「當團隊哄堂大笑時,我的心真的暖暖的。」
深入探索 Fugatto 的特色: