去年初微軟推出 VALL-E 文字轉語音(TTS)生成器時,便展現了只要聽取說話者 3 秒鐘的聲音、便能以原說話說者一模一樣的聲音說出任何講話內容的能力。如今微軟推出 VALL-E 2 生成器,能夠更進一步生成和真人說話時一樣準確、自然又流暢的語音。由於生成的語音太過逼真,微軟擔心會有被惡意濫用的可能風險,所以決定不對外公開。
6 月 17 日,微軟研究人員在開放預印論文網站 上所發表的一篇論文中表示,VALL-E 2 能夠「以原說話者的聲音生成與人類表現水準殊無二致的準確、自然語音」。換言之,這款新的 AI 語音生成器非常逼真,足以讓人誤以為是真人在講話。
兩功能加持,ALL-E 2 樹立零樣本 TTS 技術新裏程碑
研究人員在論文中寫道,ALL-E 2 是神經編碼解碼器語言模型(neural codec language model)的最新進展,標誌著零樣本(zero-shot)TTS 技術的一個裏程碑,首次實現了與人類表現相當的水準。該 AI 引擎能夠實現這一點,是因為包含了兩個關鍵功能:「重複感知取樣」(Repetition Aware Sampling)和「分組程式碼建模」(Grouped Code Modeling)。
重複感知取樣透過處理重複的「詞元」(Token,最小的語言單位)來改進 AI 文字轉語音的方式,進而讓生成語音聽起來更加流暢與自然。分組編碼建模透過減少序列長度(亦即減少該模型在單一輸入序列中所處理個別詞元的數量)來提高效率,這加快了 VALL-E 2 生成語音的速度,並有助於解決長串聲音時遇到的困難。
研究人員使用 LibriSpeech 和 VCTK 語音庫的音訊樣本來評估 VALL-E 2 與人類說話者錄音的匹配程度,同時使用專門用來測量生成語音準確性和品質的 ELLA-V 評估框架,來確定 VALL-E 2 處理更複雜語音生成任務的能力與表現。儘管研究人員在該論文中指出,VALL-E 2 生成的語音品質取決於語音提示的長度和品質,以及背景雜訊等環境因素,但最終評估結果表明,「它是同類模型中首個在這些基準測試中達到人類水準的系統」。
合成出可維持說話者身分的語音,VALL-E 2 仍有廣大應用空間
考量到當前人們對於語音複製(voice cloning)和深度偽造(deepfake)技術與日俱增的擔憂,微軟研究人員在一篇中表示,VALL-E 2 純粹是一個研究專案,該公司目前沒有將 VALL-E 2 納入產品或擴大公開使用的計畫。因為該模型可能存在被濫用(例如欺騙規避聲音識別系統或冒充特定說話者)的風險。
微軟並未把話說死,該技術在未來仍有可應用的空間。研究人員表示,VALL-E 2 可以合成出可以維持說話者身分的語音,並應用於教育學習、娛樂、新聞報導、自創作內容、無障礙功能、互動式語音應答系統、翻譯、聊天機器人等領域。未來為避免濫用,模型推廣者必須締結使用者批准使用其聲音的協議,並導入合成語音的檢測模型。一旦懷疑 VALL-E 2 遭濫用,也可向微軟 Report Abuse Portal 回報狀況。
(首圖來源:)
文章看完覺得有幫助,何不給我們一個鼓勵
想請我們喝幾杯咖啡?
每杯咖啡 65 元
您的咖啡贊助將是讓我們持續走下去的動力
標題:VALL-E 2 成為首個達到人類水準的 TTS,基於風險微軟不打算公開發表
地址:https://www.utechfun.com/post/397365.html