VALL-E 2 成為首個達到人類水準的 TTS，基於風險微軟不打算公開發表

2024-07-15 08:00:00 編輯： Evan

導讀去年初微軟推出 VALL-E 文字轉語音（TTS）生成器時，便展現了只要聽取說話者 3 秒鐘的聲音、便能以原說話說者一模一樣的聲音說出任何講話內容的能力。如今微軟推出 VALL-E 2 生成器，能夠...

去年初微軟推出 VALL-E 文字轉語音（TTS）生成器時，便展現了只要聽取說話者 3 秒鐘的聲音、便能以原說話說者一模一樣的聲音說出任何講話內容的能力。如今微軟推出 VALL-E 2 生成器，能夠更進一步生成和真人說話時一樣準確、自然又流暢的語音。由於生成的語音太過逼真，微軟擔心會有被惡意濫用的可能風險，所以決定不對外公開。

6 月 17 日，微軟研究人員在開放預印論文網站上所發表的一篇論文中表示，VALL-E 2 能夠「以原說話者的聲音生成與人類表現水準殊無二致的準確、自然語音」。換言之，這款新的 AI 語音生成器非常逼真，足以讓人誤以為是真人在講話。

兩功能加持，ALL-E 2 樹立零樣本 TTS 技術新裏程碑

研究人員在論文中寫道，ALL-E 2 是神經編碼解碼器語言模型（neural codec language model）的最新進展，標誌著零樣本（zero-shot）TTS 技術的一個裏程碑，首次實現了與人類表現相當的水準。該 AI 引擎能夠實現這一點，是因為包含了兩個關鍵功能：「重複感知取樣」（Repetition Aware Sampling）和「分組程式碼建模」（Grouped Code Modeling）。

重複感知取樣透過處理重複的「詞元」（Token，最小的語言單位）來改進 AI 文字轉語音的方式，進而讓生成語音聽起來更加流暢與自然。分組編碼建模透過減少序列長度（亦即減少該模型在單一輸入序列中所處理個別詞元的數量）來提高效率，這加快了 VALL-E 2 生成語音的速度，並有助於解決長串聲音時遇到的困難。

研究人員使用 LibriSpeech 和 VCTK 語音庫的音訊樣本來評估 VALL-E 2 與人類說話者錄音的匹配程度，同時使用專門用來測量生成語音準確性和品質的 ELLA-V 評估框架，來確定 VALL-E 2 處理更複雜語音生成任務的能力與表現。儘管研究人員在該論文中指出，VALL-E 2 生成的語音品質取決於語音提示的長度和品質，以及背景雜訊等環境因素，但最終評估結果表明，「它是同類模型中首個在這些基準測試中達到人類水準的系統」。

合成出可維持說話者身分的語音，VALL-E 2 仍有廣大應用空間

考量到當前人們對於語音複製（voice cloning）和深度偽造（deepfake）技術與日俱增的擔憂，微軟研究人員在一篇中表示，VALL-E 2 純粹是一個研究專案，該公司目前沒有將 VALL-E 2 納入產品或擴大公開使用的計畫。因為該模型可能存在被濫用（例如欺騙規避聲音識別系統或冒充特定說話者）的風險。

微軟並未把話說死，該技術在未來仍有可應用的空間。研究人員表示，VALL-E 2 可以合成出可以維持說話者身分的語音，並應用於教育學習、娛樂、新聞報導、自創作內容、無障礙功能、互動式語音應答系統、翻譯、聊天機器人等領域。未來為避免濫用，模型推廣者必須締結使用者批准使用其聲音的協議，並導入合成語音的檢測模型。一旦懷疑 VALL-E 2 遭濫用，也可向微軟 Report Abuse Portal 回報狀況。

（首圖來源：）

文章看完覺得有幫助，何不給我們一個鼓勵

想請我們喝幾杯咖啡？

每杯咖啡 65 元

x 1

x 3

x 5

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0 元

留給我們的話

關鍵字: , , , , ,

標題：VALL-E 2 成為首個達到人類水準的 TTS，基於風險微軟不打算公開發表

地址：https://www.utechfun.com/post/397365.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：

上一篇:你會願意花錢升級 iPhone 的智力嗎？

下一篇:千家周報|上周熱門資訊排行榜（7月08日-7月14日）

您現在的位置：首頁人工智能

VALL-E 2 成為首個達到人類水準的 TTS，基於風險微軟不打算公開發表

兩功能加持，ALL-E 2 樹立零樣本 TTS 技術新裏程碑

合成出可維持說話者身分的語音，VALL-E 2 仍有廣大應用空間

想請我們喝幾杯咖啡？

每杯咖啡 65 元

留給我們的話

猜你喜歡

您現在的位置： 首頁 人工智能

兩功能加持，ALL-E 2 樹立零樣本 TTS 技術新裏程碑

合成出可維持說話者身分的語音，VALL-E 2 仍有廣大應用空間

想請我們喝幾杯咖啡？

每杯咖啡 65 元

留給我們的話

猜你喜歡

您現在的位置：首頁人工智能