15 秒聲音就能合成不同語言人聲，OpenAI 公開語音引擎預覽版

2024-03-30 14:35:00 編輯：陳冠榮

導讀 OpenAI 語音引擎（Voice Engine）及其採用 AI 模型悄悄出現在用戶眼前已有一段時間，現在該公司正式對外公開。 OpenAI 語音引擎預覽版 29 日首度亮相，這項功能是現有文字轉語...

OpenAI 語音引擎（Voice Engine）及其採用 AI 模型悄悄出現在用戶眼前已有一段時間，現在該公司正式對外公開。

OpenAI 語音引擎預覽版 29 日首度亮相，這項功能是現有文字轉語音 API 的延伸，背後採用模型也支援 ChatGPT 語音對話和「朗讀」。語音引擎經過大約 2 年開發，將允許用戶上傳 15 秒語音樣本，將這些語音資料合成更多版本，目前提供少數公司進行測試。

「我們會擷取一段簡短的音訊和文字，產生與原說話者相符的逼真語音。」OpenAI 產品開發成員 Jeff Harris 告訴國外媒體 TechCrunch，模型同時分析從中擷取的語音資料和要朗讀的文字資料，可產生情感豐富且自然真實聲音，與原始說話者非常相似。「處理完成後，所使用的音訊會被刪除。」

在 OpenAI 部落格文章的中，一名英語用戶的聲音被翻譯成西班牙語、華話、德語、法語以及日語，同時保留原說話者的口音，Jeff Harris 稱 OpenAI 方法可提供更高品質語音。

事實上，這不是全新技術，許多公司一直有可合成語音的產品，從新創 ElevenLabs 再到大型公司亞馬遜、Google、微軟等都有。不過談到語音引擎背後的訓練資料從何而來，Jeff Harris 僅表示根據授權資料和公開資料組合訓練而成。

包括 OpenAI 語音引擎在內 AI 工具能夠合成不同語音，未來可能會對配音員、影音內容製作等領域帶來許多影響，消費大眾更擔心這樣的工具被不法分子用於、散播不實資訊。

語音引擎功能雖強大，但目前無法調整語音的口音、音調或說話速度。OpenAI 也未公布推出時程，可讓該公司有更多時間測試，防止功能遭到不法濫用。

（首圖來源：）

關鍵字: , , ,

標題：15 秒聲音就能合成不同語言人聲，OpenAI 公開語音引擎預覽版

地址：https://www.utechfun.com/post/351035.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：

上一篇:彭博：蘋果計劃 5 月初發表新一代 iPad Pro 和 iPad Air

下一篇:劉德音：半導體是 AI 關鍵推動力，矽光子將成重要技術

您現在的位置：首頁人工智能