最新的人工智能技術幾乎可以模仿任何人的聲音——總統、某位親屬或銀行客戶。
這就是成立已有十年的音頻技術初創公司Pindrop Security 要解決的問題和機遇。該公司長期爲銀行和保險公司提供語音認證服務。最近,它發布了一款新產品,稱其可以檢測電話和數字媒體內容中由人工智能生成的語音。該公司正向媒體、政府機構和社交網絡推銷這項功能。
Pindrop是越來越多具有安全意識、意欲打擊人工智能造假和欺詐威脅的公司之一。Protect AI 和薩姆·奧爾特曼(Sam Altman)麾下的Tools For Humanity Corp.(即Worldcoin,通過掃描眼睛來識別人的身份)等都屬於這類公司。
Pindrop專注於音頻領域,今年1月,該公司因檢測到美國總統拜登的聲音通過自動語音電話唆使人們不要在新罕布什爾州初選中投票的深度僞造來源而登上了新聞頭條。攻擊的規模在不斷擴大:該公司稱,自去年以來,針對其客戶的未遂攻擊數量增加了五倍多。
SocialProof Security的首席執行官雷切爾·托巴克(Rachel Tobac)說:“把語音克隆和欺騙軟件結合起來,僞裝成其他人在打電話,非常容易辦到。”
Pindrop從一批知名投資者那裏獲得了融資,包括Andreessen Horowitz和GV。今年,該公司又從Hercules Capital 獲得了1億美元債務融資。其最新估值爲9.25億美元。
聯合創始人維賈伊·巴拉蘇布拉馬尼揚(Vijay Balasubramaniyan)攻讀博士期間在印度旅行時曾想購买一套西裝,之後他开始思考音頻造假問題。他开戶的某美國銀行在當地時間凌晨3點左右打電話給他核實交易,問他的社保號碼。由於無法核實來電者是誰,銀行也沒有提供太多信息,他就掛斷了電話。
“這太奇怪了,”巴拉蘇布拉馬尼揚回憶起他在回美國的飛機上的想法,“亞歷山大·格雷厄姆·貝爾(Alexander Graham Bell)發明電話已經很久了,但我們仍然沒有辦法識別電話的另一頭是誰。”(他沒买到那套西裝。)
Pindrop的技術通過分析音頻來判斷聲音是屬於真人,還是與人相像。巴拉蘇布拉馬尼揚說,人類通過發出特定的聲音來說話,用聲音組成單詞。但機器的發音不像人類,偶爾會產生一些變化,超出人嘴發音的物理限制。由於每秒鐘的語音音頻可以採集8000個樣本,人工智能有可能在幾千個地方出錯。
巴拉蘇布拉馬尼揚說:“隨着你獲得的音頻越來越多,你就會發現這些異常現象。”他補充說,由於人類的發音方式都一樣,因此他們的檢測軟件與語言種類無關。
該公司稱,其新工具可識別人工智能生成的音頻,准確率在99%,但業內對人工智能檢測的局限性仍有爭議。對於教師、研究人員和社交媒體用戶來說,隨着技術的進步,識別人工智能生成的文字和圖像一直是令人頭疼的問題。今年3月,OpenAI發布了一款可以復制人聲的工具,該公司在一篇博文中建議,企業對於訪問銀行账戶和其他敏感信息應逐步淘汰基於語音的身份驗證方法。
在Pindrop擔任董事的思科系統公司前總裁約翰·錢伯斯(John Chambers)認爲,語音ID是一種異常安全的在线身份驗證方式。錢伯斯通過他的公司JC2 Ventures投資了這家初創公司。“語音將成爲未來識別身份的主要網絡安全驗證方式,”他說,當語音與生物特徵識別和所使用設備的相關數據結合起來時,“幾乎不可能有人完全破解。”
一些業內人士對應對人工智能問題的人工智能公司數量增多表達了疑慮。身份盜竊研究中心(Identity Theft Research Center)的詹姆斯·李(James E. Lee)說,除非通過法律來減少網上可獲得的個人數據數量,否則業界就可能卷入好壞人工智能之間的長期爭鬥之中。
安全技術的發展同時,威脅也會隨之而來。斯坦福大學的網絡安全政策專家安德魯·格羅托(Andrew Grotto)說,壞人有可能訓練出一種算法,來逃避Pindrop等公司用來識別深度僞造的檢查。格羅托說:“你最終會陷入這場軍備競賽,即防御者和威脅者之間的貓鼠遊戲。”編輯/陳佳靖
海量資訊、精准解讀,盡在新浪財經APP責任編輯:劉明亮
標題:這家初創公司聲稱能分辨真人聲音還是AI假冒
地址:https://www.utechfun.com/post/417258.html