科大訊飛獲國家科學技術進步獎一等獎

2024-06-25 19:02:57    編輯: 科大訊飛
導讀 6月24日,2023年度國家科學技術獎勵大會在京召开,科大訊飛作爲第一完成單位的“多語種智能語音關鍵技術及產業化”項目獲得國家科學技術進步獎一等獎。這是深度學習引發全球人工智能浪潮以來,過去十年人工...

6月24日,2023年度國家科學技術獎勵大會在京召开,科大訊飛作爲第一完成單位的“多語種智能語音關鍵技術及產業化”項目獲得國家科學技術進步獎一等獎。這是深度學習引發全球人工智能浪潮以來,過去十年人工智能領域首個國家科學技術進步獎一等獎。這也是科大訊飛繼2002年和2011年分別獲得國家科學技術進步獎二等獎之後,首次獲得國家科學技術進步獎一等獎。

國家科學技術進步獎創辦於1984年9月,是國務院設立的國家科學技術獎5大獎項(國家最高科學技術獎、國家自然科學獎、國家技術發明獎、國家科學技術進步獎、中華人民共和國國際科學技術合作獎)之一。因2021年、2022年國家科技獎暫停的緣故,2023年度國家科技獎積累了大量的優秀成果,競爭激烈。


關鍵技術取得四大突破

達到國際領先水平

語音是人類最自然便捷的溝通方式,是智能設備人機交互的關鍵入口,也是諸多敏感信息的重要載體,還是民族團結和國際合作的基礎。多語種智能語音技術對於支撐人機交互、人類語言互通及國家安全等需求具有重大战略意義,具有十分廣闊的產業前景,是當前國際科技競爭核心焦點之一。

持續攻關多年,科大訊飛攻克了多個技術難題,並打破技術封鎖,提出了四個方面的技術創新。

創新點一,復雜語音信號解耦建模關鍵技術突破。

語音識別研究中最具挑战的是遠場、噪聲、多人語音混疊等現象導致的“雞尾酒會”效應典型難題。

科大訊飛提出了多通道語音信號時空分離建模方法和多維度語音屬性解耦表徵方法,實現語音信號中內容、噪聲等高度耦合的多維屬性特徵解耦,解決了“雞尾酒會”的難題,使得復雜場景下語音識別准確率得到重大突破。

在這些技術的支撐下,科大訊飛連續4屆獲得國際多通道語音分離和識別比賽CHIME冠軍;連續8屆獲得國際語音合成大賽Blizzard Challenge冠軍。2015年,相關技術首次在大會演講場景實現語音轉寫超過人類速記員水平;2019年起連續六年服務全國兩會;個性化語音合成首次應用於中央電視台節目配音(《創新中國》),並在新華社、人民日報、學習強國等廣泛應用。

創新點二,多語種共享建模關鍵技術突破。

爲了應對多語種技術“卡脖子”問題,必須解決小語種智能語音系統構建所面臨的知識匱乏、訓練數據稀缺等難題。

科大訊飛設計了全新的多語種通用音素體系和基本語言單元,實現多語種統一音素韻律體系的構建,又通過基於元學習的多語種預訓練和基於語族分組的多語種共享建模——通俗地說,就是將不同的小語種進行分類,找到同類語種的共同規律,進行分析建模和訓練——最終,顯著提升了小語種語音系統性能。

相關技術在2021年國際低資源多語種語音識別競賽OpenASR中獲得15個語種受限賽道和7個語種非受限賽道的冠軍。2024年,結合語音屬性解耦表徵、多語種多任務共享建模等關鍵技術成果發布星火語音大模型,首批37個主流語種的語音識別效果超過OpenAI Whisper V3。

在奇瑞、一汽等的交互評測中,科大訊飛的技術效果全面領先國際車載語音技術競品賽倫思(原Nuance車載公司),在華爲的評測中也領先谷歌。

創新點三,語音語義聯合建模關鍵技術突破。

復雜應用場景下語音交互、語音翻譯面臨着深層次語義理解困難、專業性不足等問題。

科大訊飛提出語音語義互增強的魯棒口語理解技術,有效提升語音交互、語音翻譯等復雜場景的語義理解准確率;提出多源知識增強的可信文本生成技術,提升專有詞匯及領域知識引用的准確率。

相關技術於2018年在業內首次達到CATTI考試英語二級《口譯實務(交替傳譯類)》合格標准;並在2021-2023年連續三屆獲得國際權威機器口語翻譯評測比賽IWSLT冠軍,覆蓋同傳、離线、方言翻譯等多類任務。

技術成果應用在多個方面:如英語口語評測首次達到人類專家水平,是滿足高考應用要求的技術,累計服務超1.3億考生;智能客服系統規模應用,累計服務超8億人,多行業對話成功率超90%。

創新點四,國產異構硬件平台訓練及推理加速關鍵技術突破。

使用國產芯片开展智能語音算法模型訓練和推理面臨性能低、適配難等問題。

科大訊飛提出硬件親和的變長輸入算子融合和聯合統一量化感知訓練技術,通過軟硬件協同優化的動態張量算子自動融合方法,實現對語音等變長輸入的訓練性能優化達到國際主流芯片同等水平;通過多硬件聯合的量化計算模擬,達到模型單次訓練後可在不同硬件平台上一鍵部署,解決了智能語音技術硬件平台的“卡脖子”問題。

目前,已建成5個國產化集群,語音合成、識別、翻譯、交互等國產化能力日服務8.73億次。2023年,科大訊飛與華爲聯合攻關大模型國產化算力底座核心難題,建設首個萬卡全國產算力平台“飛星一號”,填補了國產超大模型訓練平台空白。

基於這些關鍵技術的持續攻關和突破,該項目獲批牽頭建設4個國家級創新平台:語音產業界唯一的國家級研究开放平台語音及語言信息處理國家工程研究中心,智能語音國家新一代人工智能开放創新平台,首批20家標杆全國重點實驗室之一的認知智能全國重點實驗室,智能語音領域唯一的國家技術標准創新基地;並主導編制11項國際和國家標准,獲授權發明專利257項;近五年累計獲得國際權威評測冠軍20余項,持續保持技術引領。


實現規模化產業立地

有效支撐國家战略

科大訊飛一直堅持“技術頂天、應用立地”的战略,圍繞多語種智能語音技術構建了自主可控的產業生態。

第一,語音是萬物互聯時代人機交互的關鍵入口,項目开創引領我國語音產業,支撐智能制造產業升級和出海。

智能手機方面,項目支持各主流手機廠商累計激活設備超10億台,有效解決華爲等廠商出海的多語種“卡脖子”問題;智能汽車方面,車載智能化產品累計前裝超5300萬套,支持奇瑞、一汽、長安等車企超200萬套訂單出海;智能軟硬件方面,开創智能翻譯機、智能辦公本、智能錄音筆等智能硬件新品類,連續三年獲得京東&天貓雙平台銷售冠軍,其中,訊飛翻譯機目前能支持85個語種的翻譯,覆蓋全球200多個國家和地區,連續8年獲得京東618、連續7年獲得天貓雙11銷售冠軍;在會議、辦公等場景,訊飛聽見系列產品服務遍及全球50多個國家和地區,支持了超過40萬場會議,觸及超過4億觀衆;面向更多用戶,訊飛輸入法月活躍用戶超1.4億人,日語音交互次數超10億次;聯合中國移動電視語音遙控服務超1億家庭。

第二,項目助力民族團結,促進全球語言互通和“一帶一路”建設。

發布“多語種語音雲”平台,月服務超過5.46億人次;每年提供翻譯服務51.5億次,語音同傳服務全球50余個國家超4億觀衆;多語種技術有效服務北京冬奧會和冬殘奧會、中國國際進口博覽會、博鰲論壇等國家重大活動。

第三,項目還構建了自主可控的多語種智能語音技術及全球產業生態。

2017年开始承建的智能語音國家新一代人工智能开放創新平台,已聚集平台开發者數700.7萬,終端設備數40.5億;構建全球多語種技術生態,目前平台聚集海外开發者數超過40萬。

第四,讓科技更有溫度,項目持續助力公益,關愛弱勢群體和特殊人群。

“聽見AI的聲音”公益行動,爲聽力障礙人士提供免費的實時語音轉文字服務、捐贈免費時長,截至2024年6月,累計捐贈時長超一億分鐘;發起“三聲有幸”項目,累計服務1368萬人,助力公益團隊創建無障礙應用超3萬個;進行推普脫貧攻堅,累計助力超115萬少數民族群衆,成爲《國家通用語言文字法》施行22年來首次表彰活動中的企業先進集體。

項目產業生態繁榮、成效顯著。近三年,多語種智能語音技術產業化項目累計實現直接經濟效益521.28億元,並帶動由工信部和安徽省政府共建、以科大訊飛爲核心的“中國聲谷”產業集聚發展,並上升爲中部崛起的國家战略。


未來:智能語音+認知大模型

用人工智能建設美好世界

十年磨一劍,科大訊飛創業25年來第三次獲得國家科技進步獎,對於科大訊飛而言,是一個總結,也是新开始!

通用人工智能時代,科大訊飛多語種智能語音關鍵技術中的創新和大模型技術相互補充、相互促進。

語音屬性解耦、語音信號時空分離等技術突破,可以將語音信號經過編碼後輸入到大語言模型,顯著提升語音大模型的效果。2024年1月30日,科大訊飛就基於上述技術融合路线發布了星火語音大模型,顯著超過了OpenAI的Whisper v3的語音大模型能力,Whisper v3的24個主要語種的平均識別率爲82%,而星火語音大模型達到了90%。4月26日,科大訊飛又首發多情感超擬人合成和一句話聲音復刻能力,使機器具備更加豐富的超擬人情緒感知和表達。

大模型技術可以在復雜語義理解、長文本建模能力上進一步提升語音識別、合成和翻譯的效果,同時基於其強大的語義理解、知識問答、多輪對話、多模態建模能力,也能進一步大幅提升智能語音技術的使用場景和應用價值,支撐實現語音同傳、自動客服、輔學答疑、家庭醫生、虛擬員工、陪伴機器人、服務機器人等未來智能產品創新,帶來巨大產業機會,加速通用人工智能時代的到來。

6月27日,訊飛星火V4.0也將正式發布,底座能力全面對標GPT-4 Turbo,語音大模型也將迎來全新升級。

未來,在科大訊飛國際領先的智能語音技術基礎之上,訊飛星火將進一步向着“解放生產力、釋放想象力,爲每個企業和每個人打造專屬AI助手”的更大愿景,持續攀登、持續進步,用人工智能建設美好世界!

追加內容

本文作者可以追加內容哦 !



標題:科大訊飛獲國家科學技術進步獎一等獎

地址:https://www.utechfun.com/post/389365.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡