沈向洋：大模型對算力需求每年增長四倍以上，合成數據催生百億創業風口

2024-11-23 18:11:03 編輯： robot

導讀界面新聞記者 | 陳振芳界面新聞編輯 | 文姝琪 “從長遠的角度來看，人類社會發展每次巨大躍遷都是由技術創新帶來的。工業時代的全球GDP年均增速約爲1%-2%，信息時代增速爲3%-4%，人工智能時...

界面新聞記者 | 陳振芳

界面新聞編輯 | 文姝琪

“從長遠的角度來看，人類社會發展每次巨大躍遷都是由技術創新帶來的。工業時代的全球GDP年均增速約爲1%-2%，信息時代增速爲3%-4%，人工智能時代，這個數字會是多少？”

11月22日，IDEA研究院創院理事長、美國國家工程院外籍院士沈向洋在2024 IDEA大會上表達了上述觀點。他強調，隨着AI的各項能力逼近、甚至超越人類，AI治理已成亟待全球共同面對的議題。

當天，粵港澳大灣區數字經濟研究院（下稱IDEA研究院）發布DINO-X目標檢測視覺大模型，該模型作爲GroundingDINO系列升級之作，在多項能力上得到提升。

在檢測能力上，無需用戶提示即可檢測萬物，無論是常見物體還是罕見的長尾物體（出現頻率低但種類繁多的物體）都能精准識別並給出類別。

得益於超1億高質量樣本的大規模數據集多樣化訓練，DINO-X對未知場景和新物體適應性強，泛化能力出色，在實際應用場景中更具靈活性。

在探討AI發展脈絡時，沈向洋提及算力、算法與數據層面變化。算力上，摩爾定律指出每18個月算力需求增長一倍，而當下大模型對算力需求每年增長四倍以上，過去十年英偉達市值大幅攀升300倍與算力需求劇增緊密相關，十年間算力需求增長約100萬倍。

算法層面，2017年Transformer架構面世後，AI、深度學習、大模型多沿此路线發展，OpenAI的O1系列帶來算法突破思路，改變過往單純預訓練預測“下一個token”模式，融入類似人思考、推理的後訓練、後推理過程。

數據方面，“缺數據”已經成爲大模型行業內的共識之一。隨着GPT系列發展，數據需求激增。沈向洋透露，距離GPT3面世已經過去三年，當時OpenAI用了2T數據，1萬億Token。GPT4用了12T數據，訓練用了20T數據，“事實上，互聯網上洗幹淨的數據大概是20萬億。”

沈向洋認爲，GPT5預計需200T數據規模，合成數據可以給大模型提供更爲豐富的訓練材料，還有望催生未來百億美金級別的創業機遇。

“互聯網上已經找不到那么多的數據，未來需要更多高質量的合成數據訓練未來的模型。”他舉例稱，1萬億的數據約等於500萬本書，20萬張高清照片，抑或500萬篇論文。人類歷史上的書籍大概是21億Tokens，微博有38億Tokens，Facebook大概擁有140TTokens的數據。

當下互聯網數據存量告急，社交媒體數據質量欠佳，合成數據受重視，且私域數據利用存在安全孤島問題。對此，IDEA研究院通過IDEADataMaker用加密方式利用私域數據生成新語料、語境圖譜。

標題：沈向洋：大模型對算力需求每年增長四倍以上，合成數據催生百億創業風口

地址：https://www.utechfun.com/post/447435.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤：沈向洋創業研究院 AI

上一篇:蘇寧發布“六位一體”服務舉措，以舊換新提質增效

下一篇:卡奧斯天智工業大模型榮獲2024“直通烏鎮”全球互聯網大賽特等獎

您現在的位置：首頁智能設備