大模型內卷:2天發了10余款,百模大战开打了

2023-07-09 18:10:25    編輯: robot
導讀   與3、4月份人們充滿期待的科幻想象相比,當下做大模型的人,關注的話題更接近現實。他們發現,數據是難題,算力也是難題,大模型這條路,前景美好但現實艱難。   作者:任曉寧    卷數量   7月6...

  與3、4月份人們充滿期待的科幻想象相比,當下做大模型的人,關注的話題更接近現實。他們發現,數據是難題,算力也是難題,大模型這條路,前景美好但現實艱難。

  作者:任曉寧 

  卷數量

  7月6日至7日,在上海2023年世界人工智能大會召开的2天時間裏,據記者不完全統計,有10多款大模型新品發布或宣布即將發布。發布的公司有互聯網科技公司、創業公司,還有通信公司;而在大模型新品中,有通用大模型,也有專注細分行業的行業大模型。

  已經發布的包括:阿裏巴巴的繪畫大模型“通義萬相”、中國電信的類ChatGPT產品“TeleChat大模型”商湯科技聯合香港中文大學和清華大學等推出的“書生通用大模型體系”、第四範式專注企業軟件領域的“式說”大模型。

  7月7日下午,華爲宣布發布盤古大模型3.0。華爲常務董事、華爲雲CEO張平安在PPT最顯眼位置寫着“不作詩只做事”,他說,盤古大模型聚焦價值場景,致力於深耕政務、金融、制造、煤礦、鐵路、制藥、氣象等行業。比如氣象行業,盤古氣象大模型可以在相同的空間分辨率下,比歐洲氣象中心的operational IFS速度提升10000倍以上,同時保持極高的精准度。

  而即將發布的主要大模型產品也有不少。京東將在7月13日發布的千億級“言犀大模型”,中國移動將於近期發布“九天”1+N大模型,醫渡科技稱正在研發醫療大模型,並將於近期針對部分目標場景推出小範圍邀請測試。奇安信集團董事長齊向東表示,正在研發安全行業大模型,面向政府和企業客戶;10月24日,科大訊飛將發布通用大模型,全面對標ChatGPT。

  在5月底舉行的中關村論壇上,有專家披露,據其統計到當時爲止,中國10億級參數規模以上大模型已發布了79個。如今,隨着世界人工智能大會上批量發布的一批大模型,百模大战也已經正式打響。

  卷垂直

  年初ChatGPT在國內爆火後,大模型的熱度持續至今。中金公司一位高管在大會論壇上說,他過去3個月參加的一半以上的會都是人工智能相關的,“似乎不談ChatGPT,大家就要玩完了似的。”

  這種熱度可以解釋爲何直到現在,仍有衆多公司還在繼續發布大模型。不過,隨着人們對大模型認知的增加,大模型的問題也逐漸凸顯,成爲需要直面的挑战。

  圖靈獎得主、中國科學院院士、清華大學交叉信息研究院院長姚期智認爲,未來大模型應用中最直接影響的就是文書工作,作爲生產力工具,許多文書工作可以交由大模型來完成。

  作爲文書領域的重要玩家,金山辦公也發布了他們基於大模型的AI辦公產品“WPS AI”,可以潤色文章,自動制作表格和PPT。用戶可以讓AI把一篇提綱制作成PPT,並能隨意更換PPT風格。

  “WPS AI”搭建在MiniMax、百度文心、智譜AI等大模型之上。金山辦公CEO章慶元在大會現場表示,金山辦公將WPS AI定位爲大語言模型的應用方,未來錨定AIGC(內容創作)、Copilot(智慧助手)、Insight(知識洞察)三個战略方向發展。

  同樣在7月7日當天,語言智能科技企業蜜度發布了專門針對校對垂直行業的大模型,名爲“蜜度文修”。蜜度首席技術官劉益東告訴經濟觀察報記者,蜜度深耕語言智能領域已有十余年時間,擁有龐大的專業數據語料。今年ChatGPT火了後,他們嘗試做了一個校對領域大模型,訓練出來的效果很令人震驚,在垂直領域的效果遠遠好於通用大模型。

  劉益東還提到,做垂直行業大模型的成本比通用大模型低很多。他們的校對模型,只拿百余張卡訓了一個多月的時間,做了幾輪比對實驗,效果就已經達到可以發布的程度了。

  卷進度

  新的大模型不斷湧現,之前已經發布的大模型公司也不甘示弱,在7月6日、7月7日公布了最新進展。

  今年4月10日,商湯發布了通用大模型產品“日日新”。7月7日,“日日新”更新到2.0版,商湯集團聯合創始人、董事長兼CEO徐立現場展示了大模型新能力。

  徐立用他自己的照片做案例,生成了“一個戴眼鏡的男人,彈吉他”的圖片,這是他沒有做過的事情,生成後發給家人朋友,很多人都信以爲真。這些AI生成圖片的細節達到了照片級。他還展示了AI繪畫的功能,現在商湯大模型可以幫用戶補充提示詞,比如,一個用戶輸入了“中國龍,藍色擺件,珠寶風格”關鍵詞後,AI生成了一條龍的普通圖片,大模型可以自動把提示詞補充爲“一個中國龍的3D渲染圖,具有極其精細的圖案,龍站在一個藍色瑪瑙海上,添加深度和神祕感……”,AI生成的新圖片藝術感增強了許多。

  徐立說,4月發布大模型後,商湯每周都在對大模型做迭代。此外,針對行業需求,他們也在大模型基礎上推出了小模型。

  作爲國內首個發布大模型的互聯網大廠,百度也在人工智能大會上公布了“文心一言”最新進展。百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰稱,文心大模型3.5效果、功能、性能全面提升,實現了基礎模型升級、精調技術創新、知識點增強、邏輯推理增強等,模型效果提升50%,訓練速度提升2倍,推理速度提升30倍。

  此外,做大模型的公司們,當下也正在努力搭建生態,建立標准。7月7日,百度、華爲、阿裏巴巴等企業被工信部中國電子技術標准化研究院(簡稱“電子標准院”)授予“國家人工智能標准化總體組大模型專題組”組長單位,正在積極推動大模型國家標准體系建設,助力中國大模型產業發展。

  卷算力

  與3、4月份人們充滿期待的科幻想象相比,當下做大模型的人,關注的話題更接近現實。他們發現,數據是難題,算力也是難題,大模型這條路,前景美好但現實艱難。

  “算力是人工智能產業創新的基礎,大模型的持續創新,驅動算力需求的爆炸式增長。可以說,大模型訓練的效率或者是創新的速度,根本上取決於算力的大小。”華爲輪值董事長胡厚崑判斷,伴隨大模型帶來的生成式 AI 突破,人工智能正在進入一個新的時代,算力已經成爲越來越稀缺的資源。

  華爲目前正在着手解決算力問題。7月6日,華爲宣布旗下算力解決方案昇騰AI集群全面升級,集群規模從最初的4000卡集群擴展至16000卡,爲業界首個萬卡AI集群。此前,騰訊雲也面向大模型發布新一代高性能計算集群,算力性能較前代提升高達3倍。

  不過,當前的算力仍有很大挑战。一位大模型創業公司人士告訴記者,大模型的研發成本非常高昂。僅算力一個領域,做訓練、推理、數據處理,就需要數千卡並行的能力,這是一套非常復雜,也非常費錢的系統工程。

  清華大學電子工程系系主任汪玉舉了一個例子,若同時處理14億人的推理請求,需要10*24 FLOPs(模型計算力),這個數字超過中國數據中心總算力的3個數量級。

  “現有GPU硬件平台的算力仍難滿足大模型的需求。”汪玉說。即使現有的最好的芯片,想解決算力問題也仍有很大挑战。

  算力之外,大模型數據也有挑战。一位做智能汽車的創始人苦惱於數據量太大,他們公司剛賣了1萬輛汽車,但產生的數據已經讓他覺得很龐大了,他不敢想象賣到10萬輛車時會怎樣。硬幣的另一面,也有人因爲數據不夠而感到困難,一位用大模型做生物醫藥研發的人士說,他們最缺的就是數據,這阻礙了他們研發醫藥的速度。

  騰訊高級執行副總裁湯道生表示,通用大模型一般基於公开信息來訓練,在許多專業知識和行業數據積累不足。在策略上,通用大模型有點像“把大海煮沸”,不夠聚焦,可以解決80%的問題,但未必能夠滿足企業某個場景的具體需求。

  徐立也提到,大模型的幻覺性問題仍很嚴重,是需要解決的問題。幻覺性問題是自然語言處理領域中的基礎問題之一,指文本生成模型的生成結果中含有與輸入事實上衝突的內容。這些問題造成了大模型“一本正經的胡說八道”現象。

  除此之外,清華大學智能產業研究院院長、中國工程院院士張亞勤提到,當下大模型仍有自己的局限性。比如ChatGPT會有時效性問題,你問它它是什么時候發布的,它不知道,因爲它使用的是2021年9月前的數據。另外,大模型還有效率低、涉嫌侵犯隱私和知識產權保護問題等,這些問題都將影響大模型的商用。張亞勤認爲,大模型效率至少還要提高10倍,才有大規模商用的可能性。

責任編輯:劉德賓



標題:大模型內卷:2天發了10余款,百模大战开打了

地址:https://www.utechfun.com/post/235357.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡