來源:華爾街見聞
“百模大战”正酣,誰能真正脫穎而出?
12月28日消息,創新工場董事長兼CEO、零一萬物CEO李开復在接受媒體採訪時表示,中國人工智能領域的競爭仍然處在預選賽階段。在經歷行業大“洗牌”過後,最終只有幾個大贏家,還有部分企業可能會體面地退出,但大多數企業要么半途而廢,要么轉向更實際的目標,比如爲特定行業構建應用和解決方案。
李开復表示,中國的大模型公司正處於技術驗證階段,它們需要證明自己有能力开發出高質量的模型。而那些通過考驗的公司將邁向下一階段,即如何增加收入並實現盈利。
在談及中國AI公司前景時,李开復稱,他更傾向於在全球範圍內展开競爭,未來有機會爲不同的國家構建不同的特殊模型。
今年夏天,李开復闖進了大模型的賽道,創立AI公司零一萬物,並在上月發布了預訓練大模型Yi-34B。與此同時,零一萬物已完成新一輪融資,估值超過10億美元,在成立不到8個月的時間即躋身獨角獸行列。
李开復在採訪中還談到芯片庫存問題,他稱現有的庫存足夠零一萬物使用18個月。
以下爲李开復接受科技媒體“The Information”採訪全文:
問:中國目前有數十家公司都在开發大語言模型,接下來會發生什么?
李开復:我認爲中國以前也曾出現過很多類似現象,例如團購風潮、共享單車應用的興起,以及在深度科技領域,比如計算機視覺和語音識別技術。當計算機視覺證明取得了突破性進展時,無數中國企業爭先恐後地湧入,試圖在這個行業分一杯羹。然而,大多數企業最終並未能生存下來。中國是一個競爭非常激烈的市場,甚至可能比美國還要激烈。
目前,中國人工智能領域的競爭仍然處在預選賽階段。首先面臨的考驗是:在百家爭鳴的競爭中,哪家公司能开發出真正有價值的高質量模型?只有模型表現出色,才有可能在實際應用中嶄露頭角。否則,它會更像是一個玩具,而不能解決實際問題。
在預選賽中通過技術考驗的企業將進入下一階段:商業價值階段。你的商業模式是什么?如何盈利?很快,投資者將根據這些公司的損益表來評估其價值,並提出與雲服務提供商、企業軟件公司和消費者應用程序相同的問題。如果企業無法回答這些問題,那么它們的增長將面臨終結。
在美國,OpenAI已經證明它擁有世界領先的技術,並且能夠創造收入。由於它創造了足夠的價值,人們愿意在其上構建應用程序並爲之付費。
而在中國,我們最終只有幾個大贏家,還有部分企業可能會體面地退出,但大多數企業要么半途而廢,要么轉向更實際的目標,比如爲特定行業構建應用和解決方案,而不是單純地追求大模型的研發。隨着時間的推移,开發大模型的成本將越來越高。
問:中國AI初創公司及其投資者表示,中國將爲生成式AI模型和應用开發自己的生態系統。你對此有何看法?
李开復:我們都不想看到平行宇宙的出現。我們更傾向於在全球範圍內展开競爭,讓真正出色的公司脫穎而出,這樣效率才更高。但是,我們無法完全掌控自己的命運。
如果我們想進入美國市場,雖然沒有規定說我們不能進入,但我不認爲我們會得到很多業務。當前美國市場對中國軟件存在一種不公平的偏見,這是我們不得不面對的現實。
我們對中國以外的商機持开放態度,但我們完全理解,有些事情是不可能的。比如,將我們的專有模型賣給美國公司是不可能的。他們不會購买,我們也不會做無用功。
中國顯然蕴藏着巨大的機遇,但我不會將世界其他地區排除在中國公司可能進入的地區之外。一般來說,硅谷的做法是一刀切的,這或多或少對Facebook和谷歌等公司的崛起中起到關鍵作用,並幫助美國取得了市場主導地位。
但這次有所不同,因爲大語言模型是在數據基礎上進行訓練的。而數據伴隨着偏見、意識形態和價值觀的問題。美國的價值觀在某些國家並不受歡迎,甚至不被接受。中國不會是唯一的國家,我認爲中東是另一個可能希望以不同方式思考問題的地區。這將導致各國希望對其模型有更多的控制權。
我確實認爲,有機會爲不同的國家構建不同的特殊模型。這是硅谷公司自然不會做的事情,因爲他們覺得自己的價值觀是正確的價值觀,並希望更多的人能夠接受並融入其中。而且,爲不同市場構建不同的大模型,需要大量的工程工作。因此,硅谷公司不愿意开發這類模型。包括中國在內的世界其他地區的公司,可能有機會研究這種模型。但顯然,他們必須贏得用戶和各國政府的信任。
問:有媒體報道稱,你們公司成功降低了Yi-34B的AI訓練成本。你們是如何做到的?
李开復:我們擁有超級強大的基礎設施團隊,他們可是我們公司規模最大的團隊。我之前就跟員工們說過,每增加一個建模人員,GPU的負擔就加重一分。但是每加一個基礎架構人員,GPU的效率就能提升一些。當然,我們也需要強大的建模團隊,但從一开始,我們的首要任務就是建立一個強大的基礎設施團隊。
基礎設施團隊的成員就像是無名英雄一樣。他們得負責硬件、軟件還有海量的數據傳輸,得同時處理GPU、內存和網絡,這三者中的任何一個都可能成爲瓶頸。
要知道,GPU很難擴展到數千以上。從2000個增加到8000個的時候,你不可能簡單地用軟件就能搞定,因爲隨着你轉向更大的模型和更大的數據集,網絡需求也會發生巨大變化。
我們的基礎設施團隊裏有好幾十名工程師,是目前零一萬物最大的團隊。他們的工作包括研究怎么使用FP8(英偉達H100芯片的一種數據格式)來大幅減少計算量,還要弄清楚在哪裏使用FP8,在哪裏使用其他數據格式,以及如何無縫地轉換它們。
除了這些,他們還得解決一系列頭疼問題,比如應該使用什么網絡協議、怎么優化編譯器、怎么處理GPU故障等等。實際上,GPU經常出故障。要是一個GPU出現故障,可以熱插拔呢?我們仍在努力解決這個問題。如果在一個擁有上千個GPU的集群裏,就因爲一個GPU故障而讓你的訓練停了一個小時,要是能進行熱插拔,那么每天就能節省一個小時。這些時間可以積少成多。
還有一個相關的事情就是彈性訓練。如果你有一個由2000個H100芯片組成的集群,而你只需要500個來執行某個任務,那你可以在檢查點之間把它們移除,然後再添加回來嗎?這些任務並不是AI研究人員該幹的,而更多是屬於網絡工程師的工作。
如果把大語言模型的开發比作火箭科學,那么如果沒有工程師,火箭將會永遠飛不起來。SpaceX的成功不僅僅是因爲它有大量研究人員,還因爲它做了大量超級復雜的工程工作。
問:美國限制向中國出口先進半導體技術,包括英偉達的先進芯片。你是如何應對的?
李开復:我公开說過,我們的芯片庫存足夠使用18個月。這些芯片基本上是我們在限制措施出台前購买的。我們肯定在努力研究如何使用中國芯片,但這並不容易。對它們進行編程不是我們所熟悉的領域。但如果我們必須要這么做,我們也會勇敢地接受挑战。
英偉達的芯片非常出色,但有人可能會認爲,更簡單的芯片可以以更低的成本完成這項工作。但英偉達實力強大背後的一個主要因素是圍繞其CUDA軟件庫的整個生態系統,這使得編程變得相對容易。如果你強迫工程師們使用非英偉達的芯片,他們基本上會反對,因爲這類芯片的效率要低得多。
但我們目前面臨的困境要到18個月後才會顯現,而我們必須更早展开行動。如果我們無法獲得英偉達的芯片,我們將尋找更簡單、更專注於轉換器的芯片,但工程師們編程起來會很痛苦。可是,如果我們別無選擇,那就只能這么做。
衆所周知,中國工程師有能力、有決心,他們可以出色地應對這種被認爲艱巨的工程挑战。這與我之前所說的基礎設施團隊的工作類似。學習使用非常少的庫來對新的非標准GPU進行編程,也是一項艱巨的工作。
中國企業家是頑強的,中國工程師很勤勞,他們不怕繁重的工作。
的確,我們面臨有許多艱巨的挑战,你可以說他們是浪費時間和精力。但這是我們手中拿到的牌,所以我們會盡最大的努力打好這些牌。
標題:李开復:大模型即將“洗牌”,估計活下來的不多
地址:https://www.utechfun.com/post/310488.html