好好學習,充滿信心!力爭年底到六元。

2023-08-12 19:04:07    編輯: 凡人煩人
導讀 $商湯-W(HK|00020)$   全中國最懂人工智能的公司之一(商湯,靜默期結束,4月10號發布大模型),1個半小時,近3萬字實錄,解答你所有關於人工智能的困惑。由最具話語權的人解答真實的AI行...

$商湯-W(HK|00020)$  

全中國最懂人工智能的公司之一(商湯,靜默期結束,4月10號發布大模型),1個半小時,近3萬字實錄,解答你所有關於人工智能的困惑。由最具話語權的人解答真實的AI行業是怎么樣的,顛覆掉A股很多認知。


關於光模塊的幻想、關於國產芯片的能力,訓練用的誰的芯片,各大公司有多少算力,國內大模型和ChatGPT的對比,答案都在裏面。


一定是先要有一個通用的基模型,必須是全修的,各種各樣的數據它都見過,有了一個比較全修的這樣一個通用的防地去磨好之後,你再用垂直領域的數據再去做一個垂直領域的模型,這樣你垂直領域的這個模型的效果它才會足夠的好。


算力還是關鍵中的關鍵,大模型參數不代表好壞,文心2600億參數效果不如1750億的ChatGPT3.5,主要是訓練的不夠,打磨的不夠。訓練100次千億參數模型,可能能解決這些問題。


感慨一句,A股炒算力的標的都是非常遠期的,真正能馬上、立刻提供算力的還是商湯,訓練也是商湯給做的。單任務並行使用1000張A100以上不是容易的事情,在訓練用的還是英偉達的A100芯片。在短期內國產芯片並不能勝任大模型訓練任務,做做小模型可以,新一代芯片可能可以勝任推理。


包括很多應用,一句話,沒有誰可以高枕無憂。第三次流量分配到來,未來並不是一馬平川。



大模型:4月10日發布,畫圖功能超過Midjourney V4接近V5


之前沒有披露大模型是因爲處於香港的靜默期(意味着後續的交流會增加),4月10號,商湯會發布自己的大模型(之前就已經訓練好了,因爲靜默期一直不能披露),努力追趕GPT4,對於垂直用戶,必須有一個通用型大模型作爲基礎訓練的垂直大模型效果才會好。垂直應用面臨巨大洗牌,但是洗牌的基礎是你得有一個底層好的大模型。商湯希望成爲這樣的持續迭代的底層大模型。


GPT4 是 8 個月之前訓練好的(在微軟投資之前),只用了1萬張V100,400號人。GPT4 是目前世界上唯一一個模型,可以去打敗90%大學生的比例,而且是通修的大學生,其他模型連高中都考不上。國內這方面落後了,很多崗位的就業最基礎要求是大學生。但是手裏有1萬張GPU很快就能考上大學了。


商湯是最早把人工智能大模型寫入招股說明書的公司,2020年就有相關的研究。但是大部分人不知道怎么實現大模型,目前行業知道了,只需要基於大量數據去訓練,可以產生湧現,這是一個重大發現。目前商湯的模型也出現了湧現(湧現不局限在語言,圖片等領域也一致)。


商湯的大語言模型,不需要把中文翻譯成英文做訓練,再翻譯回來。是原生的訓練。作圖能力超過到 midjourney 第四代版本的能力,接近第五代的能力。


將發布虛擬人生產數字平台,能夠直播賣貨、生成視頻等等,中標四大行的數字平台。


參數量不是號稱越多越好,需要解決很多問題,很多參數都是湊的。怎么樣達到比較好的效果。訓練 100 次,千億參數量就行。訓 100 次你才能夠把這裏面所有的這些需要解決的問題,工程上的一些點,優化上的一些點,所有的一些這個技術的這個邊邊角角的一些細節都能做好 100 次,中國和美國。


流量重新分配,大家要知道這件事情可能每 10 年才會發生一次流量重新分配,第一次。第一次就是互聯網出來泡沫之後。第二次就是移動互聯網頭條出來,流量分配今年开始第三次流量分配,你的互聯網 APP 如果有很強的 BGM 能力,那用戶就會用它用的越來越多,沒有任何人在當下是可以高枕無憂的,所有的公司在當下都不能夠高枕,巨頭都不能,谷歌都不能告訴你



大裝置:國內主要大模型訓練的來源


商湯科技歷史融資60億美金,30億投入了“大裝置”(人工智能訓練平台),訓練出來的視覺大模型是全球第一的。公司是真正的AIDC,目前大裝置一期有5000個機櫃,90%在使用,二期建完共有1萬個機櫃,總算力超過 10X false,10000 P 的一個算力。


商湯A100充足,在停售前擁有1萬張A100芯片。訓練一個百億參數量的視覺模型,對於算力的消耗是等同於訓練一個千億參數量的語言模型。


爲什么商湯對外开放“大裝置”,訓練模型需求是波動的,只訓練自己的模型,成本和風險會非常高,後面還有4、5、6代模型要訓練,投入越來越大,綁定更多的合作夥伴,成爲平台本身——“衆籌”算力,獲得長期長跑的能力


臨港大裝置有2.7萬張顯卡,已經用了海光和寒武紀,並做了國產適配,商湯是寒武紀的第一大客戶。坦白講就是這一波的大模型訓練,確實是目前只有 A100 和 A800 能夠真的跑得起來。目前國產GPU只能做小規模和中規模的訓練和推理。


商湯訓練大模型已經5年了,調動上千張GPU卡,需要非常難的架構,商湯在這方面技術非常領先。目前可以做到7天不斷點,OpenAi兩三天就會斷點一次,因此商湯准備輸出訓練能力。


A股的上市公司,大部分沒有GPU,或者买不到A100和A800,算力來源基本上是商湯。擁有5年的單任務並行運算1000張卡的經驗(還能對外輸出,國內獨家),能夠用 4000 張 A100 卡跑出1萬張的A100等效算力。目前有八個大客戶在訓練,還有n多家客戶找過來要訓練。


大裝置不僅是一個資金的一個投入的問題,賣給客戶的是時間,可以讓需要訓大模型的客戶在一個月之內數據搬上來,一個月之內把你的千億參數的模型去年跑通,然後再過一個月你就可以出結果。



文字記錄:


PART 1 大模型常見問題


聯合創始人、執行同事徐冰先生來跟大家來做個交流,那下面我把時間交給徐斌先生,大家歡迎。這種現在看得出來大家都非常關注人工智能這個行業。我們前段時間一直處於靜默期,因爲這個港作爲一家港股創始公司,這方面都有一些要求,所以我們一直以來沒有對大家披露商湯的這個大模型,以及通用人工智能 AI GC 的一些研發進展。那么我們也是從上周开始業績公告之後,然後才正式开始路演。


給大家去做一些這些方面的這個情況的一個更新,因爲大家也可以看到就是說。這個大模型這件事情,實際上很多公司在歷史上可能都是踩空的,因爲它確實是一個有極大的一個投入,並且歷史的商業回報和商業變現模式都非常不清晰的這樣一個狀態。


那么我知道我現在全球範圍去看,就是說通用人工智能已經變成一個必然的趨勢。然後在今年大家也經常聽到一些說法,就是今年是通用人工智能的元年,我們這個在上周像 Bille、mask 等一批人开始去呼籲我們暫停一下這個通用人工智能技術的研發,然後擔心的這個距離。4 能力已經非常出衆了,那如果持續迭代到GPT5、GPT6,那會不會出現一些失控的局面,對吧?就是那這件事情。


我們也有很多的這些這個人來問我們一些問題,那確實我們自己也有一定的這個顧慮,確實是啊,就是因爲在去年,去年截止去年是沒有人會感覺有通用人工智能具體的實現路徑的。那么通用人工智能的定義就是說人工智能的能力強到它可以跟我們每個人去媲美,對吧?你怎么去定義就是人類的這個智能?但現在基本上 GPT 4 達到的能力是說他已經可以媲美90% 以上的這種優秀的大學生的能力了,而且他是一個通修全科的大學生。也就是他不僅僅是在去修某一個咱們修的專業,比如金融或者法律,他是全科所有的東西同時都修,然後他可以在各個領域裏面去這個打敗 90% 以上的大學生,甚至像法律這樣的領域。


我們可以想象有什么樣的人可以去做律師?一般來說都是那些比較聰明並且比較努力的,經過 10 年甚至更長時間的一個這個培訓,上學、上基地實習,你才能夠 qualify 來去做一個律師,通過這個律師資格考試。那現在呢?在這樣的一些就是評估人類智能能力的這些考試上面,其實 GPT4 的能力超過了 90% 的人,所以再往上繼續去迭代。我們也知道就 GPT4 不是最近訓練出來的。


GPT4 是 8 個月之前訓練好的,也就是在 openai 拿到微軟的這今年 100 億美金的一個投資,對吧?在拿到他的這個新增的這個 3- 4萬張的 A100 的卡之前, openAI 用了相對有限的私有不到 20 億美金左右的一個資金,再加上這個1萬張 V100。就是 A100 的上一個版本就是 V100 的這個計算卡,openai用了少量資源,400號人。


然後能夠把這批死這樣的能力給做出來。我不知道咱們在座的各位有多少人用過GPT4,我身邊已經有非常多的人在去用,天天用它就是他的能力,就是說跟其他的模型是兩個物種。GPT4 是目前世界上唯一一個模型,可以去打敗90%大學生的比例,而且是通修的大學生。其他的模型的話就通俗的來理解。


其他的模型的話其實這個可能高中都考不上,就是他還是有一些這個實施的這個差別。那么就是說 openAI 用了相對有限的資源,然後在 8 個月前做出來這批次,並且用了這 8 個月時間做好這個lines,對吧?能夠讓他的能力跟人類的目標去align,尤其是跟這些,這個就是價值觀正確的人的目標需要按,而不去跟那些邪惡的人的目標去來是吧?所以他用了 8 個月時間做好了版本才釋放給公衆去那工作時間之後,也是這個非常的驚訝,那么就是這也是剛剛發生半個月的事情,所以這件事情。


其實是觸發了大家很多的這種討論。就是我們進入了這樣一個通用人工智能的時代,那這個時代到底意味着什么,對吧?對我們在座的每個人意味着什么?那其實這個可能我們去看整個律師行業,整個律師行業有可能很快速的發生大的變革,也就是現在整個律師行業,對吧?律所的業務沒有擴大一倍,但是律師的工作能力擴大了2、到 3 倍。


那這個結果是什么呢?這個供需不匹配,在需求不變的情況下,你可以產生兩三倍更多的這樣一個供給,就是法律意見,各種各樣的協議。那這個就自然會引發這樣的這個行業的一個變革。可能有大量的流失,就需要去轉行了。在這樣的一個就是競爭之下,所以有句話說,會用 GPT4 的人會用這些通用人工智能工具的人,會把那些不會用主工具的人給取代掉。這裏面行業和行業的競爭是非常。


它不是影響了某一個和兩個的。那上周有一個統計報告出來,整個歐洲加美國有3億個工作崗位就是白領,3億個工作崗位會被通用人工智能技術去影響,那這個影響實際上是非常大的這樣一個影響,對吧?但對於中國來看的話,在我看來可能稍微的反應慢了半拍。我們整體國內現在的 cash 是屬於落後的一個cash,沒有任何一家公司截至目前能夠拿得出來一個考上大學的通用人工智能的這個模型。因爲考不上大學的這條线是非常重要的一條线。


因爲我們很多很多的這個就是生產活動裏面對於人的素質的要求,是大學生的要求,尤其是咱們所從事的這個白領行業裏,我們對於人的素質要求是大學生是最。


基礎的這樣一個要求。那如果我們做出來的通用人工智能模型你是達不到大學生的標准的話,那它的這個應用性和實用性都還是相對比較有限的。所以現在就是說據我了解,我們幾家手上有超過1萬張的 AE 版的GPU很快這樣,夠考上大學的。


所以我們本身就是說這周开始的實際上是一個業績路演。但是我在上周在香港的這個四天的時間,我們大概見了不到 30 家機構,幾乎沒有人問我們業績了。


沒有什么好業績問題,大家討論的問題就是都是你們有2萬張的 GPU 卡,你們這么早就开始做 foundation model 是吧?因爲我們是把 foundation model就是就是人工智能大模型寫到招股書裏面來,在 2020 年年底上市的時候,就介紹商湯是如何做房地直播的,做大模型,做通用的視覺能力,然後只能夠是解決各行各業的,這個就是小模型生產的這樣一個大批量生產的問題。但實際上在過往需要就是通用人工智能,基於超大模型能夠實現這件事情是並不是一個公式。


大部分人不知道怎么實現通用人工智能。但今年這件事情變成了一個共識,基於通用人工智能,基於這個 foundation model,基於大量的數據去給 foundation model 去訓練它,用超大功能的算力去訓練它。那么最終你能夠實現超大神經網絡的能力的湧現,就湧現實際上是個關鍵詞emergent。


大家去看這個方面的一些報告也提到了,就是這件事情是沒有人能解釋的, openAI 自己的技術人員無法解釋爲什么會有湧現,所以它實際上就是說非常神奇是一個discovery,它是個明星。discovery 對於一個現象就是超大規模的神經網絡,就是這個 artificial neural network,他有能力去,他有這個做到一定規模之後,他就可以把各種能力湧現出來。他不是把design,他不是一個event,他不是一個發明,而是一個發現。就像物理學定律一樣,它一直存在在那裏,只是以前沒有人做到那條規模,所以大家都不知道,就是把這份流量壓過來最終只要把它做大。這個 NLP 自然語言領域的這個數據也都是互聯網上爬取的。


這些,可能大家也都能夠去爬的這樣一些公寓的數據爲主5000 億個單詞、 5000 億個 token 給他訓練這個 1750 億的這樣一個網絡,他能夠把這個就是 5000 億單詞所包含的這個對於這個世界的描述,然後進行壓縮學習到了這個世界的一個表示之後,然後它展現出來了各種各樣大家無法解釋的這樣一個能力的湧現。像翻譯,像多輪對話,我要像長文的這樣一個生成等等等等。那這樣一個現象的發現其實等同於什么呢?等同於我們把這個窗戶紙捅破了,就如何實現 AGI 的這個窗戶系統,包括所以現在就是說這個就是美國各大廠商、各大互聯網公司都在這個超大模型上面去投入了很多的資源,並且中,當然中國這邊也是一樣,大家都已經這個投入非常多的資源來去做了,並且我們都驗證了湧現這個現象。


就是谷歌的模型也有了湧現這個現象。百度文心一言也有了一定湧現的現象,指定湧現能力還沒有那么的強,對吧?我們的模型也出現了這個湧現的一個現象,那這些數字我就不一一去過了,就是說這個整體去看就是確實我們這個歷史上就是其實在今年 open AI 拿到這 100 億美金之前,商湯其實是在全球範圍之內融資規模最大的一家人工智能創業公司。好,我們歷史上是融了 60 億美金,其中我們投入了30多億美金才擁有了咱們在這個圖下面看到了我們的這個人工智能基礎設施,我們叫大裝置,它幫助我們不停地去訓練、修煉這些大規模的通用模型,我們是全球第一個把這個視覺能力做到超過人的,並且這個訓練的這個就是全球最大的視覺模型, 300 多億的這個參數量,然後在各種評測標准上都取得了全球第一。比如說這個Imagenet,就大家知道這個openAIDE。


首席科學家之前是做Imagenet,做視覺神經網絡Alexnet,對吧?它是那個發明人之一,我們也是在 English 保持了全球第一的這樣一個准確率的,這個就是成績。然後我們在新版的 image 上作用Microsoft。


Coco 上面也是全球第一,我們在這個谷歌的 Vimo 就是自動駕駛的這樣一個評測基准,谷歌的 we more challenge 我們在去年是拿到了全球第一,所以我們的這個通用視覺能力已經是展現了,我們講的就是說在超大模型的這樣一個迭代之下,極強的這樣一個表現。


這個那訓練視覺模型,歷史上訓練視覺模型其實是機器消耗算力的朋友們,訓練一個百億參數量的視覺模型,對於算力的消耗是等同於訓練一個千億參數量的語言模型。所以這也是爲什么我們歷史上去訓這種超大規模的視覺模型的時候,需要去投很多很多的开盤。所以我們就是說非常幸運的在英偉達對整個中國市場去停止售賣它的這個高端 GPU A100 系列,之前,我們已經有了超過1萬張左右的 100 的一個芯片,這也是我們在上海臨港的就是咱們的這個大裝置,就是投資 50 億規模建成的這樣一個大裝置,在那個時間點在去年开業,對吧?去年年初开業,我們爲了去建這個大裝置,其實過程之中採購了非常多的這個 GPU 卡,那我們一共有 27000 張的這個 QQ 卡,這裏面也包含一些國產的。


QQ 卡,比如說寒武紀的,再比如說海光,就這兩家公司我想最近可能很多投資人都很關注。那么如果大家在去年有去參觀我們的大裝置的話,你們就應該看得到我們在大裝置裏面已經適配了寒武器和海光的這種 GPU 卡,我們是寒武紀最大的客戶之一,咱們去這個很早就开始跟他們合作去適配國產的這個 GPU 卡,但坦白講就是這一波的大模型訓練,確實是目前只有 A100 和 A800 能夠真的跑得起來。


那么就是國產的GPU 目前僅能去做小模型和中模型的這個訓練和推理。那寒武紀有一款最新的GPU,它是能夠做得了大模型的推理的,對他訓練這件事情,其實這個易用性和性價比沒那么好,是吧?但是推理這件事情,寒武紀的最新款的這個可以去比較好的支撐的。對我們還有百度做了解,其實都在跟他們繼續對一些大模型推理的這樣一件事情。


好的大模型的訓練確實是非常消耗算力的,但是大家知道,就接下來其實大模型的推理,也就是等他服務終端用戶服務的量非常非常大的時候,對吧?比如說一個query,你問他一個問題,他給你反發這個答案,就這一個query。它對於這個算力的這個成本消耗就已經是很難負擔了,就是這個 10 美分接近一塊錢人民幣的這樣,那如果有幾千萬的用戶天天在這裏面去,對吧?大模型的這個應用去問各種問題的話,大家對於這個成本的想象可想而知,所以這裏面。


最大的成本是什么呢?就是芯片的承諾,所以這是爲什么?英偉達也在最近推出來了,就是應用於大模型推理 transformer 推理的這個專門的加速芯片,對吧?H100 系列的這個芯片其實從這個性價比上是有一個蠻顯著的一個提高的,那像就是國產的幾家 GPU 廠商我們也了解,就是說這個他們也能夠用得到,就在他的這個大的 GPU 這件事情上,能夠支撐這個大模型的推理。但是如果咱們去考慮性價比的話,依然還是因爲咱目前的這個芯片,不管是從訓練還是推理上訓練都不是最好,這是我們現在可能比較經常會問到的一些問題,提前先拋出來給大家一些比較有用的信息。


PART 2 商湯大模型&大裝置


視覺模型領先


就說商湯的話,我們這個一直以來是做視覺的這個大模型做到了最大的這樣一個規模,然後大家知道這一波的這個語言的大模型,它的這個技術突破其實本身跟自然語言技術相關性並不大,所以如果大家去訪談過一些專家,或者找一些行業的人聊,所以說可能會有人發現就是所有的做歷史上做自然語言的這樣一些這個公司,其實它的競爭優勢都被抹平了。因爲這個大的自然語言模型它其實雖然叫語言模型,但實際上它是更多的基於深度學習和超大規模的這個神經網絡相關的這樣一些能力來實現的這些群體,那么沒有用到什么 NLP 定位這樣一些專家知識。我們訓練這個 180 億的這樣一個參數量的語言模型,其實在這個業績攻奧之前就已經訓好,那么經過幾輪迭代之後,我們這個模型也已經开始對接一些客戶,我們做接口的這個測試了,那視覺這一塊的話,我們也是歷史上一直保持這個全球第一的這樣一個位置。像谷歌訓練的這個visual transformer 也是 200 多億的參數量規模,也小於我們的這個 320 億參數量規模。這個視覺模型我們也訓練了一系列的文森2,模型就是生成出來的圖像效果也非常的逼真,一會給大家看一下。


商湯呢?其實訓練大模型已經 5 年歷史了,就我們是在 2019 年,我們就已經是英偉達的這個中國的大客戶之一,然後採購大量的 QQ 卡,我們在 2019 年就實現了 1000 張GPU,是做這個單任務的並行計算上千張 GPU 相連做單任務的這樣一個訓練計算這件事情,對於系統對於架構的要求其實是非常高的。


對吧?我們在 19 年就創造了一個記錄,就是訓練 Alex NAP 全球速度最快這樣一個世界紀錄。當然就是說可能在這一波的大模型突破之前這個確實這樣的一些技術成就受到關注這個其實非常的少。但現在如果真的發過去看的話。


我們在 19 年就給我們奠定了一個很好的系統和架構的能力,讓我們能夠就是在訓練這種這個大型的神經網絡上,對吧?能夠調動上千塊的這個GPU,做到一個 90% 以上的加速,做到一個有效並行,並且我們的系統有什么好的一個穩定性,也就是我們可以做到七天以上不斷點,就我說七天以上不斷點,實際上是我們覺得非常值得驕傲的這樣一個技術架構成績,對吧?因爲即使像 openAI,在他們去訓模型的時候,他們的這個斷點率,他們的斷點率也是很高,兩三天可能會斷一次點,這在很多的這個他們公布的這個技術指標上是有提及的。那當然我相信現在這個就是很多的這個系統能力也已經提升了。那我們的系統呢?應該是在業界,就是說通俗來講就是非常好用的一套系統,專門用於做大模型的產出訓練。


那我們在 2019 年就訓練出來了 10 億參數量的視覺模型,我剛才也講過,其實 10 億參數量訓練模視覺模型的訓練,因爲視覺數據的體積比較大相較於語言數據體積表達以讀取視覺數據做訓練,它對於算力的消耗,訓練一個十億參數量的視覺模型就等效於訓練一個百億參數量的一個語言模型。所以我們到了 2020 年繼續擴大,到了 2021 年我們就可以到了百億參數量的這個視覺模型,就等效是千億參數量語言模型的這樣一個訓練能力了,已經實現了。然後同時我們這個。


就是說在招股的時候就已經 claim 了,我們在全球訓出了全球參數上最大的視覺模型 32億參數,並且展現非常強的通用能力,就是這個它可以識別彎路,就是它不只是聚焦在某一個特定的任務上做識別,而是它可以通用性強的去識別各種各樣的東西,並且我們在 2021 年也啓動了語言模型的這樣一個訓練的任務。團隊就在 2012 年逐漸地做自然語言,並且也獲得過一些這個競賽的這個冠軍。然後到了接近今年的時間點,我們這個很快去調動我們的這個他的資源,以及我們歷史上積累的這個數據,以及一些合作方這樣一些資源。


然後我們迅速就做了一個 1800 億參數量的這樣一個這個語言對話的一個模型。並且在過程之中我們也延伸出來了一個多模態的模型,並且先开源了一個多模態模型三室以參數量不大,但是它的效果非常好,他的視覺能力這個 30 以上的書生 2. 5 模型是我剛剛說的, image net 排第一,Microsoft,Coco 排第一。


然後 Google 的 Vimo challenge,自動駕駛的這樣一個視覺的challenge,我們也是排第一。那語言模型的話,就是因爲它參數量並不大,所以它有,但是並不強。它我們目標是在這個今年接近年底的時候,會推一個性能非常好的這個語言,就多模態模型,遷移參數規模的一個多模態模型。大家知道有 GP4 已經是一個多模態模型,它不僅用這個語言的,它有比較不錯的一個視覺能力,加入了這個照片數據作爲 token 來去做訓練。就爲什么照片數據可以作爲 token 呢?你大家可以想一想,一張照片你其實可以用文字來去描述它,比如說我們在這裏如果拍一張照片的話,我用 1000 個文, 1000 個字其實就可以把這個照片裏面幾乎所有的細節描述出來,能夠實現一個比較好的還原度,所以一同頂千言。其實文字語言是人類的一個發明,人類的進化過程之中最早的時候是沒有文字的,我們是考發明的這樣一個,就是這個工具來去描述來去描繪它的東西,我感受的東西。


所以人類或者說整個的這個物,動物其實都是視覺動物百分七十的信息,靠,已經過去了,那視覺信息是最原始的。這個信息當然是個非結構化的一個信息語言,實際上是個結構化的信息。


它實際上是總結了一些人類在進化過程之中感受的一些比較高頻次的這樣一些接觸的物體,和獲得的這樣一些感受高頻率的就會變成一些詞,比如說太陽,我們今天見到太陽它就變成了一個詞。所以語言實際上是對於我們看到的這個非結構化世界的一個抽象表達,對於語言跟視覺實際上是非常貫通的。就在通,在做這個通用人工智能的時候。


那么我們的目標的話就是說既然這層窗戶紙已經捅破了,對吧?實現通用人工智能的路徑大家都已經看到,就是通過超大規模的算力多模態的這樣一個能力。


最終來去讓他湧現越來越多的這樣一些這個多任務、多模態的能力。這是就是說我們現在能夠看得到的就實現通用人工智能的一套比較清晰的這個方向。


那我們呢?未來會遵循這個方向,然後去執行我們這個通用人工研發的這樣一個重要的一個任務。所以這個就是我剛剛說的,我們在歷史上非常有前瞻性地去投資了50個億建成的,就在特斯拉超級工廠旁邊,不知道大家有沒有這個機會去看看過。就是我們這棟樓其實還是蠻壯觀的,它實際上是一個就是大型的這個AIDC中間的這個部分是辦公的,這兩邊全都是機房啊,有 5000 個這個機櫃。


然後我們這是第一期已經建完了。大家看到後面這個藍色的房子是第二期也有 5000 個機櫃,那它一共是有1萬個機櫃。1萬個機櫃建完之後,他總的算力費用就超過這個 10X false,就是10000 P 的一個算力,我們現在的第一期建完之後機器已經上架,並且使用率百分之九十多以上,是吧?因爲大家可以想象現在很多人來去找到我們來去使用這件事情。


使用我們的這個基礎設施來去訓各種自定義的這個大模型。我們也把我們的基礎設施开放出來,來去不只是支持我們自己的這樣一個多模態大模型的迭代,我們也支持了很多國內的這些這個龍頭的企業,像什么 a 股的一些上市公司,還有一些這個市場上現在非常活躍的創業公司。其實現在你想想他們的算力在哪來,他們是在用誰的GPU?因爲現在是 A100,是买不到的對吧?A800是上個月才剛剛到貨,一些是已經4 月份還會到貨很多 A800,那么他們的算力作爲一個必要的生產要素。


從哪裏來,對吧?因爲以前只是一個生產要素,但這裏面現在有一個生產要素就非常非常稀缺很緊俏的。


A100存量有限,這個就這么一個資源。那從哪裏來?其實我們這邊是這個,這個就是承接了當下過來的一波的這樣一個需求。那這裏面就是我們有五年以上的千卡並行的這樣一個訓練經驗,我們最大的這個單任務訓練可以調動 4000 張這個卡, 4000 張 A100 卡的等效算力是等於1萬張的A100,也就是 openAI 用來訓 GPT3 及 GPT4 的這樣一個這個原生的這樣一個基礎設施,1萬張的這個唯一的,所以我們基礎設施端的話是足夠來去支撐我們以及我們的客戶去訓練這個通用性非常好的這樣一些能力出來。同時我們還有 500P 左右,大概 10% 左右的這個算力是由國產 GPU 卡產生的。那么這裏面這個就是目前市場上主流的BPO 們都在我們的這個平台上有適配,其中規模最大的比如說像寒武紀海光,然後再往下一點,像升騰等等,都在我們這邊有一個提供這么一個國產算力,是對異構的集群,也就是本身去使用這個國產算力的客戶,你其實並不需要知道你底下用的是哪一款GPU,它產生的這個算力其實可以完成不同的公司所做的這個GPU。那就是我們目前的這個算力規模可以支持 20 個千億參數量的一個超大模型同時計算,同時訓練。那么大家知道千億參數量超大模型用 1000 張 GPU 卡做訓練的話,差不多消耗的時間是在這個半個月左右的這么一個時間,那 20 個的話,也就是說同時在這一個月之間就可以訓練,對吧?40個40次這樣的這個遷移參數上的這個創意,這對我們的這個技術迭代,對我們客戶的這個技術迭代的一個速度是有非常好的一個幫助的。


那當下就比較有挑战的是什么呢?


比較有挑战就是國產GPU。目前是不太好能夠去支持超大模型的這個訓練,所以這件事情還需要很多的這個投入去做這個優化。目前就是說這個還是英偉達的這個 GPU 是不二之選,基本上就是這個國產大模型的訓練。但從推理上來說的話,剛剛也說了計劃國產是展現了一定的能力,所以這也是我們在業績公告時候給大家介紹的,就是說我們自研的各種各樣的這個大模型,是大概消耗了這個這個一半多的這樣一個算力規模,那同時我們有接近一半,因爲就是已經不到一半接近一半這個規模實際上是持續對外去提供這個算力,並且這兩者之間是有彈性的,也就是我需要消耗的任務多的時候可以去佔用更多的算力。客戶這邊需要消耗算力多的時候,也可以去佔用更多的算力,所以這是這個人工智能基礎設施最大的優勢。它其實是彈性。


因爲訓超大模型這件事情它不是一成不變的,它會有峰值,消耗比較多的時候也會有低谷,對吧?消耗比較少的時候,所以服務不同的客戶,服務我們自己和不同會有助於我們實現更經濟的一個基礎設施的成本。有這樣一個成本效應,對吧?並且我們服務這么多客戶,也可以幫助我們的基礎設施來去跑一個長跑,就爲什么跑長跑重要?我們現在這個階段並不是做完一個考上大學的通用模型就結束了,我們還要持續地去保證這個模型要迭代提高能力,就對標這個第五,對標這個第六、第七等等,它是個 multiyear 的事情。接下來我們在人工智能就是通用人工智能時代,它實際上是一個資源消耗也比較大,門檻也非常高,並且它是個multiyear 的事情。這就是說新版的摩爾定律,每 18 個月這個地球上的這個智能的數量會翻一翻,就是在這裏面的這樣一個過程中的話,我們的打法是去以一個开放的打法,然後能讓大家來去一起衆籌,讓我們更好地有一個跑長跑的能力。


因爲如果我只支持我自己的這個大模型訓練,在這件事情上會變得非常非常的喫力,並且風險高,那么同時我們有很多外部客戶也可以幫助我們持續提高我們基礎設施的能力,是吧?這個幫我們有更好的這樣一些用戶的反饋,然後並且幫我們共攤這個成本。所以當然就是說投資人關注的是你今年這塊業務怎么樣。


那就是顯而易見,我們今年其實今年這個部分的業務實際上是非常好的一個增長,這。幾個我們目前的話已經在服務 8 家比較大的投入,再去幫助他們提供算力來去訓練他們自己的這個自定義的其他模型,還有很多的這個客戶找過來,因爲這個我們確實是市場上相對比較稀缺的、比較好用的。就這樣的一個成熟的基礎設施,我們自己都已經用了 5 年,打磨了 5 年,這個架構和系統以及上面相應的這樣一些模型訓練的工具,都是業界相對比較成熟的工具。


那這裏面有一些數字了,我們去年的研發投入是 40 個億人民幣,所以其實是在這一個領域我們比較聚焦的在這個投入規模上的時候,體量很大,我們歷史的三四年的時間也就上百億的研發投入,我們在开牌子基礎設施建設的投入也是百億的這樣一個,那我們有這兩個百億的一個投入才擁有當下的這樣一個能力。這是來自於說我們歷史上有 60 億美金的這樣一個,總的這個來自於投資人的這樣一個投資,所以這個才讓我們當下來這樣一個機遇,對,它的門檻實際上是非常高的,並不容易。


從 0 开始重新做一個能夠很快的這個出現這樣一個事情,不僅是一個資金的一個投入的問題,還有一個很長時間的一個消耗的一個問題。所以我們其實就是通俗點講,我們給大家賣的就是時間,我可以讓咱們的這些這個需要訓大模型的客戶在一個月之內你的數據搬上來,一個月之內你就可以把你的千億參數的模型去年跑通,然後再過一個月你就可以出結果,然後你就擁有了自己的這樣一個這個模型。當然很多模型現在並不是從零开始自己去,比如說它是基於开源的一個模型,或者說基於我們給的模型來去做的垂直領域的一些方傾,用了垂直領域的數據。


針對他所在的這個垂直領域,他所積累的這個數據做了一個方向,進一步提高了他在垂直領域的一個效果。那我還是想去有一點這個比較技術的一點想跟大家說明。現在只如果你只有垂直領域的數據,想從 0 去訓練一個垂直領域的模型,這種模型生產範式已經是過去式,這是行不通的。現在的模型生產範式,或者說人工智能能力的生產範式,一定是先要有一個通用的基模型,有一個 foundation model,這個 foundation model 是全修的,各種各樣的數據它都見過,有了一個比較全修的這樣一個通用的防地去磨好之後,你再用垂直領域的數據再去做一個垂直領域的模型,這樣你垂直領域的這個模型的效果它才會足夠的好,它才會享受到底下這個通用的仿地學貓的這個湧現能力。基於垂直領域的數據做一個垂直領域模型,這種是幾乎是有這種模型是有比較弱的有限能力,幾乎它的競爭力是基本上沒法跟基於通用的基模型再用垂域數據。


迭代出來的模型強,所以這也是爲什么說這個很多的這個垂直領域的客戶。在 AGI 時代該怎么去,不是說我自己手上的數據直接去拿出他訓練模型,而是說你要有,你要先有一個通用型能力強的模型,然後再基於它去做反權,然後蒸餾相關的這樣一些垂直應該知識出來,然後再把它這個應用給做好,所以當下我們其實迎來了一波就是說互聯網應用也好,各種各樣垂直工具也好,它重新洗牌的機會。但當然他重新洗牌的話,不管是什么樣的流量公司、 APP 公司,你重新洗牌,你的基礎是你需要有一個性能非常非常好的一個大模型。


那商湯的這個責任的話,其實就是把這個性能非常非常大、非常好的一個大模型能夠做出來,並且持續迭代它,持續增強的能力,改進它。那就是這是我們在4月 10 號,我們在4月 10 號會發布的這個模型。


所以我們這個其實已經訓完,就是我們業績公告的時候也給大家看了一下,所以大家看了這個 DEC 是我們業績公告的刪掉了這個,嗯,就是說就基礎的這個能力基本上都已經具備了,也是這個驗證了有限這樣一個現象。那么但坦白講我們的模型現在比GPT 還是有比較大的一個差距,所以我們的目標也是說基於這個接下來的。


這個投入,然後迭代,然後來去盡快地去這個追趕這個第四個這樣的能力,讓他能考上大學。看起來還沒有說是這個真的是實現一個像大學生一樣優秀的一個通用性。同時我們也講我們之前已經做出來了文森2的東西。


這個也是我們基礎設施的優秀,我們基礎設施的這個優勢就是我們其實這個手上的這個算力規模是讓我們可以很快地去訓任何有價值的模型,當然這裏面有很多我們自己的這個創新,所以大家可以看到我們的這個文森2的模型,其實不需要把中文翻譯成英文再生成,對,不會有設備碼的問題,我們是自己原生去訓練的,所以他甚至可以理解中國的古詩。


你可以用中國的古詩作爲提示詞、作爲 prompt 然後來去生成這樣的一些很有意見的一個照片。同時其實在就是當下非常火的這個 midjourney 第五代發布之前,我們是做的這個模型,效果超過他第四代的這樣一個效果。


這個他第四代是沒有結果的效果,他第五代名 journey 第五代,就現在咱們在互聯網上看到就是說非常非常逼真寫實的照片,是他第五代才具備的這個能力,然後比我們現在的這個整體的能力還是要強一些。但是我們還是在講。


比如說第一我們其實有這樣一個原生的去迭代和增強文森2能力的這樣的基礎設施,然後我們確實也在這個持續增強它,然後而且是它可以看得懂中文的這種方法。然後在中國這個市場上我們預計會比較不錯的這樣一個客戶,我們也會在4月 10 號把這個能力進行一個發布。我們還有比如說這個也是一樣,就是也是文森2就給這已經是有些客戶在做這個對接入他們的這個應用了,就是這個應用我想很多人都能夠猜得到是什么,就是電商賣貨,你給予一張這個衣服的這個照片,然後把這個材質拍得仔細一點,然後你就可以自動化的生成這些出來,這些都是不存在的,人都是生成出來的。然後這個的生成很簡單,你可以用簡筆畫一下,你想讓他擺的姿勢,他就可以按照這個姿勢,對吧?這是一個可控場景下的生成,這個叫可控場景下生成,把它生成出來的東西是你可以用一些條件來控制的,比如說生成出來的這個的資質,這也是我們這個就是虛擬人的生成平台,也是會發布的,就是說數字人就是數字人產品是在今年會是非常火爆的一個產品,就是在我是說這個領域還是我們看到。還是會還是有很多需求。我們前段時間參加了這個就是四大行之一的,就是一個數字人能力的評測了100 多項技術目標,我們所有的數據源都排第一,就這個最後是一個,就是說蠻明顯的這樣一個領先優勢,最後中標了這個四大行之一的這樣一個數字平台。就是數字人現在能用來幹嘛呢?就比如說他可以用來做那個直播賣貨。


在這輸入你是商湯數字人,介紹一下你的公司,它可以自動的把握。我是由商湯科技制作的數字人。作爲人工智能軟件公司,商湯科技以堅持原創,讓 AI 引領人類進步爲使命,以人工智能實現物理世界和數字世界的連接促進。


這我就不放完了,就是這是我們的產品經理麗娜,這個她的聲音也是靠diffusion model 生成出來。這個聲音實際上是非常非常的跟人聲是接近的就是你如果我不跟你說這是非真人的話,你是聽不出來,它實際上是合成出來,所以聲音合成技術也是因爲這一波的 AIGC 技術突破,diffusion的突破它發生了一個變革,就是歷史上傳統的這種語音合成,對吧?比如說我們打這個,就是這種機器人給你打電話的時候,都能聽出來這個機器人在給你打電話,對吧?它的這個聲音其實跟真人還是有語調的頓挫等這樣的一些差別。現在基於 difusion model 的語音合成已經跟真人的聲音幾乎一模一樣你是區分不出來。


所以今年才有了這樣一些新的應用,比如說聽。


對吧?一本書他定義讀出來、朗讀出來,不是說有人提前給你錄好的,給你放,但是也 10 年課程,所以包括直播,對吧?現在很多直播,實際上他這個主播他是一個不存在的人。好,這個人也是合成出來的,那么就現在可以用。


很低的成本就生成這樣一個數字。再比如說你甚至可以把它做成不同的風格,這個這樣是做成一個卡通風格,然後來來來去演講,來去跟人用戶去交互,所以現在做直播、做賣貨,在做這個,就是說這個客服等等這樣的一些場景,在今年都有這樣的新的這個 AI GC 能力、一個應用。所以等等,我們就是說在4月 10 號。


還是蠻值得期待的,就是如果大家有興趣的也可以來我們現場參加,就在我們這個上海領導 a i d c 稍微有點遠,在這個就是臨港,大家一直來开車一個小時,但我們那個大的超算還是很壯觀的,還是非常值得去看一看。這裏面講的是我們這個剛剛也說過了,這個國產化硬件我們做了比較積極的一些適配。對,我想就是說後面有一些具體的產品。


PART 3 其他業務


剛剛也都跟大家都看過了。對,我們我想 highlight 兩個業務,一個就是我們現在增長力比較強的這個手機業務,因爲現在商湯就是可能很多人以爲我們是還在這個智慧城市領域,但實際上我們智慧城市領域的這個業務已經佔比掉,佔比到不到 1/ 3 了,我們超過 70% 的業務現在是這個來自於手機行業,來自於移動互聯網APP行業,來自於這個就是說汽車行業以及來自於像這個國家電網、南方電網這樣的 Tob 場景,很大的國企、央企以及企業級的這樣一些場景。那么我們去年在疫情期間增長力都非常好的一個業務,就是我們的這個智慧生活業務,它的這個是實現了 130% 的一個年增長。我們還有一個業務就是我們的智能汽車業務,我們在做這個就是智能車艙和智能駕駛這兩款產品的一個這個前裝量產,我們交付了,這個就是交付給了大量的這些電動車廠商,對吧?像比亞迪。


廣汽等等,那么做前裝量產生很難的一件事情,因爲它對於這個技術要求很高,你再直接面向消費者。


所以我們在這兩個業務上在去年其實都實現了一個比較不錯的一個增長。那么今年的話我們是幾條業務线,其實都是目前不做一個增長,基本上就是說在不包含我們任何現在看到的。


這個新要發布的這個 AIDC 的能力,我們現有的業務百分之三四十的看到今年的這樣不錯的,那么當然我們 AIGC 的這個能力的話,會也會是亮點的這樣一些業務,那么我們的目標的話還是在今年能夠實現。就是說對於這個通用人工智能技術的一個追趕,我要不就开放一些問題,大家問一些問題。


PART 4 Q&A


Q1管理層,你好,那個我想問一下,就是我們目前看那個大模型的參數量已經挺大了,就是但是好像跟 PPT4 或者哪怕3.5 能力上差距比較大,這個主要是什么原因?


首先就是模型參數做大,它有很多種方式。比如說最常見的方式就是模型的拼湊, mix of experts 就是把幾個模型拼在一起,它可以理論上來說把模型的規模做得不全大,所以有一些看上去是上萬億參數甚至上十萬億參數的模型,更多是通過這種方式模型的拼湊去實現的。那就是說這個去年其實有很多人做了大模型,但都沒有得到很好的效果。因爲做模型這件事情,做模型這件事情上不是一步到位,就是一之前沒有訓過模型,突然想訓,直接訓了一個幾千億才這樣的一個網絡性能,不是這么一個道理。但我們歷史上都是先把模型向 10 億規模、百億規模做到極致,讓他能夠在他所在的這個參數量規模對他的這個訓練數據有一個極致的壓縮,有一個最好的效果的一個表達。


然後再基於他基於 skill up 進一步這個擴充,橫向擴充模型的參數量,縱向擴充模型的深度,它實際上是逐漸一步 scale up的這樣一個過程, OKR 也是從具備意義的到9。2- 3- 4,從這個小模型做到極致之後,把所有的工程算法的這個點都已經解決,然後再把它拉出Q2。所以你有沒有能力去把模型從小的這個部分先把自己做到他們再的功能是再進一步去做,這實際上是需要時間積累的一個事情,並不能夠一步到位,上來就訓你的遷移才知道。所以很多去年訓出來的遷移模型,其實他這個效果都非常一般,甚至都沒有收斂,那就是當下的話,就是因爲去年我們也清楚,就是說這個他本身沒辦法商業化。模型雖然說是A3效果好,但是這個它沒有一個很好的demo,就是 ChatGPT,實際上我們是ChatGPT,是 g p 3 模型能力的一個demo,它更多是說我有這樣一個 demo 來展示。


我底下這個模型其實蕴含了很多的知識,有的能有限並且我用 Instruct GTP 的方法,然後這個去跟人的意圖做了很好的匹配,因爲一早的時候你訓好TP3,它的模型雖然存了很多東西,但他不太懂怎么表,就 GPT3 這個東西他不太能夠表達,就是你問一個問題,他可能給你的答案是不一定是你想問的那個答案,他不懂用戶的意圖。所以instruct GPTD 這個技術它是解決了。


意圖匹配的問題,成本相對少的,數量 10 萬對就知道了。人問這個問題期待的一個答案是這個類別,所以有了大量的知識的存儲在底下的這個第三這個模型裏,同時再加上跟人依圖一個很好的再加上這個 response learning。


然後有一個 human feedback,然後在裏面人幫你去做到了一個更加,對吧?就符合我們意圖的這樣一個匹配之後距離 CHASBT 這樣一個demo,那這個 demo 就展示了他原來可以很好地去響應我的需求,然後可以很有意思地跟他去做對話。但是產GPTD,其實他這個在做出來的時候, GPTC 已經迅速, GPTC 在做在跟那個,那就是拆GPT就是說這個它本身底下這個模型並不是一個能考上大學的模型,所以它經常也會犯很多錯誤,那這個錯誤率在這一次發布出來之後已經大幅縮減了,所以大家就對這件事情就會很好很期待。


那所以如何去真的做到對標 s 級別的模型?在我們看來差不多就是說如果讓我們量化上的話,我覺得是至少需要訓一次100 次。


訓練 100 次,千億參數量就行。訓 100 次你才能夠把這裏面所有的這些需要解決的問題,工程上的一些點,優化上的一些點,所有的一些這個技術的這個邊邊角角的一些細節都能做好 100 次,中國和美國。


相關的其他 100 次,不能夠一步到位地。很多公司現在都面臨這個問題。


就因爲沒有第二家公司,目前能夠拿出來一個考上大學,效果非常非常好,我們能一起,大家多少都有所差距,美國最頭部的公司可能是差錢。


Q2然後還有第二個問題,就是說就是我們有很多算力,沒錯,然後他們如果想訓練自己模型,無論是小模型還是大模型,他們把數據放到我們這來,這目前是通過什么樣的技術去實現?就是說他們對這個數據。


那至於您問的第二個問題,就是說這個數據的話,其實就是說這個。


首先有很多是公域數據,大家知道就是在文字語言的這個語料數據這件事情上很多。首先是公域數據,那么當然有一些公司他自己天然的在他的業務場景。裏面積累的一些私域流量,基於積累一些私域的數據,帶有私域數據的優勢。那我剛剛也講了,那么做通用模型一定要用足夠多的高質量語料,就不能只局限在自己的那個私域數據,一定要用到盡量多的方式裏面。這意味說你不只是要用中國,你要用全球,大家就最頭部的公司目標做的一定是 world mode 事件模型,不是說一個 China model 緊急那在這件事情上的話,這個頭部的幾家廠商等等他都有這個自己去獲得了這個 word knowledge就是世界信息。


世界知識的這樣一些 leap on 很多時候就是最簡單就是把網頁打开用上面這個文字,然後去當然就是大家很多有歷史上的一個積累。比如搜索引擎歷史上都,需要去驅蟲嗎?需要去做一些清洗清理。所以目前在我們的觀察。


大部分的這種虛擬大模型的,首先5000 億頭層, 5000 億的頭肯是大家都能達到這個 5000 億投,可能這個畫這樣並不難,就是大家知道我們遷移過程是第三,拿到這個畫面。


嗯,到第四的話你需要加入視覺相關的全新,那這些用戶就是說他們就是有兩種用戶,一種就是說我要去我自己有這個計劃,我自己有這個空間。我把機器放到我們的這個物理空間裏面,相當於就是這是我自己的這樣一個這個中心表, AIDC 這是我自己這種模式也有,並且我們有用戶是要求我們幫助他們來去建他們自己的一些,因爲剛剛歷史上建了 20 多個這樣的折算,我們從 14 年成立, 15 年我們進入第一個成本是 200 卡、 200 元卡的小 t 恤,但逐漸到現在我們現在非常大建超算的這個經驗。當然我們是比也有建超算機,華北也有建超算這個機,我們在深圳鵬城二期建的也是個 1000 P 規模的這樣一個超算,就是他們也在各個城市都建了 100 平任務,然後再就是像曙光浪潮還有寒武紀這種按卡的,他們也都會這種在一些地方去建這種中小型的超算,大幾百 p 的這個功能。可能去年大家有意的小鵬也建了一個超算,在去年這個增加時,阿裏合作可能建立一個 700 平,海外的話,這種公司就更多了,像特斯拉建的這個都只有 1800 P。


然後這個 Facebook 改名Meta,他在改名 Meta 之前就已經讓詞條建一個就是 5000 P 的一個超算,所以 Facebook 的第一版的卡是非常。


飛書,我們了解到也是有幾萬張的。這個 A100卡是因爲他當時做元宇宙需要做的,做這個內容的生產做這個就是渲染,他需要消耗很多的這個一般算是最當時的也是這樣子。所以我們應該是說在做這個人工智能計算適合這個大模型訓練,包括模型推理這樣一個以前相對小衆的基礎設施,就是在去年都還是相對小衆的基礎設施有需求去通知上面的這個算力,來訓練自己的這個深度學習神經網絡的人。在中國也沒有,特別,在國外其實更多是大大廠的這樣一個,今年變成了一個哪哪都是一個需求,各家1。5 线、二线都不能,都在非常積極地去考慮撿自己的元氣,我們是一個方案的提供商,我們一方面的經驗可以讓大家減少,就是說建這個 AIDC 過程中採的一個。


簡單來說我們可以在 6 個月之內,交付這個 4 千卡的消息 ID 4 千卡也不算消息, 4 千卡已經是 4000 張A 800 的卡, BC 已經是可以去支持。提出來遷移才算提升。所以這部分的需求也看得到。爲什么會有這部分需求?一定程度上是因爲你剛剛說的大家對於數據的考慮。


我有我自己的這個AIDC,我才能夠在我的這個私域流量,私域場景裏面所積累的數據,能夠用它去 fine tune 我自己的垂域模型去訓我自己的這個,就是說這個處於場景的。這個問題,並且我還會在 serve 這個模型的過程中,就是用模型訓好之後把它對於用戶提供,那用戶也會去跟這個模型有很多的交互。


這裏面產生的這個用戶交互的反饋數據他也希望能保留在自己的這個潮粉上。我們希望晚些,因爲這個部分數據未來的價值是很高的。你怎么能讓自己的私域模型把自己的這個垂直模型。


因爲那個底下的這個 foundation model 不一定是大家迅速去做 foundation model,它做起來成本很貴,它的門檻也很高,就是做foundation model 這件事情。


1.5 线、二线互聯網廠商相較於百度和巴黎都是優勢不足的,你的算力不如比對人前密度都會更多,你的數據已經錄入,所以在做這個 foundation model 這個東西其實很多一點 5000、2000 塊那次手上的卡都沒有,我們知道有。


很多的這個互聯網上手上的這個卡數量是不到 1000 張。答案的不是我剛剛知道的,因爲這個卡確實是市場,大家沒人沒事就去买,一個很貴的一個asset,並且折舊也比較快,平均來說這個三年就要換代,然後差不多 4 年就要折舊那么快的這么一個高價的資產,除非你把它很好的變現的方式。


不然你沒有买。比如說阿裏雲,我們所知的就是說在中國擁有A 100 卡最多的企業。那是爲什么呢?是因爲他們變現,他們把這個卡均出去,這個卡的租金在前段時間漲,就漲到那個價格,市場是讓這個A100 服務器的資產回報率變得很好,一年之內回到現在,很好,現在的價格相對回落了一些,因爲 A800 开始動,現在價格相對回落能理性一點,但其實還是那么就是。所以出現了這樣一個響應。剛剛的問題就是這個。


自建 a i d c,這樣我們自己,對吧?就有徵,就有迭代和徵留我自己的垂於模型的能力,並且我們持續針對我們用戶收集到的這個,就用我們的這個模型部署推理的這些過程中產生的這個用戶的閉環數據在持續覆蓋進展。,同時公司現在在這個流量重新分配的過程之中必然的一個選擇,流量重新分配,大家要知道這件事情可能每 10 年才會發生一次流量重新分配,第一次就是互聯網出來泡沫之後,流量就被大頭基本上拿走。第二次就是移動互聯網頭條出來,美團出來分走了巨頭的很多的這個流量。


流量分配今年开始第三次流量分配,你的互聯網 APP 如果有很強的 BGM 能力,那用戶就會用它用的越來越多,比如說微軟是吧?Microsoft Copilot,那他對於咱們日常的辦公的這個工作效率提高是會非常顯著的,你不用他,你就會被用他的打工人卷走,所以最後你會發現幾乎所有人都會用。


這個怕扣他的能力強的這樣一些應用。所以對於像這個,比如說國產的office,那你就必須要確保你的 quota 的能力跟微軟的一樣好,或者說跟飛書的一樣。


或者說跟這種就是釘釘,對吧?這種雲辦公的軟件裏面出發的能力一樣好。所以對於所有的。這些做工具、做APP做流量的廠商來說,這波你要么就是說這個就這一波是個流量純粹的環節,就是我們感受到,比如說大家基本上就兩種情緒,一種情緒就是擔心自己會被作爲機構?


比較好,因爲小公司確實算力輸出各方面就是相當於巨頭,無法擔心自己被巨頭在這一波裏面清吞掉自己的流量用戶。


其實都沒有,對吧?就是會走下滑路徑,

追加內容

本文作者可以追加內容哦 !



標題:好好學習,充滿信心!力爭年底到六元。

地址:https://www.utechfun.com/post/248685.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡