就像啤酒注定要有泡沫,每一場淘金熱都不缺被捧上了時代風口的人。
大模型這一波熱潮中,向量數據庫就是那個幸運兒。
一方面,技術層面並沒有太大突破。向量數據庫並不是一種特別新的數據庫技術,在AI領域已經應用了七八年,谷歌在2015年就宣布使用RankBrain語義檢索來處理搜索任務。相比N家的卡、液冷的算、全光的網、升級的存,向量數據庫在技術方面並沒有特別亮眼的突破。
而另一方面,向量數據庫的投資熱潮又特別旺盛。在上半年成了創業公司、雲計算廠商、老牌數據庫公司,以及投資人們“群起而攻之”的風口,Pinecone、Chroma 和 Weviate 等向量數據庫初創公司都獲得了融資,有的融資額高達上億美元。這在全球經濟不明朗的投資形勢下,還是非常亮眼的成績。
不同於GPU卡那樣短期內需求堅挺、供不應求,加上摩爾定律的約束,即使有泡沫,也是鐵做的。也不同於存算網這類“新基建”,長期投入的战略價值,得到了廟堂和民間的一致重視。
向量數據庫,更多是作爲一種AI基礎技術和產品,开始爲大衆所知曉。
僅憑這樣,就在投資市場上一飛衝天,多少有點讓人不安。加上最近,大訓模型的熱度开始降溫,ChatGPT訪問量下降,更多大模型已經到地裏田間礦井“幹活兒”去了。
不禁讓人好奇,隨着大模型的風口下沉,向量數據庫的投資概念還能飛多久,會不會倏忽而來,倏忽而去,留下喝了“一嘴泡沫”的公司和投資人,在風中凌亂呢?
我們就來好好品一品,這一杯啤酒和泡沫。
技術的啤酒
訓大模型、用大模型,離不开一系列AI基礎設施,所以,作爲基礎設施之一的向量數據庫,確實有點東西。引入向量數據庫,是能喝到真材實料的“啤酒”的。
這就有必要先說說這個技術本身。
數據庫不用多說,是必不可少的IT基礎設施,用於存儲和查詢各種數據,可以看作是數據的“硬盤”。那么,向量數據庫就是更適合AI體質的“硬盤”,有幾個特質來說明這一點:
1.必要性。
向量數據庫,顧名思義就是專門用於存儲和管理向量數據。作爲一種數據結構,每個向量都包含多個維度,每個維度代表不同的特徵或屬性,比如圖像的顏色、文本詞匯的出現頻率等。而AI算法,要從圖像、音頻和文本等海量的非結構化數據中學習,提取出以向量爲表示形式的“特徵”,以便模型能夠理解和處理。因此,向量數據庫比傳統的關系型數據庫,更適合AI 應用。
2. 高效率。
每個元素都有一個索引,便於訪問或修改數值。基於此,向量數據庫可以通過將分組和索引,快速找到與給定查詢最接近的嵌入,實現高效的相似性搜索,同時減少存儲和計算成本。
相比傳統單機插件式數據庫,向量數據庫的檢索規模可以提升十倍,支持百萬級每秒查詢(QPS)的峰值能力,同時延遲控制在毫秒級。
想象一下,如果沒有高效的搜索技術支持,一個大語言模型動輒數十億、上百億參數,只能處理有限數量的輸入數據,無法搜索更大的數據庫,那么在AIGC、搜索、廣告推薦算法等任務的性能表現就會受限。
一個公开數據是,通過使用雲向量數據庫,QQ音樂人均聽歌時長提升3.2%;騰訊視頻有效曝光人均時長提升1.74%;QQ瀏覽器成本降低37.9%,這些數據的變化就在於檢索效率、運行穩定性、運營效率、推薦算法等有了較大的提升。
3.需求大。
隨着產業智能化的加速,以及大模型和其他 AI 應用的爆發,各行各業的AI用例不斷增多,由此帶來了洶湧的數據洪潮和存算任務,向量數據庫嵌入向量的長度不受限制,具有良好的擴展性,可以根據AI用例和模型而變化,更好地處理大規模數據集。
而且,向量數據庫可以拓展大模型的時間邊界和空間邊界,讓大模型在訓練完成後,也可以訪問向量數據庫的最新信息,了解最近發生的事情。
總的來說,向量數據庫就是更適合AI體質的數據庫,在AI任務上效果拔群,在機器學習領域中日益流行。
那么問題來了,一些在AI領域積澱已久的科技大廠,如谷歌、微軟、Mate以及BAT等大廠,都有向量數據庫的技術積累,也都可以向外輸出相關能力和產品。此外,一些基於开源技術的數據庫創業公司,如Pinecone、Weaviate、Odrant、Chroma近年來打开了市場知名度。
可以說,市場上並不缺乏向量數據庫的產品和解決方案。那么2023年,這杯技術啤酒,是怎么咕嘟咕嘟冒出泡沫的呢?
浪潮之巔的泡沫
向量數據庫的市場現狀,說是“從0到1”,並不爲過。
首先,大衆市場的認知度才剛剛打开。
此前,向量數據庫更多是AI企業在使用,今年才开始爲大衆所熟知,這離不开一些AI相關企業的推波助瀾。今年 3月的 NVIDIA GTC 大會上,黃仁勳首次提及向量數據庫,強調向量數據庫對大語言模型的重要性。
不是所有企業都有能力自建大模型所需要的基礎設施,通過MaaS(模型即服務)業務來訓練應用大模型是更靈活的選擇,這就要求雲廠商提供全棧基礎設施。
百度、京東、騰訊、華爲等,都在自家的大模型完整基礎設施中,提到了向量數據庫。目前,雲廠商的MaaS業務才剛剛开始走向市場,大模型的產業落地不是一蹴而就的,向量數據庫的接受度和規模究竟有多大,還是個未知數。
第二,向量數據庫的技術,還沒經歷“卷生卷死”的迭代。
Pinecone是閉源的領跑者,其他競爭者要么是开源的,比如Weviate,要么是巨頭,包括頭部雲廠商和甲骨文、IBM等老牌數據庫廠商,开始構建AI數據庫的產品和解決方案。
大廠扎堆競技,這意味着,如果技術沒有大的突破,就會陷入高密度的同質化競爭,從藍海快速進入紅海。而如果技術有顛覆式變革,很多技術壁壘不高、客戶認知不強的新入局創業者,很難跟开源生態或技術巨頭PK,容易被大浪淘沙。
最後,向量數據庫的成本,還沒有降到“可規模復制”的程度。
無論是自建向量數據庫,還是通過MaaS服務接入,都還達不到“付費可用”的程度。一般來說,企業需要先將非結構化的私密數據進行向量化,產生一個向量的矩陣,再存儲到向量數據庫裏,來供大模型學習和檢索。這個過程涉及到大量的工程化,會耗費企業許多开發人員、時間成本。
這就需要雲廠商或數據庫廠商,提供全鏈路的工具,來幫助企業完成整個數據向量化、大模型接入的工作,以及減少後續運維的難度。比如Pinecone就憑借良好的开箱即用的產品體驗,獲得了非常大的增長,B輪估值達到7.5億美元。
谷歌雲、騰訊雲、京東雲等也都基於內部應用的多年積累,推出了一系列面向外部的工具、框架和應用。但只是邁出了從無到有的第一步,真正成熟還需要讓各家“卷起來”。
可以看到,現在這個階段,熱捧向量數據庫,確實有AIGC、大模型、雲服務等多方面的現實需求,但從“概念普及”到“真正可用”之間,還有不短的距離。這之間的地帶,就是泡沫生長的地方。
江湖路遠,風高浪急,沒有想清楚的創業公司或行業用戶,還是別貿然“帶資進組”了。
啜飲時代的精釀
如果你是數據庫廠商,或者是着急布局大模型和AI應用的企業,希望早點將啤酒喝到嘴裏,怎么辦呢?
篤定遠一點的未來,有些賽道的泡沫比例是相對少的,需求格外旺盛。
市場方面,國產化替代是不錯的選擇。
科技博弈背景下,加上我國數據庫產業的日益繁榮和技術突破,金融、電信、能源、交通等關鍵基礎行業的企業,在數據庫選型時,都开始傾向於國產,以保障數據的穩定性和安全性。
國外廠商在向量數據庫上有着更早的探索和積累,國產數據庫要補齊短板是需要時間的。
目前,BATH這類實力較強的國內科技企業,沉澱了向量數據庫的核心自主技術,與其合作研發和定制化开發,針對某些具體場景,提供特定優化的向量數據庫產品,加入國產化替代的賽道是成本更低、風險更可控、市場需求明確的選擇。
策略方面,加入雲生態不要獨行。
鑑於向量數據庫的商業化前景還不明朗,有業內人士表示,與其投資新的向量數據庫項目,還不如關注現有數據庫中,有哪些加上向量引擎可以變得更加強大。
雲數據庫就是其中之一,上雲用數賦智是大勢所趨,很多政企客戶往往會選擇公有雲或行業雲來滿足其業務需求,將數據遷移到雲上,對雲數據庫的關注度和接受度上升。
騰訊雲、華爲雲等大型雲廠商,具有較高的品牌認知度和市場接受度,具有雲原生、AI原生的技術棧和產品體系,經歷了海量場景的淬煉和深度優化,和這類雲生態一起掘金向量數據庫,是更穩妥的方式。
和AI、大模型一樣,向量數據庫要品出味道,離不开時間的窖藏和酝釀。是在大訓模型的熱度下降後,像泡沫一樣湮滅,還是作爲啤酒精釀沉澱下去,等待成爲下一代數字基礎設施的剛需,被行業客戶所啜飲,是留給數據庫玩家和买家的選擇題。
原文標題 : 向量數據庫這杯“啤酒”與“泡沫”
標題:向量數據庫這杯“啤酒”與“泡沫”
地址:https://www.utechfun.com/post/243603.html