向量數據庫這杯“啤酒”與“泡沫”

2023-07-28 18:40:13 編輯： robot

導讀就像啤酒注定要有泡沫，每一場淘金熱都不缺被捧上了時代風口的人。大模型這一波熱潮中，向量數據庫就是那個幸運兒。一方面，技術層面並沒有太大突破。向量數據庫並不是一種特別新的數據庫技術，在AI領域已經...

就像啤酒注定要有泡沫，每一場淘金熱都不缺被捧上了時代風口的人。

大模型這一波熱潮中，向量數據庫就是那個幸運兒。

一方面，技術層面並沒有太大突破。向量數據庫並不是一種特別新的數據庫技術，在AI領域已經應用了七八年，谷歌在2015年就宣布使用RankBrain語義檢索來處理搜索任務。相比N家的卡、液冷的算、全光的網、升級的存，向量數據庫在技術方面並沒有特別亮眼的突破。

而另一方面，向量數據庫的投資熱潮又特別旺盛。在上半年成了創業公司、雲計算廠商、老牌數據庫公司，以及投資人們“群起而攻之”的風口，Pinecone、Chroma 和 Weviate 等向量數據庫初創公司都獲得了融資，有的融資額高達上億美元。這在全球經濟不明朗的投資形勢下，還是非常亮眼的成績。

不同於GPU卡那樣短期內需求堅挺、供不應求，加上摩爾定律的約束，即使有泡沫，也是鐵做的。也不同於存算網這類“新基建”，長期投入的战略價值，得到了廟堂和民間的一致重視。

向量數據庫，更多是作爲一種AI基礎技術和產品，开始爲大衆所知曉。

僅憑這樣，就在投資市場上一飛衝天，多少有點讓人不安。加上最近，大訓模型的熱度开始降溫，ChatGPT訪問量下降，更多大模型已經到地裏田間礦井“幹活兒”去了。

不禁讓人好奇，隨着大模型的風口下沉，向量數據庫的投資概念還能飛多久，會不會倏忽而來，倏忽而去，留下喝了“一嘴泡沫”的公司和投資人，在風中凌亂呢？

我們就來好好品一品，這一杯啤酒和泡沫。

技術的啤酒

訓大模型、用大模型，離不开一系列AI基礎設施，所以，作爲基礎設施之一的向量數據庫，確實有點東西。引入向量數據庫，是能喝到真材實料的“啤酒”的。

這就有必要先說說這個技術本身。

數據庫不用多說，是必不可少的IT基礎設施，用於存儲和查詢各種數據，可以看作是數據的“硬盤”。那么，向量數據庫就是更適合AI體質的“硬盤”，有幾個特質來說明這一點：

1.必要性。

向量數據庫，顧名思義就是專門用於存儲和管理向量數據。作爲一種數據結構，每個向量都包含多個維度，每個維度代表不同的特徵或屬性，比如圖像的顏色、文本詞匯的出現頻率等。而AI算法，要從圖像、音頻和文本等海量的非結構化數據中學習，提取出以向量爲表示形式的“特徵”，以便模型能夠理解和處理。因此，向量數據庫比傳統的關系型數據庫，更適合AI 應用。

2. 高效率。

每個元素都有一個索引，便於訪問或修改數值。基於此，向量數據庫可以通過將分組和索引，快速找到與給定查詢最接近的嵌入，實現高效的相似性搜索，同時減少存儲和計算成本。

相比傳統單機插件式數據庫，向量數據庫的檢索規模可以提升十倍，支持百萬級每秒查詢（QPS）的峰值能力，同時延遲控制在毫秒級。

想象一下，如果沒有高效的搜索技術支持，一個大語言模型動輒數十億、上百億參數，只能處理有限數量的輸入數據，無法搜索更大的數據庫，那么在AIGC、搜索、廣告推薦算法等任務的性能表現就會受限。

一個公开數據是，通過使用雲向量數據庫，QQ音樂人均聽歌時長提升3.2%；騰訊視頻有效曝光人均時長提升1.74%；QQ瀏覽器成本降低37.9%，這些數據的變化就在於檢索效率、運行穩定性、運營效率、推薦算法等有了較大的提升。

3.需求大。

隨着產業智能化的加速，以及大模型和其他 AI 應用的爆發，各行各業的AI用例不斷增多，由此帶來了洶湧的數據洪潮和存算任務，向量數據庫嵌入向量的長度不受限制，具有良好的擴展性，可以根據AI用例和模型而變化，更好地處理大規模數據集。

而且，向量數據庫可以拓展大模型的時間邊界和空間邊界，讓大模型在訓練完成後，也可以訪問向量數據庫的最新信息，了解最近發生的事情。

總的來說，向量數據庫就是更適合AI體質的數據庫，在AI任務上效果拔群，在機器學習領域中日益流行。

那么問題來了，一些在AI領域積澱已久的科技大廠，如谷歌、微軟、Mate以及BAT等大廠，都有向量數據庫的技術積累，也都可以向外輸出相關能力和產品。此外，一些基於开源技術的數據庫創業公司，如Pinecone、Weaviate、Odrant、Chroma近年來打开了市場知名度。

可以說，市場上並不缺乏向量數據庫的產品和解決方案。那么2023年，這杯技術啤酒，是怎么咕嘟咕嘟冒出泡沫的呢？

浪潮之巔的泡沫

向量數據庫的市場現狀，說是“從0到1”，並不爲過。

首先，大衆市場的認知度才剛剛打开。

此前，向量數據庫更多是AI企業在使用，今年才开始爲大衆所熟知，這離不开一些AI相關企業的推波助瀾。今年 3月的 NVIDIA GTC 大會上，黃仁勳首次提及向量數據庫，強調向量數據庫對大語言模型的重要性。

不是所有企業都有能力自建大模型所需要的基礎設施，通過MaaS（模型即服務）業務來訓練應用大模型是更靈活的選擇，這就要求雲廠商提供全棧基礎設施。

百度、京東、騰訊、華爲等，都在自家的大模型完整基礎設施中，提到了向量數據庫。目前，雲廠商的MaaS業務才剛剛开始走向市場，大模型的產業落地不是一蹴而就的，向量數據庫的接受度和規模究竟有多大，還是個未知數。

第二，向量數據庫的技術，還沒經歷“卷生卷死”的迭代。

Pinecone是閉源的領跑者，其他競爭者要么是开源的，比如Weviate，要么是巨頭，包括頭部雲廠商和甲骨文、IBM等老牌數據庫廠商，开始構建AI數據庫的產品和解決方案。

大廠扎堆競技，這意味着，如果技術沒有大的突破，就會陷入高密度的同質化競爭，從藍海快速進入紅海。而如果技術有顛覆式變革，很多技術壁壘不高、客戶認知不強的新入局創業者，很難跟开源生態或技術巨頭PK，容易被大浪淘沙。

最後，向量數據庫的成本，還沒有降到“可規模復制”的程度。

無論是自建向量數據庫，還是通過MaaS服務接入，都還達不到“付費可用”的程度。一般來說，企業需要先將非結構化的私密數據進行向量化，產生一個向量的矩陣，再存儲到向量數據庫裏，來供大模型學習和檢索。這個過程涉及到大量的工程化，會耗費企業許多开發人員、時間成本。

這就需要雲廠商或數據庫廠商，提供全鏈路的工具，來幫助企業完成整個數據向量化、大模型接入的工作，以及減少後續運維的難度。比如Pinecone就憑借良好的开箱即用的產品體驗，獲得了非常大的增長，B輪估值達到7.5億美元。

谷歌雲、騰訊雲、京東雲等也都基於內部應用的多年積累，推出了一系列面向外部的工具、框架和應用。但只是邁出了從無到有的第一步，真正成熟還需要讓各家“卷起來”。

可以看到，現在這個階段，熱捧向量數據庫，確實有AIGC、大模型、雲服務等多方面的現實需求，但從“概念普及”到“真正可用”之間，還有不短的距離。這之間的地帶，就是泡沫生長的地方。

江湖路遠，風高浪急，沒有想清楚的創業公司或行業用戶，還是別貿然“帶資進組”了。

啜飲時代的精釀

如果你是數據庫廠商，或者是着急布局大模型和AI應用的企業，希望早點將啤酒喝到嘴裏，怎么辦呢？

篤定遠一點的未來，有些賽道的泡沫比例是相對少的，需求格外旺盛。

市場方面，國產化替代是不錯的選擇。

科技博弈背景下，加上我國數據庫產業的日益繁榮和技術突破，金融、電信、能源、交通等關鍵基礎行業的企業，在數據庫選型時，都开始傾向於國產，以保障數據的穩定性和安全性。

國外廠商在向量數據庫上有着更早的探索和積累，國產數據庫要補齊短板是需要時間的。

目前，BATH這類實力較強的國內科技企業，沉澱了向量數據庫的核心自主技術，與其合作研發和定制化开發，針對某些具體場景，提供特定優化的向量數據庫產品，加入國產化替代的賽道是成本更低、風險更可控、市場需求明確的選擇。

策略方面，加入雲生態不要獨行。

鑑於向量數據庫的商業化前景還不明朗，有業內人士表示，與其投資新的向量數據庫項目，還不如關注現有數據庫中，有哪些加上向量引擎可以變得更加強大。

雲數據庫就是其中之一，上雲用數賦智是大勢所趨，很多政企客戶往往會選擇公有雲或行業雲來滿足其業務需求，將數據遷移到雲上，對雲數據庫的關注度和接受度上升。

騰訊雲、華爲雲等大型雲廠商，具有較高的品牌認知度和市場接受度，具有雲原生、AI原生的技術棧和產品體系，經歷了海量場景的淬煉和深度優化，和這類雲生態一起掘金向量數據庫，是更穩妥的方式。

和AI、大模型一樣，向量數據庫要品出味道，離不开時間的窖藏和酝釀。是在大訓模型的熱度下降後，像泡沫一樣湮滅，還是作爲啤酒精釀沉澱下去，等待成爲下一代數字基礎設施的剛需，被行業客戶所啜飲，是留給數據庫玩家和买家的選擇題。

原文標題 : 向量數據庫這杯“啤酒”與“泡沫”

標題：向量數據庫這杯“啤酒”與“泡沫”

地址：https://www.utechfun.com/post/243603.html

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播信息之目的，不構成任何投資建議，如有侵權行為，請第一時間聯絡我們修改或刪除，多謝。

標籤： AI 向量數據庫

上一篇:生成式AI的競爭，谷歌落後了嗎？

下一篇:騰勢N8將於8月5日上市提供EV與DM動力

您現在的位置：首頁人工智能

向量數據庫這杯“啤酒”與“泡沫”

猜你喜歡

您現在的位置： 首頁 人工智能

猜你喜歡

您現在的位置：首頁人工智能