大模型風起雲湧,向量數據庫終有“用武之地”?

2024-05-31 18:40:08    編輯: robot
導讀 每逢淘金熱,最後的贏家都是賣鏟人,而非淘金者。在近兩年的大模型風口下,向量數據庫就成了這把鏟子。 隨着大模型快速發展,向量數據庫正在成爲企業便捷使用大模型、最大化發揮數據價值的關鍵工具。據IDC調查...

每逢淘金熱,最後的贏家都是賣鏟人,而非淘金者。在近兩年的大模型風口下,向量數據庫就成了這把鏟子。

隨着大模型快速發展,向量數據庫正在成爲企業便捷使用大模型、最大化發揮數據價值的關鍵工具。據IDC調查數據顯示,全球在AI技術和服務上的支出2023年將達到1540億美元,到2026年將超過3000億美元。其中,向量數據庫爲AI的开發、增強內容生成的准確性提供了重要技術支撐。 

在今年數據庫領域所有的技術趨勢中,向量數據庫無疑成爲了最受資本熱捧的一個。隨着5月份大模型廠商掀起一輪又一輪價格战,接連調低大模型API的價格,高性價比的大模型+向量數據庫,在行業應用、企業市場又顯現出了商業價值。

爲什么向量數據庫會隨着大模型的發展而爆發?它又將給AI行業帶來怎樣的機會?

大模型的必經之路

首先,我們需要釐清向量數據庫在大模型當中扮演了什么角色。

大模型解決的是計算問題,而向量數據庫則解決存儲問題。這是從2023年初向量數據庫崛起开始,至今爲止行業內公認的看法。

人們常常把大語言模型比喻成大腦,但這是一個被切除了顳葉的大腦,缺乏記憶,並且常常出現幻覺。爲了解決這些問題,常常需要借助向量數據庫。

現實生活中兩人進行對話,大致需要三步流程:一方首先拋出話題作引子;另一方會先調動記憶判斷自己是否了解這個話題,然後再分析給出應該做出何種回答。如此循環往復直到互動結束。

爲讓計算機完成這樣的互動過程,並持續在一對一或一對多的情況下變成日常,AI科學家提出了CVP結構,即“ChatGPT(以ChatGPT爲代表的大模型)+Vector Database(向量數據庫)+Prompt(提示詞)”,分別承擔計算機分析、記憶、引子的功能。

放到大模型上,針對其有可能出現的幻覺問題,可以將所需領域的專業知識存入向量數據庫,當要prompt時,系統自動的從向量數據庫中根據相似度查找最相關的專業知識,把這些知識和你的提示詞一同提交給大模型,這樣就可以有效減少幻覺的出現。記憶的問題也類似,可以選擇把部分你和大模型的聊天記錄存入向量數據庫。這是向量數據庫近期出現熱度的原因。

向量數據庫和傳統數據庫的不同點之一是,傳統的數據庫只能處理計算機容易了解和處理的數據、字符串等結構化數據,通過點查和範圍查進行精確匹配,輸出只有符合查詢條件和不符合條件的答案,而向量數據庫處理的是各種AI應用產生的非結構化數據,通過近似查進行模糊匹配,輸出的是概率上的提供相對最符合條件的答案,而非精確的標准答案。

以OpenAI背後的GPT模型預訓練所用的數據爲例,GPT-3.5的“知識庫”共包含3000億單詞的數據,匯聚了來自开源語料庫、維基百科、各類圖書與新聞報道、Reddit與Twitter平台文章等大量互聯網文本數據。GPT-4在此基礎上體量更大,且爲了支持多模態專門收集各類圖像、視頻素材,這其中非結構化數據應佔有極大比重。

正如冰山效應所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉沒在水面之下”,真實世界中絕約80%的數據都爲非結構化數據,只有約20%的數據是結構化數據。非結構化數據結構復雜且難處理,反而導致有效利用率遠低於結構化數據。因此,打造面向非結構化數據的向量數據庫也變成了一場從0到1的拓荒。

近年來,一些數據庫廠商已經开始原生支持向量嵌入和向量搜索的功能,並提供了相應的向量索引和查詢優化技術。這使得开發人員能夠更方便地在數據庫中存儲和查詢向量數據,而無需依賴額外的工具或庫。

除了大語言模型的推動外,向量數據庫在自身技術上也取得了重大突破,特別是在性能優化、數據處理能力和安全性方面。各數據庫廠商和研究機構都在致力於改進向量數據庫的算法和架構,以提高其處理大規模數據的能力。

ChatGPT的爆發徹底改變了向量數據庫的發展速度。2023年3月,在英偉達全球开發者大會上,CEO黃仁勳力挺向量數據庫對構建專有大型語言模型的重要價值,“向量數據庫的一個新型重要用例是大型語言模型,在文本生成過程中可用於檢索領域特定事實或專有事實。英偉達將推出一個新的庫,即RAFT,用於加速索引、數據加載和近鄰檢索。我們正在將RAFT的加速引入到Meta的AI向量相似性搜索FAISS、Milvus开源向量數據庫以及Redis。”他如是說。

在資本市場,近一年來向量數據庫是當之無愧的“資本寵兒”,Qdrant、Chroma、Weaviate先後獲得融資,成立短短幾年的Pinecone宣布1億美元B輪融資,估值達到7.5億美元。可見,無論從技術演進還是資本市場來看,向量數據庫都是這兩年最亮眼的技術。

向量數據庫的商業化探索

在大模型興起之前,傳統數據庫已經在不斷嘗試與AI結合,主要涉及以下幾個方向:AI for DB、DB for AI、預測估算。隨着大模型的興起,可以看到在這些方向上,數據庫與AI間的關聯比以往任何時候都要密切。

在“AI for DB”方面,將AI技術嵌入到傳統數據庫中,使其具備更智能的功能。例如,通過大模型,數據庫可以實現更高級的數據分析、智能搜索和推薦等功能。AI技術的應用使得數據庫能夠更好地理解和處理數據,提供更精確的查詢結果和分析報告。

對於“DB for AI”方面,傳統數據庫可以爲大模型提供結構化數據和非結構化數據高效的存儲和查詢能力。由於大模型通常需要處理大規模的數據,傳統數據庫的可伸縮性和性能變得尤爲重要。數據庫可以通過融合查詢和差異化存儲等技術,提供快速的數據訪問和處理能力,滿足大模型對數據的高效需求。

此外,大模型的興起還爲數據庫注入了預測估算的能力。大模型可以通過學習歷史數據和模式,對未來的趨勢和結果進行預測和估算。傳統數據庫可以集成模型,實現對數據的預測分析。這使得數據庫可以不僅提供對歷史數據的查詢和分析,還能夠提供對未來數據的預測和估算結果,幫助用戶做出更准確的決策。

事實上,不僅是大模型廠商,雲計算廠商憑借在AI基礎設施、商業生態、市場規模效應方面的已有優勢,也开始聚焦向量數據庫市場進行各種技術和商業化嘗試,這些嘗試或許會讓向量數據庫加速走向商業成功。

首先,多元化部署能力。垂直行業大模型,數據都是私有機密的,客戶一般不愿意放到公有雲上,這對一部分支持混合多雲的雲廠商是一大利好,通過私有部署、分布式、混合雲等多種方案,打消行業客戶將數據放到雲端的現實疑慮。

其次,一體化AI能力。向量數據庫的火爆,本質是由AI驅動的,而AI Native時代的數據工程,還有許多復雜問題尚待解決,比如檢索效率,在處理大規模數據的並行任務時,保持快速響應時間是一個挑战,需要優化索引結構和搜索算法;高負載下的系統穩定性,需要確保數據庫系統具備高可用性和容錯能力,防止服務中斷;存儲海量的向量數據,成本效益比要進一步優化……目前來看,雲廠商具備從底層算力集群、Maas模型平台到全棧工具鏈的AI能力,有望通過技術協同創新,持續優化向量數據庫的性能和成本。

第三,產業服務能力。各行業對AI與業務的結合熱情高漲,但大多還處於嘗試探索期,需要結合自身場景、AI應用、IT設施等多種因素試錯並迭代。這個過程中,隨叫隨到、幫助客戶及時解決問題的ToB服務能力,也是非常看重的。深耕產業的公有雲,有望降低很多企業在AI技術革命中的機會成本。

從某種程度上而言,無論是向量數據庫,還是大模型,歸根結底,人們在追捧它時的心態,焦慮大於需求。而這種焦慮則來源於“害怕被落下”。

而向量數據庫的熱潮,在一定程度上外化了人們的焦慮。但這並不能否定向量數據庫的實際價值,甚至更長遠的價值。

雖然,目前向量數據庫仍處於發展初期,但可以確定的是,向量數據庫與大模型一定是捆綁關系。因此,未來其演進方向也一定隨着大模型能力的演進而發生變化。

不可否認的是,向量數據庫的未來有星辰大海,也有曲折的前路。背靠大模型,向量數據庫成爲資本追捧的“寵兒”。然而,在未來的AGI時代,向量數據庫還有更多實事要幹。

【科技雲報道原創】

轉載請注明“科技雲報道”並附本文鏈接

       原文標題 : 大模型風起雲湧,向量數據庫終有“用武之地”?



標題:大模型風起雲湧,向量數據庫終有“用武之地”?

地址:https://www.utechfun.com/post/378258.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡