向量數據庫王冠易主!李开復的零一萬物支棱起來了

2024-03-15 18:40:24    編輯: robot
導讀3 月 11 日,龍擡頭之日,零一萬物宣布成功研發其基於全導航圖技術打造的新型向量數據庫“笛卡爾(Descartes)”,並包攬權威榜單 ANN-Benchmarks 的 6 項數據集評測第一名。 這...

3 月 11 日,龍擡頭之日,零一萬物宣布成功研發其基於全導航圖技術打造的新型向量數據庫“笛卡爾(Descartes)”,並包攬權威榜單 ANN-Benchmarks 的 6 項數據集評測第一名。

這標志着向量數據庫排行榜的頭號交椅再次易主。

笛卡爾包攬 6 項第一

向量數據庫,又被稱爲 AI 時代的信息檢索技術,是檢索增強生成(Retrieval-Augmented Generation, RAG)內核技術之一。

ANN-Benchmarks 是當下業界最權威的向量數據庫性能測試工具,它可以展示不同算法在不同真實數據集下的表現。

在 ANN-Benchmarks 離线測試中,零一萬物笛卡爾(Descartes)向量數據庫登頂 6 份數據集評測第一名,比之前榜單上同業第一名有顯著性能提升,部分數據集上的性能提升甚至超過 2 倍以上。

由圖可見,零一萬物向量數據庫在 6 份評測數據集中都位於最高,曲线位置越偏右上角意味着算法性能越好,笛卡爾包攬 6 項第一。

此前,榜單裏六個數據集的榜首分屬於兩家廠商,而笛卡爾的包攬結束了這種“分庭抗禮”的局面,成爲了大一統的“新王”。

關於零一萬物

零一萬物,是 2023 年初由李开復創辦的 AI 公司。零一萬物已經獲得數輪融資,估值已超 10 億美元,躋身 AI 2.0 獨角獸行列。

大家對李开復也並不陌生。計算機科學家出身,他的職業生涯起步於硅谷,先後任職於微軟、谷歌等,後來創立了創新工場,以投資 AI 爲人熟知。

零一萬物聚集的技術團隊實力彪悍。團隊成員涉及大模型技術、人工智能算法、自然語言處理、系統架構、算力架構、數據安全、產品研發等領域。聯創團隊成員包含前阿裏巴巴副總裁、前滴滴/百度首席算法負責人、前谷歌中國高管、前微軟/SAP/Cisco/副總裁,算法和產品團隊背景均來自國內外大廠。

2023 年 11 月,零一萬物曾發布首款开源中英雙語大模型“Yi”。

背後的技術揭祕

回歸本次主題。RAG 向量檢索主要解決兩大問題:一,分別是通過建立某種索引結構,減少檢索考察的候選集。二、降低單個向量計算的復雜度。

對於第一個問題,零一萬物團隊給出量大策略:

全導航圖技術。零一萬物研發的全局多層縮略圖導航技術,圖上坐標系導航,既能保證精度,又能裁剪大量無關向量。

自適應鄰居選擇策略,填補業界空白。零一萬物自研的自適應鄰居選擇新策略,使每個節點可以根據自身及鄰居的分布特徵動態地選取最佳鄰居邊,更快收斂接近目標向量,從而讓 RAG 向量檢索性能提高 15%-30%。

對於“降低單個向量計算的復雜度”的問題,零一萬物採用了兩級量化方案增強 RAG。

通過用兩級量化降低計算復雜度,同時列式存儲充分利用 SIMD 的並發能力,進一步發揮硬件能力,相比傳統 PQ 查表,性能得到大幅提升到 2-3 倍。

還有索引結構優化、連通性保障等全棧向量技術方案提高笛卡爾向量數據庫的性能。

解決大模型當下缺陷

對大模型應用开發者來說,向量數據庫是非常重要的基礎設施,在一定程度上影響着大模型的性能表現。

比如,向量數據庫能精准解決大模型當前階段下的重要問題:

實時信息:大模型無法反應最新的信息。向量數據庫採用輕量化更新機制,可以快速補充最新信息。

隱私保護:用戶的安全隱私數據有泄密風險。向量數據通過在推理階段扮演信息傳遞的中間載體,破解了隱私保護的難關。

幻覺矯正:大模型常推理失真或產生幻覺。向量數據庫提供的豐富知識參照,有效矯正和減輕此類問題。

推理高效:大模型推理成本高,向量數據庫能夠作爲一種緩存機制,避免每一次查詢請求都需要重新執行復雜的推理計算,節省計算資源。

伴隨 AI 熱風,向量數據庫創業公司也異軍突起。比如,2023 年,OpenAI 的向量數據庫合作方 Pinecone 完成了 B 輪 1.38 億美元融資,國內初創企業 Fabarta ArcNeural 也完成了上億元 Pre-A 輪融資。

笛卡爾將在近期亮相AI產品中

關於數據的重要性,有個十分形象的比喻:信息時代的數據,就是工業時代的石油。未來,向量數據庫,將成爲決定大模型天花板的關鍵要素。

零一萬物笛卡爾向量數據庫目前聚焦於高性能向量數據庫,在實際應用場景中具備超高精度、超高性能核心優勢。

超高精度:基於多層縮略圖和坐標系實現層間導航和圖上方位導航,以及圖連通性保障,實現精度大於 99%,相同性能下,精度大幅領先業內水平。

超高性能:高效的邊選擇和裁剪技術,千萬數據庫 ms 響應。

具體來說,高性能向量數據庫可以幫助企業客戶構建私域知識庫、智能客服系統;在自動駕駛領域,使用高性能向量數據庫可來加速自動駕駛模型訓練等。

零一萬物表示,笛卡爾向量數據庫將用在近期即將正式亮相的 AI 產品中,未來也將結合工具提供給开發者。



標題:向量數據庫王冠易主!李开復的零一萬物支棱起來了

地址:https://www.utechfun.com/post/346199.html

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播信息之目的,不構成任何投資建議,如有侵權行為,請第一時間聯絡我們修改或刪除,多謝。

猜你喜歡