所有語言
分享
原文來源:光錐智能
圖片來源:由無界 AI生成
在決定做向量數據庫之前,騰訊雲也糾結過。
“是選擇走RAG(檢索增強生成)技術路線,還是做向量數據庫”,“向量數據庫會不會被大模型所替代”,“向量數據庫究竟有沒有未來”……
4月份,就連OpenAI也沒有做出選擇,同時在RAG和向量數據庫兩個方向進行探索。
一個多月深入行業調研過後,騰訊雲發現,從向量化到部署,企業在構建向量數據庫過程中困難重重。
大模型公司百川智能相關負責人表示,在沒有向量數據庫之前,我們用的是一些開源工具。比如向量索引,它作為內核是可以用的,但是一旦當數據量到達一定規模后,牽扯到分佈式數據、分佈式系統的問題,就會遇到瓶頸。
“做!市場有需求,集團內部有訴求,為什麼不做?”,騰訊雲向量數據庫產品負責人鄒鵬給出了肯定的建議。
5月立項,8月正式上雲提供服務,11月功能升級,騰訊雲向量數據庫行駛在了快車道上。
技術無好壞,只有路徑選擇之分,能不能真正用起來還得等待市場的檢驗。但現在,更為重要的是,站在分岔路口,有沒有堅定落子的勇氣。
大模型時代,雲廠商不僅僅是MaaS服務的提供商,更是基礎設施的構建者。
要想讓大模型真正用起來,僅有算法、算力還遠遠不夠,必須有高效、低成本的數據使用方法。
“AGI時代,也需要智能化的數據調度範式,向量數據庫就是數據的中樞”,騰訊雲數據庫副總經理羅雲道。
但要成為一個堅實的底座,並不容易。國產大模型飛奔了一年,仍然以修鍊內功為主。
大模型應用到現在不能完全落地,一個重要的原因是,大模型能力雖然已經獲得了突飛猛進的增長,但關於數據的技術還停留在原地。
而這種滯后和空缺,對國內廠商來說也是巨大的機會。無論從大模型的行業應用,還是未來Agent構建與落地都在倒逼着數據技術的進一步升級和產品化落地。
“記憶、幻覺、新鮮度和數據安全”,大模型在實際落地的時候,還存在着四大主要問題。
要想解決這四大問題,需要數據的優化與模型精調一起進行,這時候,海量的數據如何存儲?如何調取?就成為一大難題。
羅雲認為,“計算和存儲一定是分開的。大模型是計算引擎,改變的是計算方式,存儲需要其他產品來做,我們認為是向量數據庫”。
這好比大模型是計算器,向量數據庫是賬本,一個會計先拿計算器算賬,再拿賬本謄抄記錄。
向量數據庫+大模型,兩者就是“最佳拍檔”。
向量數據庫本身就是大模型的“外腦”,大模型有上下文token的限制,雖然擅長推理和內容生成,但是缺乏長期的記憶能力。外接向量數據后,大模型就有了記憶,能夠記住用戶對話的歷史內容,還能越過多輪對話進行分析、推理。
在大模型存在“幻覺”上幾乎已經達成了共識,儘管大模型通過預訓練積累了大量的知識,但還遠遠不夠,面對一些細分領域的問題仍然嚴重不足。有了向量數據,大模型就能瞬間被灌輸各種專業知識,劃定問題答案的範圍。
大模型對數據的更新速度也相當滯后,GPT-4 Turbo也只更新到了2023年4月,而有了向量數據庫,大模型就聯上了網,可以隨時更新動態。
數據安全是企業最看重的事情,對企業來說,根本無法放心把核心的經營數據、合同文件等機密上傳到大模型上。但是,通過向量數據庫的方式,企業就可以完成本地化部署,大模型僅發揮分析處理的功能,而不會上傳、備份數據。
解決大模型問題的方法有很多,除了外掛向量數據庫,還存在大模型微調、使用RAG技術等做法。
大模型微調方式好比供一個孩子從小學念到大學甚至研究生;向量數據庫就像開卷考試,大模型完全不需要學習理解,只要能寫出答案就行;RAG則是更往下落地的場景,需要結合向量數據庫才能發揮作用。
其中差別,高下立見,比起大模型微調、RAG,向量數據庫顯然速度更快,成本也更低。
更進一步來看,基於大模型底層能力去打造AI原生應用和構建AI Agent,同樣離不開向量數據庫。
正如銷售易所言:“有了向量數據庫,就等於先把企業的數據庫、支持文檔存在向量數據庫里做優先預處理,解鎖完成后再和大模型結合回答用戶的問題。在這個基礎下,企業的應用才能做出,相當於向量數據庫是企業級應用數據的根基。”
向量數據庫並不是一個新鮮事,但問題在於,如何把海量非結構化的數據,讓大模型真正用起來?
向量數據庫有兩層含義,首先是“向量”,其次是“數據庫”。
羅雲認為,“向量”是AGI時代的“中間數據格式”,“通過向量可以抹平不同數據格式之間的差異,既可以把圖片、視頻轉換成向量,也可以把歷史積累的數據利用起來,在AGI時代怎麼快速識別信息、數據,也要靠向量”。
如果說向量是中間過程,那麼數據庫才是歸宿,有了存儲、調用數據的地方才能用起來。
“大模型+向量數據庫”的運作過程是這樣的:先把長文檔進行拆分,各個片段進行向量化,作為儲備知識存儲在向量數據庫中;當用戶發生提問,提問內容又會二次向量化,在向量數據庫中進行相似性檢索,找到答案后,再由大模型輸出文本。這過程中存在最大的難點就是,如何減少信息的損耗,以及提升召回率。
羅馬不是一天建成的,向量數據庫也是,現在騰訊雲向量數據庫經歷了底座建立-內部搜推廣業務應用-產品上雲開放-迭代升級幾個階段。
據鄒鵬介紹,騰訊雲向量數據庫的內核底座早在2019年已經成型,廣泛應用與搜索、推薦、廣告相關業務,涉及QQ瀏覽器、騰訊視頻、騰訊新聞、騰訊地圖等多個應用。
也就是說,直到2023年5月,騰訊雲決定正式立項前,向量數據庫已經在內部各個BG上跑了四年,這也是只花了三個月時間,就能上線和對外提供服務的原因之一。
正是基於向量化和數據庫方面累積的經驗,騰訊雲才能直接上線企業級的向量數據庫。
在企業級能力方面,自7月份正式發布以來,騰訊雲向量數據庫經過多次迭代升級,最高支持千億級向量規模和500萬QPS峰值能力,可用性達99.99%,相同內存可以存儲5-10倍的數據。
高性能、低成本,形成了騰訊雲向量數據庫在行業中的競爭力。性能方面,無論是128維度還是768維度,騰訊雲向量數據庫的QPS峰值能力都遠高於行業平均水平,其中128維度領先行業平均水平四倍以上,768維度也有兩倍以上的優勢;但具體到單QPS成本方面,騰訊雲向量數據庫又把價格做到了普惠,128維度的單QPS成本只有行業的七分之一,768維度只有行業的四分之一。
同時,作為一款AI原生數據庫,從接入層、計算層、到存儲層都進行了智能化的升級,核心是能夠讓企業用自然語言與數據產生互動。
針對信息損耗和召回的痛點,騰訊雲推出了國內首個端到端的向量數據庫解決方案,將端到端召回率提高30%,並且縮短了數據接入AI的時間。
向量化、封裝為數據庫固然重要,但要繼續將其打造成一個產品化的向量數據庫,對很多廠商提出了挑戰。相比於新興的數據庫廠商,大廠顯然在產品化方面更為老練。
騰訊一直堅持的產品思路是“即開即用”,一站式產品化也自然成為做向量數據庫的解決思路。
羅雲團隊在調研中發現,企業很急迫,但根本不知道什麼樣數據可以向量化,如何向量化存儲,如何使用向量數據庫以及如何與大模型相結合。
“最大的痛點在於,如何打通企業的行業know how,和AI的整個技術棧”,羅雲表示。
向量數據庫發揮功能也不是一蹴而就的,客戶的數據加工流程非常複雜,要解決分段、向量化、二次向量化等各種問題。
基於此,騰訊雲的端到端向量數據庫解決方案中,包含了文本智能化分割、選擇向量化模型、幫助客戶建立索引、智能化排序、數據接入全流程的服務。利用騰訊雲的AI智能化套件,僅用100行代碼就可快速搭建起一個企業級的本地知識庫。
百川智能表示:“向量數據庫是一站式的端到端的一套完整技術棧。第一塊就是幫助數據分片,我們每天的數據量大約是2億,在沒有騰訊雲向量數據庫之前,處理會比較慢,因為不是一個併發的任務,必須只能單線程序去做。第二塊像數據導入、數據批量更新,速度也快了很多。”
“通過全過程的介入,不僅解決企業有的問題,更保證了向量數據庫使用的效果”,鄒鵬這樣總結一站式的優勢。
儘管向量數據庫發展仍在很早期,落地過程仍有很多問題,離大規模複製也很遠,但騰訊雲做了更深層次的思考,將其擺在了戰略發展地位。
羅雲表示:“從編程語言到自然語言,大模型重塑了算力調度方式。而AGI時代,也需要智能化的數據調度範式,AGI時代的數據平台,向量數據庫就是數據的中樞,騰訊雲向量數據庫希望成為這個數據中樞,通過企業級和智能化的能力助力各行各業一起走向AGI。”
相對應地,OpenAI開發者大會引入了Assistants的新概念,取消了一部分純向量數據庫的應用,再次強化了RAG的路線。
無論是向量數據庫、微調、RAG,任何一種技術路徑想要成為主流,多數情況下並不在於純技術能力有多強,而是在於最後有多少人在使用它。畢竟,場景才是技術最鋒利的磨刀石。
不過,在具體使用過程中,向量數據庫作為一個相對新的數據使用範式,也存在很多問題:成本高昂、標準不統一等。
既然有戰略決心,想要在向量數據庫方面布局,騰訊也下了不少功夫解決實際問題。
在價格方面,相比於國外微軟等公司從向量化環節就按美分收費,騰訊雲憑一己之力就將整體企業使用成本打了下來;時間效率方面,騰訊雲實現了企業數據接入的一體化,從文本切分、向量化到導入,效率提升了10倍。
另外,騰訊雲也在利用大廠的影響力,讓更多的企業用好向量數據庫。據悉,目前騰訊雲向量數據庫已經累積服務了騰訊內部40多個業務,日請求量達1600億次,服務了包括博世、銷售易、搜狐、好未來、鏈家等在內的超過1000家外部客戶。
例如,在SaaS領域,幫助企業客戶快速構建私域知識庫、智能客服系統;在電商行業,使用向量數據庫來提升推薦、搜索、廣告業務的推薦效果;在出行行業,使用向量數據庫來加速自動駕駛模型訓練,此外,在教育行業以及文創等行業也有廣泛應用。
銷售易表示:“未來,基於與騰訊雲向量數據庫的合作,將重塑現有的一些核心場景,如銷售管理系統上的內部知識檢索,還有潛在客戶的推薦和建日程、訂單或查詢CRM系統,搭建客戶機器人和智能工單系統。後續,還想把PaaS平台通過智能的方式去幫助企業按需生成應用平台。”
大模型+向量數據庫,將為AGI 時代的應用落地鋪設一條數據的高速公路。