所有語言
分享
原文來源:產業家
作者:皮爺
圖片來源:由無界 AI生成
在過去的一段時間里,“AI-native”成為所有工具的一個顯著探索趨勢,不論是算力集群的智算中心,還是數據庫側的向量數據庫,再或者是不斷進化的算法,都在以一種更適配大模型架構的方式被推演出來。
那麼,大模型時代,數據應該如何訓練?或者說,如何把數據在大模型側做更好的表達?
“大模型如何落地?”
在近一年的時間以來,關於這個問題的討論正在愈演愈烈。如果說市場對於大模型最開始的關注點更多的在參數、算力、開源,那麼如今越來越多人的視線開始向更核心的環節轉移——數據。
相較於算力等更簡單粗暴的命題,數據要更為複雜。從某種層面來說,它對應的是模型的知識質量。
在10月底的一個關於大模型的閉門會上,這個問題更是被鮮明地提出。參會的人不乏底層通用大模型產品負責人,而更多地則是已經開始嘗試將大模型進行落地的企業從業者,其中模型接入方法有自研,也更有開源,但作為第一批將大模型內嵌到企業場景的人,他們的共同反饋是:不能用,不好用。
“我們很難把模型訓練成能嵌入場景或應用的樣子,不知道是哪裡出了問題,是通用大模型本身能力不行,還是我們自己的數據訓練、標註不到位。”一位企業創始人表示。
實際上,在大模型被越發高頻嘗試的當下,這正在成為越來越多企業面臨的問題。即在市面上即見即得的模型之外,如何將其轉化成企業自身能自己使用的大模型?
“我們剛開始訓練了三輪,但越到後面越不好訓練,中間不僅花費算力,更花費的是人力。”上述創始人告訴產業家。
在過去的一段時間里,“AI-native”成為所有工具的一個顯著探索趨勢,不論是算力集群的智算中心,還是數據庫側的向量數據庫,再或者是不斷進化的算法,都在以一種更適配大模型架構的方式被推演出來。
但在最核心環節之一的數據側,進度卻始終緩慢。這種“緩慢”甚至成為著大模型在大規模場景落地的最關鍵掣肘之一。
那麼,大模型時代,數據應該如何訓練?或者說,如何把數據在大模型側做更好的表達?在即將到來的2024年,這個被擺到檯面上的問題已經不僅是這一步應該怎麼邁,更升級的挑戰是這一步應該怎樣邁好。
誰能先答好這個命題,誰就能快人一步。
“我們現在是把一些大模型的數據標註交給外包團隊。”這是在9月份和一位金融方向的IT負責人交流中他和我們的講述,主要面向方向是基於線下網點的客服和營銷。
如何把數據“挪移”到大模型中來?在當下的大模型潮流里,數據標註和訓練幾乎是所有大模型企業必須經歷的一個環節。
數據標註,對其固有的標籤是對數據進行知識型標註,在過去多年的發展里其更多的以拖、拉、勾、畫等方式存在包括自動駕駛等需要大量數據標註的行業,從業人員畫像較為複雜,標註任務相較簡單。
但如今的大模型標註不同。“我們替換了兩個標註團隊,最終才經過訓練,有了不錯的門店服務和引導效果。”上述負責人告訴產業家。
更具體的情況是,其採用的是國內某互聯網大廠的開源模型,基於開源的框架進行自己模型的搭建,整體進度較快,但在數據訓練環節,時間卻被大大放緩。
他表示,最開始選擇的外包團隊也是市面上的某標註企業,但從最開始提出需求到最後的效果驗收,不僅時間較長,而且最終的準確率也不高;而第二次選擇的團隊儘管同樣花費時間長,但最終效果還算滿意。
這正在成為越來越多企業的縮影。即伴隨着國內底層大模型的逐步低門檻化,越來越多的挑戰已然不聚焦在模型算法本身,更多的在於數據,也就是如何把模型從“可用變得好用”。
實際上,做好大模型的數據標註不是一件容易的事情。
首先從數據本身而言,和之前的標註相比,大模型需要的數據量級更大,而且數據結構更為複合,除了單個數據標籤之外,不少大模型的訓練需要用到合成數據(即用AI產生的數據),這也就意味着數據本身的標註模型和標註方法與之前不再相同。
此外,在單純的標註環節,相較於過往的托拉拽的客觀標註,現在的更多標註需要人工的主動判斷和主動干預,如排序、改寫、生成等,而在更專業具體的問題上,甚至需要專業的人士來接入,配合整體標註規則的建立和部分問題的拆解訓練。
更有標註人員團隊上的不同,如果說之前固有的標註需要的僅是簡單的質檢和輕微干預,那麼如今在如今大模型的標註人員團隊建設上,需要對團隊進行定向的培訓,其中更包括不同專業知識以及安全合規等多方面能力的學習。
在過去的一段時間里,市面上的大模型企業有不少都採取自建標註棧的模式,即專門招聘人員成立標註團隊,同時研發自身的標註工具,但一個更為真實的現狀是:由於缺乏固有的標註體系和流程積累,在數據工具層面和人員層面始終存在短板,不論是標註,還是中間的模型訓練、評估環節,效果始終無法達到最好。
具體來看,即相較於數據存儲側的向量數據庫等更加適配大模型的產品,在數據訓練和應用側市面上大模型企業大部分採取的是傳統的標註工具和標註方法,因而帶來的是巨大的人力和精力投入,同時也對應的是不夠高效的訓練方法。
這種短板也更在影響着大模型的實際落地。
即伴隨着產業和應用成為大模型的主戰場,對特定產業或場景數據的標註和訓練也更在成為大模型落地的必行之道,但由於固有的標註方法和標註工具存在限制,一定程度上延緩了大模型能力的成型和在實際場景的應用落地。
大模型的“關鍵一道門”,應該怎麼邁?
“優質的大模型的數據標註更像是一套成型的AI數據運營。”一位相關人士表示。
以百度智能云為例,其目前對外提供的是一系列圍繞大模型全生命開發周期的數據服務,其中包括預訓練、監督微調、RLHF、評估等,其覆蓋了大模型中數據訓練的方方面面,不論是前期的數據標註還是微調等等。
這一系列的數據標註工作恰似大模型的“AI數據運營”。據了解,在百度智能雲的交付過程中,其部分項目會尋找代碼、教育、法律、等領域專業人員,一起進行需求的規則制定和數據訓練,進而保證數據的真實性和準確性。
此外,在標註工具側,和其它大模型廠商不同的是,百度智能雲也更研發了自身專有的大模型標註平台工具,針對不同場景、不同需要以及不同的數據量可以按照不同的方式進行訓練,比如其可覆蓋大語言模型、多模態大模型及代碼等專項標註場景多種數據標註需求。
同時,結合輔助標註算法可以全流程助力標註師提升標註質量和效率。而在標註能力之外,其也具備着更為靈活的項目管理機制,可以更好地適配嚴苛的交付周期及複雜多變的標註規則,進而滿足不同賽道企業的大模型訓練需求。
據了解,儘管目前市面上的大模型廠商會在內部進行自我模型的AI訓練,但效果往往沒辦法達到最好,最終還是會找到像百度智能雲這樣的擁有專門標註工具的企業進行訓練標註。
被優化的大模型訓練模塊還不僅於工具,更在團隊。比如在標註人員團隊培訓上,百度智能雲在海口建設了全國首個大模型數據標註基地,常駐數百名數據標註師,本科學歷達到100%,覆蓋漢語言文學、計算機、法學等學科專業。
在服務過程中,除了固有的一體化的模型訓練能力,對不少大模型企業而言,其還有部分專項能力的需求,比如安全能力的強化。
“大模型的輸入是可控的,但是輸出是不可控的,甚至很多時候會因為幻覺等原因,有不良或者不合規的信息出現。”一位國內頭部AI大模型負責人告訴我們。這也造成了對大模型訓練而言,安全必須是其中要核心把控的指標,而百度智能雲基於自身的“AI數據運營”能力,則是可以幫助企業的大模型迅速強化這項專有能力。
實際上,百度智能雲的模式也恰在成為國內大模型訓練的最先進路徑縮影。即不論是在預訓練,還是中間的監督微調,抑或是後期的模型評估優化等,更為高效的方式恰是這種“AI-native”的標註模式。
而基於百度智能雲這套“AI-native”的標註模式,企業恰等同於裝備了一個足夠專業的“AI數據運營”工具箱,其可以幫助企業實現從大模型數據到效果的整體運作。這其中不僅有被“刷新”的數據標註團隊,也更囊括了一系列包括從預訓練到模型評估,再到能力強化等全部流程在內的大模型訓練閉環,進而更高效、更低成本地構建好自身可用、安全的大模型。
在能更快更好地訓練出大模型之外,數據訓練的下一步是什麼?實際上,更為真實的答案是:應用和場景。
誠然如此。如果說第一階段的挑戰更多的在模型參數量級,即在一定範圍內模型本身伴隨着數據量越發凸顯的能力,那麼在當下的階段,更大的競爭點則是來自於實際場景的應用和業務表達。這種表達或在金融,或在工業製造,或在教育、電商等等。
就當下而言,產業或場景大模型的最大難點不是算力和算法,而更大的卡點恰是數據表達。
相較於通用大模型的訓練,這種基於特定場景的訓練對標註能力的要求更高。即在大量的數據中,其不僅包含無數結構化、非結構化的數據,更對參与的人員團隊有足夠專業的要求,此外,在特定的行業數據服務上,其對於具體的流程模型也更有特殊的要求。
此外,給數據服務帶來難度的不僅是場景,更有如今討論日漸增多的應用。即隨着如今越來越多的AI應用,如Agent、文生圖軟件等被推出,往往更需要在通用大模型能力的基礎上收束某項或者某些方面的特有能力,將其加持到軟件內部,對應到數據服務側則是在應用需求之上的某些專項能力的強化和不斷評估訓練。
也更可以說,大模型的數據訓練和標註,正在伴隨着產業模型和AI應用時代的到來進入深水區。
這也恰是百度智能雲等深耕過數據服務行業的企業價值。伴隨着大模型載體的到來,它們正基於自己對數據的多年理解和沉澱,成為推動數據到業務表達的最核心力量。
從幕後走到台前,從數據標註到數據運營,從初始的模型訓練到細緻的模型調優,肉眼可見的是,如百度智能雲這樣具備數據資源整合和強大研發能力的科技巨頭企業,正重塑着行業市場格局。而伴隨着大模型向深水區的延展,它們的價值也更在愈發凸顯。