所有語言
分享
文章來源:科技雲報道
AI大模型正在倒逼数字基礎設施產業加速升級。
過去一年半,AI大模型標誌性的應用相繼出現,從ChatGPT到Sora一次次刷新人們的認知。震撼的背後,是大模型參數指數級的增長。
這種數據暴漲的壓力,快速傳導到了大模型的底層基礎設施。作為支撐大模型的底座“三大件”——算力、網絡、存儲,都在快速的迭代。
算力方面,英偉達用了兩年的時間就將GPU從H100升級到了H200,讓模型的訓練性能提升了5倍。
網絡方面,從之前的25G升級到現在的200G,網絡帶寬提升了6倍。隨着RDMA大規模的應用,網絡延遲也降低了60%。
存儲方面,華為、阿里雲、百度智能雲、騰訊雲等大廠,都相繼推出了面向AI大模型的存儲方案。
那麼作為基礎設施的三大件之一的存儲,在AI大模型的場景下到底發生了哪些變化?又有哪些新的技術挑戰?
AI大模型帶來的
存儲挑戰
算力、算法、數據,在發展AI過程中的重要性早已為人所熟知,但是作為數據的承載,存儲卻往往被忽略。
在訓練AI大模型的過程中,需要大量數據的交換,存儲作為數據的基礎硬件,並非僅僅只是簡單地記錄數據,而是深刻參与到了數據歸集、流轉、利用等大模型訓練的全流程。
如果存儲性能不強,那麼可能需要耗費大量時間才能完成一次訓練,這就會嚴重製約大模型的發展迭代。
事實上,不少企業在開發及實施大模型應用過程中,已經開始意識到存儲系統所面臨的巨大挑戰。
從AI大模型的研發生產流程看,可分為數據採集、清洗、訓練和應用四個階段,各階段都對存儲提出了新的要求,比如:
在數據採集環節,由於原始訓練數據規模海量,且來源多樣,企業希望能夠有一個大容量、低成本、高可靠的數據存儲底座。
在數據清洗階段,網絡上收集的原始數據是不能直接用於AI模型訓練的,需要將多格式、多協議的數據進行清洗、去重、過濾、加工,行業內稱其為“數據預處理”。
與傳統單模態小模型訓練相比,多模態大模型所需的訓練數據量是其1000倍以上,一個典型的百TB級大模型數據集,預處理時長超過10天,佔比AI數據挖掘全流程的30%。
同時,數據預處理伴隨高併發處理,對算力消耗巨大。這就要求存儲能夠提供多協議、高性能的支持,用標準文件的方式完成海量數據的清洗和轉換,以縮短數據預處理的時長。
在模型訓練環節,通常會出現訓練集加載慢、易中斷、數據恢復時間長等問題。
相較於傳統學習模型,大模型訓練參數、訓練數據集指數級增加,如何實現海量小文件數據集快速加載,降低 GPU等待時間是關鍵。
目前,主流預訓練模型已經有千億級參數,而頻繁的參數調優、網絡不穩定、服務器故障等多種因素帶來訓練過程不穩定,易中斷返工,需要Checkpoints機制來確保訓練回退到還原點,而不是初始點。
當前,由於Checkpoints需要天級的恢復時長,導致大模型整體訓練周期陡增,而面對單次超大的數據量和未來小時級的頻度要求,需要認真考慮如何降低Checkpoints恢復時長。
因此,存儲能否快速地讀寫checkpoint(檢查點)文件,也成了能否高效利用算力資源、提高訓練效率的關鍵。
在應用階段,存儲需要提供比較豐富的數據審核的能力,來滿足鑒黃鑒暴安全合規的訴求,保證大模型生成的內容是合法、合規的方式去使用。
總的來說,AI大模型訓練的效率要達到極致,減少不必要的浪費,必須在數據上下功夫。準確地說,必須要在數據存儲技術上進行創新。
AI倒逼存儲技術創新
根據投資機構ARK Invest預算,到2030年,產業有望訓練出比GPT-3多57倍參數、多720倍Token的AI模型,成本將從今天的170億美元降至60萬美元。
隨着計算價格降低,數據將成為大模型生產的主要限制因素。
面對數據桎梏問題,不少企業已經開始進行前瞻性布局。
比如百川智能、智譜、元象等大模型企業,都已採用騰訊雲AIGC雲存儲解決方案來提升效率。
數據显示,騰訊雲AIGC雲存儲解決方案,可將大模型的數據清洗和訓練效率均提升一倍,需要的時間縮短一半。
科大訊飛、中科院等大模型企業和機構,則採用了華為AI存儲相關產品。
數據显示,華為OceanStor A310可實現從數據歸集、預處理到模型訓練、推理應用的AI全流程海量數據管理,簡化數據歸集流程,減少數據搬移,預處理效率提升30%。
目前,國內各大廠商也相繼發布了面向AI大模型場景的存儲方案。
2023年7月,華為發布兩款面向AI大模型的存儲產品——OceanStor A310深度學習數據湖存儲和FusionCube A3000訓/推超融合一體機。
2023年11月雲棲大會上,阿里雲推出一系列針對大模型場景的存儲產品創新,用AI技術賦能AI業務,幫助用戶更輕鬆地管理大規模多模態數據集,提高模型訓練、推理的效率和準確性。
2023年12月,百度智能雲發布了“百度滄海·存儲”統一技術底座,同時面向數據湖存儲和AI存儲能力進行了全面增強。
2024年4月,騰訊雲宣布雲存儲解決方案面向AIGC場景全面升級,針對AI大模型數據採集清洗、訓練、推理、數據治理全流程提供全面、高效的雲存儲支持。
綜合各大廠商的存儲技術創新,可以發現技術方向較為統一,都是基於AI大模型生產研發的全流程,對存儲產品進行有針對性的性能優化。
以騰訊云為例,在數據採集與清洗環節,首先需要存儲能夠支持多協議、高性能、大帶寬。
因此,騰訊雲對象存儲COS能夠支持單集群管理百 EB 級別存儲規模,提供便捷、高效的數據公網接入能力,並支持多種協議,充分支持大模型PB級別的海量數據採集。
同時,數據清洗時,大數據引擎需要快速地讀取並過濾出有效數據。騰訊雲對象存儲COS通過自研數據加速器GooseFS提升數據訪問性能,實現了高達數TBps的讀取帶寬,支撐計算高速運行,大大提升數據清洗效率。
在模型訓練環節,通常需要每2-4小時保存一次訓練成果,以便能在GPU故障時時能回滾。
騰訊雲自主研發并行文件存儲CFS Turbo ,面向AIGC訓練場景的進行了專門優化,每秒總讀寫吞吐達到TiB/s級別,每秒元數據性能高達百萬OPS,均為業界第一。3TB checkpoint 寫入時間從10分鐘,縮短至10秒內,使大模型訓練效率大幅提升。
大模型推理場景對數據安全與可追溯性提出更高要求。
騰訊雲數據萬象CI為此提供圖片隱式水印、AIGC內容審核、智能數據檢索MetaInsight等能力,為數據生產從“用戶輸入——預處理——內容審核——版權保護——安全分發——信息檢索”業務全流程提供有力支撐,優化AIGC內容生產與管理模式,順應監管導向,拓寬存儲邊界。
同時,隨着訓練數據和推理數據的增長,需要提供低成本的存儲能力,減少存儲開銷。騰訊雲對象存儲服務提供了高達12個9的數據持久性和99.995%的數據可用性,能夠為業務提供持續可用的存儲服務。
總的來說,隨着AI大模型的推進,數據存儲出現了新的趨勢。市場渴望更高性能、大容量、低成本的存儲產品,並加速大模型各個環節的融合和效率提升。
而各大廠商也在通過技術創新不斷滿足大模型各環節的需求,為企業實施大模型降低門檻。
在AI大模型的倒逼下,存儲創新已在路上。