所有語言
分享
文章來源:有新Newin
DatologyAI 成立於 2023 年,在今年初宣布獲得 1165 萬美元種子輪融資后,剛剛宣布獲得 Felicis 領投的 4600 萬美元 A 輪融資,其它投資者包括 Radical Ventures、Amplify Partners、Elad Gil、M12 和 Alexa Fund。
創始團隊包括前 DeepMind和 Meta AI 研究員 Ari Morcos、前 Twitter 工程主管 Bogdan Gaza 以及前 MosaicML 數據研究主管 Matthew Leavitt。
DatologyAI 目前團隊擁有 11 名員工,其目標是減少數據管理中所需的人工決策量(這些決策往往可能存在偏見或耗時)。
DatologyAI 早期知名天使投資人包括:谷歌首席科學家 Jeff Dean、AI 教父 Geoffrey Hinton、Meta 首席 AI 科學家 Yann LeCun、Quora 創始人& OpenAI 董事會成員 Adam D'Angelo、Cohere聯合創始人 Aidan Gomez 和 Ivan Zhang、Contextual AI 創始人 Douwe Kiela、AI 副總裁 Naveen Rao 以及擴散模型發明者之一 Jascha Sohl-Dickstein 。
數據質量問題至今沒有得到充分解決,是一個嚴重的疏忽,因為並非所有數據都是一樣的,以正確的方式使用正確的數據訓練模型可以對生成的模型產生巨大的影響。這不僅僅是性能的問題。
根據德勤的一項調查中,40% 的公司表示,與數據相關的挑戰(包括徹底準備和清理數據)是阻礙其 AI 計劃的首要問題之一。另一項針對數據科學家的民意調查發現,科學家大約 45% 的時間花在數據準備任務上,例如“加載”和清理數據。
改進訓練數據意味着改進:
通過確定要訓練的正確數據以及呈現這些數據的正確方式來解決這個問題,特別是在面對 PB 級未標記數據時,是一個非常具有挑戰性且成本高昂的問題,需要專門的專業知識。但解決這個問題的好處是巨大的,它可以說是當今 AI 研究中最重要的主題之一。
DatologyAI 認為,制定 AI 利用標準的公司需要根據自己的專有數據訓練自己的模型。其中許多公司擁有 PB 或更多的未標記且通常是非結構化的數據 - 如此之多,以至於他們無法對所有這些數據進行訓練,即使他們願意,因為它很快就會變得成本高昂(假設你甚至可以訪問足夠的計算!) 。
因此,標準做法是簡單地隨機選擇數據的子集。與深度學習的大多數其他領域不同,這種實踐的創新相對較少被採用。這是有問題的,因為對數據的隨機子集進行訓練有很多很多問題:
底線是:使用錯誤的數據進行訓練會導致模型更差,訓練成本更高。但這仍然是標準做法。DatologyAI 利用並執行最先進的研究來管理從 Blob 存儲中的數據到用於訓練代碼的數據加載器的整個過程。客戶可以部署到自己的基礎設施(本地或通過 VPC),以確保客戶數據永遠不會面臨風險。
區別於與其他數據管理初創公司更實際的方法。其他數據管理初創公司中,員工手動查看客戶的私人數據以找出存在差距的地方,DataologyAI 則使用算法自動確定模型需要多少數據才能理解某個概念。
例如,模型需要更多複雜概念(例如狗,外觀各異)的示例,而不是簡單概念(例如大象,它們看起來相對相似)來理解它們。這些算法還確保模型能夠看到足夠多的罕見“邊緣情況”,並且在訓練過程中將數據劃分為更易於管理的塊。相關環節包括:
目前,DatologyAI 可擴展到 PB 級數據,並支持任何數據模式,無論數據是文本、圖像、視頻、音頻、表格還是基因組或地理空間數據等更奇特的模式。
天使投資者 Yann LeCun 表示,模型的好壞取決於它們所訓練的數據,但在數十億或數萬億個示例中識別正確的訓練數據是一個極具挑戰性的問題。Ari 和他在 DatologyAI 的團隊是解決這個問題的世界專家,相信他們正在構建的產品旨在為任何想要訓練模型的人提供高質量的數據管理,這對於幫助 AI 發揮作用至關重要。
Reference:
https://www.datologyai.com/post/datologyai-raises-46m-series-a
https://techcrunch.com/2024/02/22/datologyai-is-building-tech-to-automatically-curate-ai-training-data-sets/