所有語言
分享
文章來源:鈦媒體AGI
作者|林志佳
編輯|胡潤峰
剛剛,頂級科學期刊英國《Nature》(自然)雜誌發表了一份重磅、突破性研究論文。
北京時間5月8日23點,谷歌DeepMind和其英國子公司Isomorphic Labs聯合團隊在《自然》雜誌上發表一份共46頁的成果,推出全新AI蛋白質結構預測模型AlphaFold 3,可準確預測生物分子相互作用的結構。
具體來說,新的AlphaFold 3擁有更強的生成式AI模型能力,效果全面提升。對於蛋白質與其他分子的相互作用,與現有預測方法相比,AlphaFold 3改進了至少50%;對於一些重要的相互作用領域,AlphaFold 3預測精(準確)度提高一倍(100%),從而對蛋白質、核酸、小分子、配體、修飾殘基等更廣泛生物分子的複合物進行聯合結構預測,有望幫助人們治療癌症、免疫性疾病等。
稍早前舉行的溝通會上,本論文共同監督作者、谷歌DeepMind聯合創始人、CEO戴密斯•哈薩比斯(Demis Hassabis)對鈦媒體App等表示,對於團隊來說,AlphaFold 3的發布是一個重要的“里程碑”,同時也是用 AI 技術“理解和建模生物學”道路上邁出的重要一步。
“相比此前研究,AlphaFold 3不僅能夠模擬蛋白質與其他分子的相互作用,而且還能準確預測包括DNA、RNA、配體等生物分子結構以及它們如何相互作用,從而能改變我們對生物世界和藥物發現的理解,這非常重要。這是我們和Isomorphic共同正在推進的事情。我們非常自豪地在《自然》雜誌新論文中宣布這些新突破發現、新結果和新方法。”Demis Hassabis表示。
六年構建超180萬人的蛋白質數據庫、節省數萬億美金
AlphaFold 3模型預測精準再提升一倍
據悉,AlphaFold是由谷歌DeepMind開發的一款蛋白質結構預測程序,它採用 AI 和深度學習技術僅根據其基因序列就能預測蛋白質的3D結構,僅需數日內可識別蛋白質的形狀,從而找到藥物靶點,並有望推進產生新的小分子藥物。而在此之前,這通常需要數年時間、數億美元的投入。
AlphaFold 1於2018年發布,其在CASP(蛋白質結構預測的關鍵評估)競賽中成功預測了43種蛋白質中25種蛋白質的最精確結構,排名第一,並認為成功預測了最困難目標的蛋白質結構,引發全球的關注。
2020年,全新AlphaFold 2發布,並同步推出AlphaFold數據庫,涵蓋了人類和20種常用模式生物的35萬個蛋白質結構,並且對98.5%的人類蛋白質結構進行了準確預測。同時,超過2.14億個預測中約有35%被認為是高度準確的,這意味着它們與實驗確定的結構一樣好,另外45%被認為對於許多應用來說足夠準確。
2022年7月,AlphaFold 2全面升級,DeepMind公司與歐洲生物信息研究所(EMBL-EBI)的合作團隊宣布,基於UniProt數據庫序列,AlphaFold預測出約100萬個物種的2億多個蛋白質結構,幾乎涵蓋了所有科學已知的蛋白質。相關研究成果發表在《自然》雜誌上。
據Demis Hassabis披露的一份官方數據显示,截至目前,AlphaFold數據庫用戶已達180萬人次,覆蓋超190個國家,已查看的結構超600萬次,論文和數據引用次數超過20000次。
谷歌DeepMind反覆強調,通過減少緩慢而昂貴的實驗的需求,AlphaFold可能為研究界帶來了數億年的進步,並節省了數萬億美元。數百萬研究人員全球範圍內已經使用 AlphaFold 2 在瘧疾疫苗、癌症治療和酶設計等領域取得了發現。
鈦媒體App參与對話的視頻溝通會論文作者包括Max Jaderberg (Chief Al Officer, Isomorphic Labs) 、John Jumper (DeepMind)、Julien Bergeron (Kings's College London)、Dhavanthi Hariharan (DeepMind)和Josh Abramson (DeepMind),語音演講是哈薩比斯
6年後的今天,AlphaFold 3終於來了。
此次公布的AlphaFold 3,官方定義為一種由神經網絡架構組成、擁有能夠高精度預測包含蛋白質數據庫(PDB) 中幾乎所有分子類型複合物的“生成式 AI 模型”。
鈦媒體AGI基於DeepMind聯合發布這份關於AlphaFold 3的46頁論文以及數十頁的外部信息,梳理了AlphaFold 3模型訓練數據、實施過程、評測結果以及商業化與生態四個層面,談及新模型的重要亮點:
1、模型訓練數據上,AlphaFold 3模型根據蛋白質數據庫中包含的世界分子結構數據進行訓練,能夠處理其中包含的 99% 以上的已知生物分子複合物。
2、實施過程層面,AlphaFold 3基於具備三角注意力的自定義Transformer構建,允許科學家輸入生物分子複合物的描述,能預測該生物分子複合物的3D結構,並使用擴散過程生成每個原子的單獨3D坐標,輸入到指定系統。輸入后,AlphaFold 3使用擴散網絡處理其預測,類似於 AI 圖像生成器中的網絡。擴散過程從原子云開始,經過許多步驟匯聚成最終的、最準確的分子結構。
而這一模型的核心是DeepMind改進的Evoformer模塊。AlphaFold 3 對分子相互作用的預測超過了所有現有系統的準確性。
據論文显示,據研究發現和使用過程看,AlphaFold 3的結構預測模式有助於創建與目標蛋白有效結合的設計;同時,AlphaFold 3 提高了蛋白質-蛋白質界面的結構準確性,為設計新的治療方式(例如抗體或其他治療性蛋白質)提供了可能性;另外,通過觀察靶標在其完整生物學背景下的結構以及與其他蛋白質結合伴侶、DNA、RNA 或配體輔因子的複合體,可以更深入地了解新靶標,團隊相信這種新的藥物靶點尋找方式,能夠轉化為臨床上更有效的藥物。
DeepMind舉了AlphaFold 3三個應用案例。
比如,整合膜蛋白層面,AlphaFold 3正確預測了 PORCN 與 LGK974 和 WNT3A 肽的複合物,為該臨床階段分子 (PDB ID 7URD) 的抑制功能提供了結構原理;變構位點領域,PI5P4Kγ 是一種脂質激酶,與癌症和免疫性疾病有關,而AlphaFold 3正確預測新型抑製劑 (PDB ID 7QIE) 的新型變構結合模式;具有獨特摺疊的蛋白質領域,AlphaFold 3能正確預測與底物結合的蛋白質複合物的新摺疊模式。
3、評測結果。
據PoseBusters 基準集显示,對於蛋白質與小分子的相互作用,即使不使用任何結構輸入,AlphaFold 3在76%的情況下成功了,而下一個最好的工具只有52%,大大優於Vina38、39等經典對接工具,並且大大優於 RoseTTAFold All-Atom 等所有其他真正的盲對接工具;同時,對於蛋白質與DNA結合的準確性,AlphaFold 3有65%的成功率,而目前的技術水平只有28%。甚至AlphaFold 3還改進了蛋白質相互作用能力,當蛋白質與抗體複雜結合時,AlphaFold 3的準確成功率達62%,而其他系統只有30%,比AlphaFold 2有約兩倍的性能提升。
此外,對於蛋白質與其他分子的重要相互作用領域,AlphaFold 3預測準確度提高一倍(100%)。
4、商業化和生態。
AlphaFold 3可以模擬這些分子(蛋白質)物質,這些分子控制着細胞的健康功能,如果受到破壞,就會導致疾病,因此,AlphaFold 3可以應用於從生物學、可再生材料、糧食作物、理解癌症、開發治療、金融等多個場景領域。
Demis Hassabis坦言,DeepMind更多是做基礎研究,以便將AlphaFold提供給所有學術機構、非商業用途等;而延誤發現子公司Isomorphic Labs更多是做商業化,與化學方面的藥物發現有關,以及與大型葯企合作開發世紀的藥物發現項目。
“未來,我們將通過Isomorphic Labs和內部研究計劃,並與我們在Isomorphic Labs上的製藥合作夥伴合作,進一步提高這些能力。”Demis Hassabis表示。
構建免費學術生態的同時,
DeepMind將解決AI藥物發現的局限性
另外,作為此次發布的一部分,DeepMind還推出AlphaFold 3免費 AI 工具AFServer,可供學術界免費使用,以構建AlphaFold生態。
DeepMind高級研究科學家John Jumper表示,理解生物結構以及它們如何相互作用是一個非常困難的問題。此前實驗室需要花費數十萬美元、更多科學家也很難通過實驗模擬解決,但 AI 能夠解決此類問題,這是令人難以置信的進步,從而將“開啟”許多新的科學發現。
Demis Hassabis強調,AlphaFold 3模型和數據庫技術已經開始有一些應用場景,對於藥物和化合物發現有巨大的推動作用。相對於傳統過程,AlphaFold至少快2、3倍,且系統足夠準確。
然而目前,AlphaFold 3模型在立體化學、幻覺、動力學和某些目標的準確性等方面仍存在一定局限性。
美國科學院外籍院士、美國藝術與科學院外籍院士、中國科學院院士,中國醫學科學院學部委員、深圳醫學科學院創始院長、深圳灣實驗室主任、清華大學講席教授顏寧曾表示,AlphaFold無法預測新的分子機構,預測出的結構其實只是達到其2017年的水平,缺乏專業訓練新的數據庫(database),無法像人一樣實現不同構想和新工作機理,從而不能獲得新的藥物靶點。
顏寧強調,儘管看好 AI 技術的未來,但 AI 本身還是非常有局限性的,需要有更大的數據庫、更強的算力、更新的算法,才能夠讓 AI 變成結構生物學的重要工具。
“對於小分子藥物的相互作用,目前AlphaFold2的預測研究無能為力,短期內不看好AI取代實驗,結構生物學的未來也不會是AI。”顏寧稱。
DeepMind團隊則在論文中指出,分子生物學的核心挑戰是理解並最終調節生物系統複雜的原子相互作用。而AlphaFold 3模型朝這個方向邁出了一大步,證明可以在統一的框架中準確預測各種生物分子系統的結構。
“儘管在所有交互類型中實現高度準確的預測仍然存在重大挑戰,但團隊證明,可以構建一個深度學習系統,對所有這些交互显示出強大的覆蓋範圍和泛化能力;同時還證明,缺乏跨實體進化信息並不是預測這些相互作用取得進展的重大障礙;此外,AlphaFold衍生方法能夠對分子相互作用類別的化學和物理進行建模,而無需對 MSA 的依賴,而且蛋白質-配體結構預測的巨大改進表明,可以在通用深度學習框架內處理化學空間的廣泛多樣性,而無需人工分離蛋白質結構預測和配體對接。”DeepMind團隊稱,開發正確的深度學習框架可以大幅減少獲取生物學數據所需的數據量。
展望未來,DeepMind研究人員在交流中表示,團隊將繼續埋頭研究,從第一性原理出發,用 AI 解決化學、生物學中前沿技術問題,從而有助於改變人類設計下一代生物療法方式,讓科學家更多了解細胞系統的複雜性、結構、相互作用等,推動藥物作用和研發等。
“雖然這是 AI 驅動生物學研究的重要時刻,但 AI 加速生物學的潛力是無限的。AlphaFold AI 模型的進一步發展,將加深人類對生物學和生命構建模塊的理解,以實現我們最終目標——利用 AI 重構整個藥物發現過程。”論文研究團隊表示。