所有語言
分享
文章來源:AI前線
譯者 | 王強、華衛
策劃 | 華衛
“AI 能編輯 DNA 了,還是開源版!”
OpenCRISPR-1 開源鏈接:
https://github.com/Profluent-AI/OpenCRISPR
今天,人工智能系統不止可以設計出創作詩歌、代碼和視頻的模型,還開發出了精確編輯人類 DNA 的開源工具。這不僅是 AI 的巨大進步,還預示着,將來科學家可以比現在更精確、快速地對抗各種疾病。
近日,美國一家名為 Profluent 的初創公司公開介紹了這項技術,並預計於下個月在美國基因和細胞治療學會年會上發表相關論文。“使用人工智能技術創建基因編輯機制史無前例,”美國加州大學舊金山分校生物工程和治療科學系教授兼系主任 James Fraser 表示。
據悉,Profluent 是在分析了大量生物數據后,通過對 CRISPR-Cas 序列進行人工智能算法建模來設計出高功能基因組編輯器,並將其命名為 OpenCRISPR-1。通過 OpenCRISPR-1,該公司的人工智能系統從大規模序列和生物學背景中學習,產生了數百萬種自然界中不存在的 CRISPR 樣蛋白,從而成倍擴大了幾乎所有已知的 CRISPR 家族。
並且,OpenCRISPR-1 基因編輯器正在被開源。這意味着,其允許個人、學術實驗室和公司免費試用該工具。很多研究人員都會把開發的人工智能底層驅動軟件開源出來,讓其他人可以在他們的成果基礎上繼續開發工作,以加速新技術的開發步伐,但像 OpenCRISPR-1 這類生物實驗室和製藥公司開源技術發明的情況並不常見。不過,Profluent 並沒有開源該編輯器本身的技術內容。
Profluent 還透露,OpenCRISPR-1 只是冰山一角,他們的平台能夠隨意生成更多的基因編輯系統。然而,儘管目前 OpenCRISPR-1 還沒有投入臨床,但已經招致不少除應用效果以外的擔憂。
完全由 LLM 驅動
將蛋白質多樣性擴大 4.8 倍
在這項研究中,Profluent 展示了世界上第一個使用人工智能從頭開始設計的分子的精確基因編輯。基因編輯器是複雜的系統,需要多結構域蛋白質、DNA 和 RNA 之間複雜的空間和時間相互作用。使用人工智能設計功能差異化的基因編輯器,代表了人工智能驅動生物設計蓬勃發展領域的重大飛躍。
OpenCRISPR-1 的技術是由人工智能驅動、Cas9 樣蛋白和指導 RNA 組成,完全使用 Profluent 的大型語言模型(LLM)開發。該模型學習的是氨基酸和核酸序列,這些化合物定義了科學家用來編輯基因的微觀生物機制。也就是說,它分析了從自然界中提取的 CRISPR 基因編輯器的行為,並學習該如何生成全新的基因編輯器。
“這些人工智能模型從序列中學習,無論這些序列是字符、單詞、計算機代碼還是氨基酸序列。”Profluent 首席執行官 Ali Madani 表示。
據介紹,生成蛋白質語言模型通常在跨越廣泛功能的大型、多樣化的天然蛋白質序列數據集上進行預訓練,可以生成反映天然蛋白質特性的真實蛋白質序列。然而,對於特定的應用,如產生新的基因編輯器,就需要將模型引導到特定的目標蛋白質家族。
為此,Profluent 進行了詳盡的數據挖掘,以構建迄今為止最廣泛的 CRISPR 系統數據集,被稱為 CRISPR-Cas 圖譜。為生成新的 CRISPR-Cas 蛋白,他們又在 CRISPR-Cas 圖譜上訓練了一個蛋白質語言模型。
圖:生成的序列極大地擴展了 CRISPR 相關蛋白質家族的多樣性,以蛋白質簇的數量來衡量,圖中显示了每個蛋白質家族在不同類型的 CRISPR-Cas 系統中被發現的頻率。
從該模型中生成了 400 萬個序列,並使用生物信息學技術來去除簡併序列,確定每個生成的蛋白質屬於哪個 CRISPR-Cas 家族后,他們發現,這些模型產生的蛋白質將幾乎所有天然存在的 CRISPR-Cas 家族的多樣性擴大了 4.8 倍,並且之後可以生成更多的序列進一步擴大這種多樣性。
鑒於 SpCas9 的廣泛採用和臨床成功,其使用模型生成了可與 SpCas9 互操作的 Cas9 樣蛋白,並選擇了其中 48 個生成的序列,用於在人類細胞中進行嚴格的功能表徵。他們發現,當與脫氨酶配對時,OpenCRISPR-1 和 SpCas9 在精確編輯靶基因組中的單個鹼基時具有相似的活性和特異性。此外,他們還能夠保持鹼基編輯活性,同時使用由另一種 Profluent 訓練的蛋白質語言模型生成的脫氨酶來提高特異性。
最後,為了進一步優化生成的核酸酶活性, Profluent 還訓練了一個模型來為任何給定的 Cas9 樣蛋白生成相容的 sgRNA。與 SpCas9 的 sgRNA 相比,這些生成的 sgRNA 可以提高所測試的五種蛋白質中四種產生的核酸酶的活性。
CRISPR 基因療法的“升級版”
“我們與 OpenCRISPR 的意圖是與尖端研究機構和藥物開發人員合作,以一種強大而實用的方式安全地加速 CRISPR 基因療法的開發。”Profluent 首席商務官 HilaryEaton 表示。
目前,基於 CRISPR 的技術已經改變了科學家研究和對抗疾病的方式,並提供了能夠改變鐮狀細胞性貧血和失明等遺傳疾病患者的治療方法,但仍需加速發展以治療數千種其他還無治癒之法的疾病。據介紹,OpenCRISPR-1 正是基於 CRISPR 的生物機制所構建。
源自微生物的基於 CRISPR 的基因編輯器雖然功能強大,但當移植到非天然環境(如人類細胞)中時,通常會显示出顯着的功能權衡,人們希望能夠生產出比經過數十億年進化而來的天然基因編輯器更靈活、強大的基因編輯器。人工智能系統的設計恰恰能提供一種強大的替代方案,有可能繞過進化約束生成具有最佳屬性的編輯器。
“我夢想着這樣一個世界,我們可以在幾周內按需提供 CRISPR。”美國加州大學伯克利分校創新基因組學研究所的基因編輯先驅兼科學主任 Fyodor Urnov 說。
事實上,OpenCRISPR-1 是整個業界努力構建可以改善醫療保健的人工智能技術的一個縮影。例如,華盛頓大學的科學家正在利用 ChatGPT 和 Midjourney 等圖像生成器背後所採用的人工智能技術方法來組裝全新的蛋白質,並致力於加速新疫苗和藥物的開發。
“從長遠來看,這可以通向一個快速為個人定製藥物和治療方法的時代,定製速度甚至比我們現在的還快。”Urnov 認為,生成式人工智能系統具有巨大的潛力,它們往往會通過從越來越多數據中學習的過程來快速改進自身。如果像 Profluent 這樣的技術繼續改進,其最終可以讓科學家以更精確的方式編輯基因。
而目前看來, Profluent 也具備技術進化的資金支撐。3 月 21 日,Profluent 宣布完成 3500 萬美元追加融資,融資總額達到 4400 萬美元。這筆融資由 Spark Capital 領投,現有投資者 Insight Partners 和 Air Street Capital 以及來自 OpenAI、Salesforce、Octant Bio 和谷歌(包括谷歌 DeepMind 首席科學家 Jeff Dean)的天使投資人組成的財團也參与了投資。該公司此前還曾從 Insight Partners、Air Street Capital、AIX Ventures 和 Convergent Ventures 募集到 900 萬美元種子輪資金。
臨床可能引發副作用
雖然這項研究已經表明,人工智能模型可以生成能夠編輯人類基因組的工具。但目前 Profluent 還沒有對基因編輯器 OpenCRISPR-1 進行臨床試驗,因此尚不清楚其是否能達到或超過 CRISPR 的性能表現。
不過,可以確定的是,短期內這一技術進展不太可能影響醫療保健領域。Urnov 表示,事實上科學家們並不缺乏可以用來對抗疾病的天然基因編輯器,推動這些編輯器通過臨床前研究的成本才是瓶頸所在,如安全性、製造和監管審查,經過這些步驟后才能將其用於治療患者。
此外,這樣的合成基因編輯器案例還引發了其他擔憂。長期以來,科學家一直警告不要將 CRISPR 用於人類身體改造和治療領域,因為這項技術相對較新,可能會產生引發癌症等不良副作用,還能提供一些不道德的用途,如對人類胚胎進行基因改造。
對此,Fraser 的看法是,“一個不道德的人,並不在乎他們使用的基因編輯器是不是人工智能創建的,他們只會繼續使用現有工具。”
原文鏈接:
https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html
https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1
https://www.businesswire.com/news/home/20240422399482/en/Profluent-Successfully-Edits-Human-Genome-with-OpenCRISPR-1-the-World%E2%80%99s-First-AI-Created-and-Open-Source-Gene-Editor
https://www.profluent.bio/blog/editing-the-human-genome-with-ai