生物界的ChatGPT來了! 蛋白質(zhì)語言模型 ProGen助力特定功能蛋白質(zhì)設(shè)計!
人工智能已經(jīng)將蛋白質(zhì)工程研究的時間縮短了數(shù)年。深度學(xué)習(xí)語言模型在各種生物技術(shù)應(yīng)用中顯示出前景,包括蛋白質(zhì)設(shè)計和工程。
現(xiàn)在,來自 Salesforce Research、Tierra Biosciences 和加州大學(xué)的研究團隊在實驗室中合成了由 AI 模型預(yù)測的蛋白質(zhì),并發(fā)現(xiàn)它們與天然對應(yīng)物一樣有效。他們開發(fā)出一種名為 ProGen 的蛋白質(zhì)工程深度學(xué)習(xí)語言模型。ProGen 接受了來自公開的已測序天然蛋白質(zhì)數(shù)據(jù)庫中的 2.8 億個原始蛋白質(zhì)序列的訓(xùn)練,從頭開始生成人工蛋白質(zhì)序列。最新方法有望用于研制新藥。
科學(xué)家表示,這項新技術(shù)可能比獲得諾貝爾獎的蛋白質(zhì)設(shè)計技術(shù)定向進化更強大,它將通過加速可用于幾乎任何事物的新蛋白質(zhì)的開發(fā),這些新蛋白質(zhì)幾乎可以用于從治療到降解塑料的任何領(lǐng)域。從而為已有 50 年歷史的蛋白質(zhì)工程領(lǐng)域注入活力。
該研究以「Large language models generate functional protein sequences across diverse families」為題,于 2023 年 1 月 26 日發(fā)布在《Nature Biotechnology》上。
Large language models generate functional protein sequences across diverse families
Ali Madani, Ben Krause, Eric R. Greene, Subu Subramanian, Benjamin P. Mohr, James M. Holton, Jose Luis Olmos Jr., Caiming Xiong, Zachary Z. Sun, Richard Socher, James S. Fraser & Nikhil Naik
Nature Biotechnology (2023)
Abstract
Deep-learning language models have shown promise in various biotechnological applications, including protein design and engineering. Here we describe ProGen, a language model that can generate protein sequences with a predictable function across large protein families, akin to generating grammatically and semantically correct natural language sentences on diverse topics. The model was trained on 280 million protein sequences from >19,000 families and is augmented with control tags specifying protein properties. ProGen can be further fine-tuned to curated sequences and tags to improve controllable generation performance of proteins from families with sufficient homologous samples. Artificial proteins fine-tuned to five distinct lysozyme families showed similar catalytic efficiencies as natural lysozymes, with sequence identity to natural proteins as low as 31.4%. ProGen is readily adapted to diverse protein families, as we demonstrate with chorismate mutase and malate dehydrogenase.
蛋白質(zhì)工程的傳統(tǒng)方法是對天然蛋白質(zhì)序列進行迭代誘變和選擇,以鑒定具有所需功能和結(jié)構(gòu)特性的蛋白質(zhì)。相比之下,合理或從頭設(shè)計蛋白質(zhì)的方法旨在提高創(chuàng)造具有所需特性的新蛋白質(zhì)的效率和精度。
基于結(jié)構(gòu)的從頭設(shè)計方法采用基于生物物理原理的模擬,而協(xié)同進化方法則從進化序列數(shù)據(jù)中建立統(tǒng)計模型,以指定具有所需功能或穩(wěn)定性的新序列。結(jié)構(gòu)和共同進化的方法都有一定的局限性。
最近,深度神經(jīng)網(wǎng)絡(luò)已顯示出作為蛋白質(zhì)科學(xué)和工程的生成和判別模型的前景。它們學(xué)習(xí)復(fù)雜表示的能力對于有效地利用指數(shù)級增長的多樣化和相對未注釋的蛋白質(zhì)數(shù)據(jù)來源可能是至關(guān)重要的——公共數(shù)據(jù)庫包含數(shù)百萬個未對齊的原始蛋白質(zhì)序列
ProGen:蛋白質(zhì)語言模型
受到基于深度學(xué)習(xí)的自然語言模型的成功啟發(fā),該研究團隊開發(fā)了 ProGen,這是一種蛋白質(zhì)語言模型,在數(shù)百萬個原始蛋白質(zhì)序列上訓(xùn)練,可生成跨多個家族和功能的人造蛋白質(zhì)。
圖 1:使用條件語言建模的人工蛋白質(zhì)生成。(來源:論文)
ProGen 通過學(xué)習(xí)在給定原始序列中過去的氨基酸的情況下,預(yù)測下一個氨基酸的概率來迭代優(yōu)化,沒有明確的結(jié)構(gòu)信息或成對協(xié)同進化假設(shè)。ProGen 以這種無監(jiān)督的方式從一個大型、多樣的蛋白質(zhì)序列數(shù)據(jù)庫中進行訓(xùn)練,學(xué)習(xí)了一種通用的、域獨立的蛋白質(zhì)表示,它包含局部和全局結(jié)構(gòu)基序,類似于學(xué)習(xí)語義和語法規(guī)則的自然語言模型。訓(xùn)練后,ProGen 可以提示從頭開始為任何蛋白質(zhì)家族生成全長蛋白質(zhì)序列,與天然蛋白質(zhì)具有不同程度的相似性。
ProGen 是一個 12 億參數(shù)的神經(jīng)網(wǎng)絡(luò),使用包含 2.8 億個蛋白質(zhì)序列的公開數(shù)據(jù)集進行訓(xùn)練。ProGen 的一個關(guān)鍵組成部分是條件生成,即由屬性標(biāo)簽控制的序列生成作為語言模型的輸入提供。在自然語言的情況下,這些控制標(biāo)簽可能是風(fēng)格、主題、日期和其他實體。對于蛋白質(zhì),控制標(biāo)簽是蛋白質(zhì)家族、生物過程和分子功能等屬性,可用于公共蛋白質(zhì)數(shù)據(jù)庫中的大部分序列。
為了創(chuàng)建模型,科學(xué)家們只需將 2.8 億種不同蛋白質(zhì)的氨基酸序列輸入機器學(xué)習(xí)模型,讓它「消化」信息幾周。然后,他們通過使用來自五個溶菌酶家族的 56,000 個序列以及有關(guān)這些蛋白質(zhì)的一些上下文信息來啟動模型,從而對模型進行微調(diào)。
該模型迅速生成了一百萬個序列,研究團隊根據(jù)它們與天然蛋白質(zhì)序列的相似程度以及 AI 蛋白質(zhì)的潛在氨基酸「語法」和「語義」的自然程度,選擇了 100 個進行測試。
圖 2:生成的人工抗菌蛋白多種多樣,在該實驗系統(tǒng)中表達良好。(來源:論文)
從頭開始生成人工蛋白質(zhì)序列
為了評估功能,通過無細(xì)胞蛋白合成和親和層析來合成和純化全長基因。在 100 種天然蛋白質(zhì)的陽性對照集中,72% 的表達良好。ProGen 生成的蛋白質(zhì)在所有序列同一性箱中與任何已知的天然蛋白質(zhì)的表達同樣好。此外,使用 bmDCA7(一種基于直接耦合分析的統(tǒng)計模型) 設(shè)計了人工蛋白質(zhì),bmDCA 無法適應(yīng)五個溶菌酶家族中的三個,并且對其余兩個蛋白質(zhì)家族表現(xiàn)出 60% 的可檢測表達(30/50 蛋白質(zhì))。這些結(jié)果表明,與一批天然蛋白質(zhì)相比,ProGen 可以生成結(jié)構(gòu)良好折疊的人工蛋白質(zhì),即使序列對齊大小和質(zhì)量限制了替代方法的成功,也能正確表達。
在第一批由 Tierra Biosciences 進行體外篩選的 100 種蛋白質(zhì)中,該團隊制作了五種人工蛋白質(zhì)以在細(xì)胞中進行測試,并將它們的活性與雞蛋清中發(fā)現(xiàn)的一種酶(稱為雞蛋清溶菌酶,HEWL)進行比較。在人類的眼淚、唾液和牛奶中發(fā)現(xiàn)了類似的溶菌酶,它們可以抵御細(xì)菌和真菌。
圖 3:人工蛋白質(zhì)序列具有功能,同時與任何已知蛋白質(zhì)的同一性低至 31%,表現(xiàn)出與高度進化的天然蛋白質(zhì)相當(dāng)?shù)拇呋?,并展示與已知天然折疊相似的結(jié)構(gòu)。(來源:論文)
結(jié)果表明,ProGen 生成的蛋白質(zhì)序列不僅可以很好地表達,而且可以維持跨蛋白質(zhì)家族的不同序列景觀的酶功能。
其中兩種人工酶能夠以與 HEWL 相當(dāng)?shù)幕钚苑纸饧?xì)菌的細(xì)胞壁,但它們的序列彼此只有約 18% 相同。這兩個序列與任何已知蛋白質(zhì)的同一性約為 90% 和 70%。
天然蛋白質(zhì)中的一個突變就可以使其停止工作,但在另一輪篩選中,研究小組發(fā)現(xiàn),即使只有 31.4% 的序列與任何已知的天然蛋白質(zhì)相似,AI 生成的酶仍顯示出活性。
為了解通用序列數(shù)據(jù)集和目標(biāo)蛋白質(zhì)家族序列對 ProGen 生成能力的相對影響,研究人員使用分支酸變位酶(CM) 和蘋果酸脫氫酶(MDH)實驗測量的測定數(shù)據(jù)進行了兩項消融研究。
結(jié)果表明,訓(xùn)練策略的兩個組成部分——對通用序列數(shù)據(jù)集的初始訓(xùn)練和對感興趣的蛋白質(zhì)家族的微調(diào)——對最終模型性能有顯著貢獻。使用包含許多蛋白質(zhì)家族的通用序列數(shù)據(jù)集進行訓(xùn)練,使 ProGen 能夠?qū)W習(xí)編碼內(nèi)在生物學(xué)特性的通用且可轉(zhuǎn)移的序列表示。對感興趣的蛋白質(zhì)家族進行微調(diào)可以引導(dǎo)這種表示,以提高局部序列鄰域的生成質(zhì)量。
正在進入蛋白質(zhì)設(shè)計的新時代
Salesforce Research 的研究主管 Nikhil Naik 表示,他們的目標(biāo)是證明可以利用公開可用的蛋白質(zhì)數(shù)據(jù),將大型語言模型部署到蛋白質(zhì)設(shè)計問題中?!讣热晃覀円呀?jīng)證明 ProGen 有能力產(chǎn)生新的蛋白質(zhì),我們已經(jīng)公開發(fā)布了這些模型,以便其他人可以在我們的研究基礎(chǔ)上進行構(gòu)建?!?/span>
「開箱即用地從頭開始生成功能性蛋白質(zhì)的能力,表明我們正在進入蛋白質(zhì)設(shè)計的新時代,」該論文的第一作者,Profluent Bio 創(chuàng)始人、Salesforce Research 前研究科學(xué)家 Ali Madani 博士說,「這是蛋白質(zhì)工程師可用的多功能新工具,我們期待看到治療應(yīng)用?!?/span>
與此同時,研究人員仍在繼續(xù)改進 ProGen,試圖突破更多的限制和挑戰(zhàn)。其中之一便它非常地依賴數(shù)據(jù)。
「我們已經(jīng)探索了通過加入基于結(jié)構(gòu)的信息來改善序列的設(shè)計,」Naik 說,「我們還在研究當(dāng)你沒有太多關(guān)于某個特定蛋白質(zhì)家族或領(lǐng)域的數(shù)據(jù)時,如何提高模型的生成能力?!?/span>
值得注意的是,還有一些初創(chuàng)公司也在嘗試相似的技術(shù),比如 Cradle,以及自生物技術(shù)孵化器 Flagship Pioneering 的 Generate Biomedicines,不過這些研究都還未經(jīng)過同行評審。
生物界的ChatGPT來了! 蛋白質(zhì)語言模型 ProGen助力特定功能蛋白質(zhì)設(shè)計!