蛋白質(zhì)計(jì)算設(shè)計(jì):方法和應(yīng)用展望
Computational protein design: perspectives in methods and applications
蛋白質(zhì)計(jì)算設(shè)計(jì)是指通過(guò)計(jì)算理性地確定蛋白質(zhì)的氨基酸序列,實(shí)現(xiàn)預(yù)設(shè)的結(jié)構(gòu)和功能。蛋白質(zhì)計(jì)算設(shè)計(jì)已逐漸形成了一套系統(tǒng)的方法,得到越來(lái)越多的實(shí)驗(yàn)驗(yàn)證。這些方法既可用于從頭設(shè)計(jì)蛋白,也可以用于既有蛋白的理性改造,具有廣泛應(yīng)用前景,是合成生物學(xué)的重要使能技術(shù)之一。本文簡(jiǎn)要回顧蛋白質(zhì)計(jì)算設(shè)計(jì)方法的歷史,并從蛋白質(zhì)能量計(jì)算方法、氨基酸序列自動(dòng)優(yōu)化、從頭設(shè)計(jì)主鏈結(jié)構(gòu)、設(shè)計(jì)新的分子間識(shí)別界面以及負(fù)設(shè)計(jì)等方面介紹蛋白質(zhì)計(jì)算設(shè)計(jì)的基本方法和思路,還舉例討論了提高結(jié)構(gòu)穩(wěn)定性、構(gòu)造新的分子界面等設(shè)計(jì)方法在酶、疫苗、自組裝蛋白質(zhì)材料等領(lǐng)域的應(yīng)用,最后分析了蛋白質(zhì)計(jì)算設(shè)計(jì)方法設(shè)計(jì)精度不足、難刻畫(huà)極性相互作用的缺點(diǎn)以及需要考慮非水溶劑環(huán)境、界面設(shè)計(jì)優(yōu)化等亟待解決的問(wèn)題,展望了蛋白質(zhì)計(jì)算設(shè)計(jì)方法未來(lái)在合成生物學(xué)領(lǐng)域如生物感受器、邏輯門(mén)設(shè)計(jì)等,醫(yī)學(xué)領(lǐng)域如抗體、疫苗設(shè)計(jì)等的應(yīng)用前景。
關(guān)鍵詞:
In computational protein design, the amino acid sequence of a protein is rationally chosen through computations so that the resulting molecule is of desired structure and function. Systematic methods for computational protein design have been developed and validated in increasing number of experiments. Exhibiting strong potential for broad applications, computational protein design has been considered as an important enabling technology for Synthetic Biology. Here we briefly review the history of methods for computational design, which are divided into three sections about heuristic design that based on rules, automatic optimization of amino acid sequences, and de novo main chain design respectively. In the next chapter, we introduce the basic approaches and strategies in details. In proteins energy calculation methods, we introduce physical energy terms and statistical energy terms. Based on these energy calculation methods, we introduce sequence and structure design methods including automated optimization of amino acid sequences, de novo design of polypeptide backbones (with fragment assembling method or sequence independent backbone potentials), designing new interfaces for inter-molecule recognition such as protein-ligand interfaces and protein-protein interfaces, and the concept of negative design. Besides the history and detail of computational protein design methods that mentioned above, we also briefly discuss examples of using computational protein design to support application studies, including enhancing protein structural stability and redesign or de novo design of enzymes, vaccines and protein materials that related to interfaces design. These examples not only present current studies using the computational protein design methods, but also enlighten us on more broader applications in the future. Finally, we analyze some problems that need to be solved in the protein computational design method, such as inefficient in design accuracy, difficulty in characterizing polar interactions, and the need to consider the environment of non-aqueous solvents. We also discuss some aspects of possible application in synthetic biology like biological logic gates design and biosensor design, and application prospects in the medical field such as antibodies, vaccine design, etc.
Keywords:
本文引用格式
操帆, 陳耀晞, 繆陽(yáng)洋, 張璐, 劉海燕.
CAO Fan, CHEN Yaoxi, MIAO Yangyang, ZHANG Lu, LIU Haiyan.
蛋白質(zhì)是執(zhí)行生物功能的主要生物大分子,也是用于構(gòu)筑合成生物系統(tǒng)的主要元件。大多數(shù)蛋白質(zhì)的功能取決于它們的特定三維空間結(jié)構(gòu)和特異性分子間相互作用。氨基酸序列決定了蛋白質(zhì)三維結(jié)構(gòu)和相互作用,從而決定蛋白質(zhì)功能。天然蛋白質(zhì)的氨基酸序列經(jīng)過(guò)了進(jìn)化的長(zhǎng)期選擇,適應(yīng)了相應(yīng)有機(jī)體的功能需求。在合成生物學(xué)中,當(dāng)天然蛋白被轉(zhuǎn)用于其他目的時(shí),其性質(zhì)和功能很可能達(dá)不到要求,有時(shí)甚至找不到可用的天然蛋白。因此,對(duì)天然蛋白的性質(zhì)和功能進(jìn)行定向改造,乃至創(chuàng)造有新功能的人工蛋白,對(duì)合成生物學(xué)具有重要意義[1-5]。傳統(tǒng)蛋白質(zhì)工程技術(shù)如定向進(jìn)化[6]對(duì)天然蛋白序列進(jìn)行小的擾動(dòng),本質(zhì)是一種試錯(cuò)方法,在不采用高通量篩選手段時(shí)效率很低,且難以創(chuàng)造出具有新結(jié)構(gòu)和新功能的蛋白。因此,經(jīng)驗(yàn)的或計(jì)算的蛋白質(zhì)理性設(shè)計(jì)成為了改造乃至創(chuàng)造新蛋白質(zhì)的手段。其中,依賴(lài)經(jīng)驗(yàn)知識(shí)以及進(jìn)化信息等[7]的理性設(shè)計(jì)在改造蛋白質(zhì)方面確實(shí)有一些成功案例,但是難以解決復(fù)雜的蛋白質(zhì)的工程問(wèn)題。蛋白質(zhì)計(jì)算設(shè)計(jì),即從結(jié)構(gòu)功能的需求出發(fā),通過(guò)計(jì)算手段確定氨基酸序列[8-11],既可以用于蛋白質(zhì)從頭設(shè)計(jì),也更多地被應(yīng)用于既有蛋白質(zhì)的改造設(shè)計(jì),是亟待推動(dòng)的發(fā)展方向。目前,以蛋白質(zhì)從頭設(shè)計(jì)為目標(biāo)開(kāi)發(fā)的一些計(jì)算方法已被越來(lái)越廣泛應(yīng)用于蛋白質(zhì)工程改造中。有報(bào)道表明,在蛋白質(zhì)相互作用界面改造中,通過(guò)計(jì)算設(shè)計(jì)技術(shù)的恰當(dāng)應(yīng)用,可以把實(shí)驗(yàn)試錯(cuò)范圍縮小3~4個(gè)數(shù)量級(jí)[12]。目前,計(jì)算設(shè)計(jì)方法還有巨大的發(fā)展空間,且相關(guān)研究隊(duì)伍也日益擴(kuò)大。計(jì)算方法不僅會(huì)在對(duì)天然蛋白的理性改造中得到廣泛實(shí)際應(yīng)用,按需定制的人工設(shè)計(jì)蛋白的實(shí)際應(yīng)用也有可能在未來(lái)5~10年內(nèi)普遍實(shí)現(xiàn)。
本文主要目的是介紹目前已采用和正在發(fā)展中的蛋白質(zhì)計(jì)算設(shè)計(jì)方法的基本原理,面臨的主要問(wèn)題和解決思路、方法,以及尚待解決的一些問(wèn)題和可能的研究方案。盡管這些方法的最終發(fā)展目標(biāo)是蛋白質(zhì)按需從頭設(shè)計(jì),它們也易于被調(diào)整用于蛋白質(zhì)理性改造。在下文中,本文作者首先簡(jiǎn)要回顧蛋白質(zhì)計(jì)算設(shè)計(jì)的發(fā)展歷史,認(rèn)識(shí)該領(lǐng)域現(xiàn)狀和整體發(fā)展方向;隨后主要圍繞蛋白質(zhì)從頭計(jì)算設(shè)計(jì),介紹其基本方法和原理;并匯集總結(jié)一些具體應(yīng)用成果,討論蛋白質(zhì)從頭計(jì)算設(shè)計(jì)應(yīng)用的主要思路;最后對(duì)方法發(fā)展和應(yīng)用的趨勢(shì)進(jìn)行簡(jiǎn)要展望。
1 蛋白質(zhì)計(jì)算設(shè)計(jì)的歷史
本節(jié)主要從設(shè)計(jì)策略的角度,對(duì)采用不同類(lèi)型策略的方法分別概述。盡管多種方法被首次報(bào)道的時(shí)間較早(如20世紀(jì)80年代出現(xiàn)的基于規(guī)則的啟發(fā)式設(shè)計(jì)方法、20世紀(jì)90年代出現(xiàn)的通過(guò)自動(dòng)優(yōu)化能量函數(shù)進(jìn)行序列設(shè)計(jì)的方法),但直到今天它們?nèi)栽诔掷m(xù)的應(yīng)用、驗(yàn)證和完善中。對(duì)相關(guān)時(shí)間順序感興趣的讀者可參考其他綜述[13]。
1.1 基于規(guī)則的啟發(fā)式設(shè)計(jì)
最早被提出的蛋白質(zhì)設(shè)計(jì)方案受到了特殊的、高度規(guī)則的多肽結(jié)構(gòu)的序列變化規(guī)律的啟發(fā)[14-16]。多肽主鏈高度規(guī)則的局部結(jié)構(gòu)模式包括α-螺旋、β-片層等二級(jí)結(jié)構(gòu)單元。多個(gè)二級(jí)結(jié)構(gòu)單元之間能夠以特殊方式相互堆積擴(kuò)展成更大的三維結(jié)構(gòu)單元,如超二級(jí)結(jié)構(gòu)motif、多螺旋束等。與之對(duì)應(yīng)的氨基酸序列上,不同性質(zhì)氨基酸呈現(xiàn)特殊的排列模式,如圖1中反平行螺旋上A、D位置由疏水氨基酸占據(jù),其余位置則多被親水氨基酸占據(jù);β-肽段上親、疏水氨基酸周期性地相間排列,以使疏水側(cè)鏈埋于蛋白質(zhì)內(nèi)部,親水側(cè)鏈暴露在溶劑中。基于這種排列模式設(shè)計(jì)氨基酸序列的啟發(fā)式方法被成功應(yīng)用于設(shè)計(jì)各類(lèi)螺旋束結(jié)構(gòu)[17-18]、超二級(jí)結(jié)構(gòu)motif[19]等,其中發(fā)展較為系統(tǒng)的是多螺旋束設(shè)計(jì)。為了更系統(tǒng)地刻畫(huà)多螺旋束中不同螺旋間堆積結(jié)構(gòu)可能的變化,Grigoryan和De Grado等[20]建立了精細(xì)的經(jīng)驗(yàn)數(shù)學(xué)公式來(lái)定義螺旋間距、扭轉(zhuǎn)角、相對(duì)平移等幾何參數(shù)間的相互依賴(lài)關(guān)系,用于設(shè)計(jì)不同數(shù)目和排列的理想螺旋束結(jié)構(gòu)。這類(lèi)設(shè)計(jì)方法也存在著明顯的局限,首先它受限于特殊、有限的主鏈結(jié)構(gòu)類(lèi)型;此外,僅僅通過(guò)區(qū)分殘基親、疏水性等經(jīng)驗(yàn)來(lái)選擇殘基類(lèi)型得到的設(shè)計(jì)結(jié)果具有很大的不確定性,由于沒(méi)有控制殘基之間特異性的空間堆積和氫鍵相互作用等,最終獲得能特異性折疊序列的成功率并不高。
圖1
圖1 形成規(guī)則空間結(jié)構(gòu)的多肽鏈的氨基酸序列變化規(guī)律示例
Fig. 1 Examples of changes in the amino acids sequence of a polypeptide chain forming a regular spatial structure(Hydrophilic and hydrophobic amino acids are alternated in a periodic pattern)
1.2 通過(guò)自動(dòng)優(yōu)化能量函數(shù)進(jìn)行的序列設(shè)計(jì)
20世紀(jì)90年代后期,隨著分子力學(xué)能量函數(shù)、氨基酸側(cè)鏈構(gòu)象庫(kù)、優(yōu)化算法等的發(fā)展,Dahiyat等[21]首先實(shí)現(xiàn)了用自動(dòng)優(yōu)化的方法來(lái)設(shè)計(jì)氨基酸序列。在此類(lèi)算法中,主鏈骨架是被事先給定的(如來(lái)源于天然蛋白質(zhì)結(jié)構(gòu)),且可被假設(shè)為固定不變。設(shè)計(jì)中需要通過(guò)計(jì)算來(lái)確定的未知量包括每個(gè)主鏈位置上的氨基酸殘基類(lèi)型以及其側(cè)鏈構(gòu)象。這些未知量的所有容許取值(即氨基酸側(cè)鏈類(lèi)型及其構(gòu)象狀態(tài)的可能組合)構(gòu)成了氨基酸序列和側(cè)鏈構(gòu)象空間。定義在該空間上的能量函數(shù)則被用于評(píng)估特定序列和構(gòu)象組合的好壞。定義了主鏈結(jié)構(gòu)和能量函數(shù)后,設(shè)計(jì)者通過(guò)特殊的算法在序列和側(cè)鏈構(gòu)象的未知量空間中自動(dòng)搜索,找出能量盡可能低的解,得到設(shè)計(jì)結(jié)果。圖2簡(jiǎn)要演示了這一設(shè)計(jì)過(guò)程,對(duì)于左側(cè)輸入的目標(biāo)主鏈結(jié)構(gòu),通過(guò)搜索序列和側(cè)鏈構(gòu)象空間,找到具有最低能量的序列,認(rèn)為它們就是最可能形成目標(biāo)結(jié)構(gòu)的序列。值得一提的是,實(shí)現(xiàn)這類(lèi)設(shè)計(jì)算法的關(guān)鍵技巧之一,是將本來(lái)連續(xù)變化的側(cè)鏈構(gòu)象離散表示為可數(shù)的有限種可能狀態(tài)(稱(chēng)為rotamer)。設(shè)計(jì)算法的另一關(guān)鍵是能量函數(shù)。從原理上,如果能找到普適的能量函數(shù),基于能量函數(shù)自動(dòng)優(yōu)化的設(shè)計(jì)方法就能被廣泛應(yīng)用于不同結(jié)構(gòu)類(lèi)型蛋白的設(shè)計(jì)。因此,從被提出至今,通過(guò)優(yōu)化能量函數(shù)進(jìn)行自動(dòng)設(shè)計(jì)逐漸成為蛋白計(jì)算設(shè)計(jì)的主流策略,而相應(yīng)的能量函數(shù)[22-24]和優(yōu)化算法[25-26]等得到持續(xù)的發(fā)展。到目前為止,至少兩套能量函數(shù)(Rosetta能量函數(shù)[25]以及本文作者課題組建立的ABACUS統(tǒng)計(jì)能量函數(shù)[27-28])都已被實(shí)驗(yàn)反復(fù)驗(yàn)證能以很高的成功率進(jìn)行氨基酸序列從頭設(shè)計(jì)。以天然主鏈結(jié)構(gòu)為設(shè)計(jì)目標(biāo),用ABACUS進(jìn)行氨基酸序列全自動(dòng)設(shè)計(jì)得到的人工蛋白往往具有遠(yuǎn)超天然蛋白的高熱穩(wěn)定性[27]。
圖2
圖2 給定主鏈優(yōu)化氨基酸序列和側(cè)鏈構(gòu)象
Fig. 2 Optimization of amino acids sequences and side-chain conformations for a given backbone(For the input target backbone structures, the sequences with the lowest energies were found by searching the sequence andside chain conformational space, considering them the most likely to form the target structures)
為了把計(jì)算量控制在可行范圍內(nèi),在優(yōu)化氨基酸側(cè)鏈類(lèi)型和構(gòu)象時(shí),主鏈結(jié)構(gòu)一般被假設(shè)為固定不變的。如果主鏈結(jié)構(gòu)也被作為未知量與序列、側(cè)鏈同時(shí)被優(yōu)化,盡管物理層面上更合理,但計(jì)算層面上,變量空間維度會(huì)過(guò)高,使得計(jì)算無(wú)法完成。另外,對(duì)主鏈結(jié)構(gòu)難以進(jìn)行合理的離散采樣,對(duì)其進(jìn)行優(yōu)化比固定主鏈優(yōu)化側(cè)鏈類(lèi)型和rotamer的組合要困難得多。為了在一定程度上考慮主鏈柔性,研究者提出了不同的方案,其基本思路都是對(duì)多種互有差別的主鏈結(jié)構(gòu)進(jìn)行序列設(shè)計(jì)。應(yīng)用最多的方案是在序列空間和主鏈結(jié)構(gòu)空間的優(yōu)化交替迭代進(jìn)行,這是多數(shù)Rosetta Design應(yīng)用中采取的方法[29]。另一種方案是對(duì)多個(gè)主鏈結(jié)構(gòu)的集合(主鏈系綜)同時(shí)優(yōu)化氨基酸序列[30]。研究者提出了不同方法產(chǎn)生主鏈結(jié)構(gòu)系綜,以盡可能合理再現(xiàn)在天然同源蛋白中觀(guān)察到的序列差異引起的主鏈結(jié)構(gòu)的可能變化,如所謂的“backrub”運(yùn)動(dòng)[31]等。值得指出的是,這些方案不是對(duì)主鏈構(gòu)象空間進(jìn)行大范圍采樣。它們?nèi)匀恍枰獜囊粋€(gè)與最終結(jié)構(gòu)非常接近的初始主鏈結(jié)構(gòu)模型出發(fā)。最終結(jié)構(gòu)只是初始主鏈附近的小幅度變化(主鏈原子均方根位移最大在1~1.5 ?左右)。是否以這種方式處理主鏈柔性似乎對(duì)主要基于統(tǒng)計(jì)能量函數(shù)的ABACUS方法的設(shè)計(jì)成功率影響較小[32]。
1.3 多肽主鏈結(jié)構(gòu)的從頭設(shè)計(jì)
真正的從頭蛋白質(zhì)設(shè)計(jì)不應(yīng)僅限于用天然主鏈結(jié)構(gòu)作為設(shè)計(jì)目標(biāo)。滿(mǎn)足最基本化學(xué)要求(共價(jià)構(gòu)型正確、原子間無(wú)空間沖突)的可能主鏈構(gòu)象是非常多樣的。其中占比非常少的構(gòu)象才具有所謂的“可設(shè)計(jì)性”,即存在氨基酸序列,能自發(fā)穩(wěn)定地折疊成這種構(gòu)象。從頭設(shè)計(jì)的主鏈結(jié)構(gòu)必須具有高“可設(shè)計(jì)性”。如何保證這一點(diǎn),到目前為止,還沒(méi)有經(jīng)實(shí)驗(yàn)充分驗(yàn)證的普適方案。目前成功例子最多的,是通過(guò)引入結(jié)構(gòu)預(yù)測(cè)中使用的算法來(lái)形成問(wèn)題特異的啟發(fā)式方案。這類(lèi)方案的基本步驟為:定義要設(shè)計(jì)的目標(biāo)主鏈結(jié)構(gòu)的基本框架(二級(jí)結(jié)構(gòu)單元的組成、大致相對(duì)位置等),產(chǎn)生對(duì)主鏈結(jié)構(gòu)的約束條件;再把天然蛋白質(zhì)中的主鏈結(jié)構(gòu)片段和二級(jí)結(jié)構(gòu)元素拼接成滿(mǎn)足約束條件的初始結(jié)構(gòu);進(jìn)而用結(jié)構(gòu)預(yù)測(cè)中使用的能量函數(shù)、構(gòu)象采樣方法進(jìn)行結(jié)構(gòu)優(yōu)化,進(jìn)入主鏈結(jié)構(gòu)/序列設(shè)計(jì)的優(yōu)化循環(huán)。為提高人工構(gòu)建主鏈結(jié)構(gòu)的可設(shè)計(jì)性,Koga等[33]分析了二級(jí)結(jié)構(gòu)模式和三級(jí)結(jié)構(gòu)模體之間的關(guān)聯(lián)性,統(tǒng)計(jì)了不同空間連接方式的二級(jí)結(jié)構(gòu)單元間環(huán)區(qū)長(zhǎng)度和構(gòu)象分布,提出了如何設(shè)計(jì)環(huán)區(qū)長(zhǎng)度和構(gòu)象的經(jīng)驗(yàn)規(guī)則。目前用這種方法人工設(shè)計(jì)的主鏈結(jié)構(gòu)在二級(jí)結(jié)構(gòu)及其連接區(qū)等局部結(jié)構(gòu)特征上大多具有理想的結(jié)構(gòu)模式,缺乏天然蛋白展示出的主鏈結(jié)構(gòu)的豐富多樣性[34]。此外,主鏈結(jié)構(gòu)優(yōu)化時(shí)使用全原子能量函數(shù),依賴(lài)于側(cè)鏈類(lèi)型和構(gòu)象,故而通過(guò)主鏈優(yōu)化-序列優(yōu)化迭代的方式進(jìn)行設(shè)計(jì)。除了利用天然主鏈結(jié)構(gòu)和序列片段拼接設(shè)計(jì)人工蛋白外,F(xiàn)rappier和Mackenzie等還提出通過(guò)分析天然蛋白三維結(jié)構(gòu)數(shù)據(jù)庫(kù),定義空間相鄰的多個(gè)短片段構(gòu)成的三維結(jié)構(gòu)單元(稱(chēng)為T(mén)ERM),用TERM的組合來(lái)進(jìn)行蛋白質(zhì)設(shè)計(jì)[35-36]。另一可能的解決方案是構(gòu)建不依賴(lài)于側(cè)鏈類(lèi)型的主鏈能量模型,直接通過(guò)主鏈能量?jī)?yōu)化進(jìn)行主鏈設(shè)計(jì)[34,37-38]。
2 蛋白質(zhì)從頭設(shè)計(jì)的計(jì)算方法
本節(jié)從以下四個(gè)方面來(lái)介紹蛋白質(zhì)從頭設(shè)計(jì)的計(jì)算方法:氨基酸序列設(shè)計(jì);主鏈結(jié)構(gòu)設(shè)計(jì);蛋白質(zhì)分子間相互作用界面設(shè)計(jì);以及負(fù)設(shè)計(jì)。前兩個(gè)方面前文已提到;通過(guò)針對(duì)性調(diào)整序列和結(jié)構(gòu)設(shè)計(jì)方法,可為蛋白質(zhì)設(shè)計(jì)新的分子間相互作用界面,從而實(shí)現(xiàn)新的功能;負(fù)設(shè)計(jì)是一種概念性的設(shè)計(jì)思路,將在本節(jié)最后予以補(bǔ)充。
2.1 氨基酸序列設(shè)計(jì)方法
對(duì)于在給定目標(biāo)主鏈結(jié)構(gòu)下進(jìn)行序列設(shè)計(jì)的問(wèn)題,我們通過(guò)定義能量作為序列的函數(shù),把序列設(shè)計(jì)問(wèn)題轉(zhuǎn)化為在序列空間中找到能量最低的序列的最優(yōu)化問(wèn)題(圖2)。這里,能量函數(shù)是優(yōu)化問(wèn)題的目標(biāo)函數(shù),它定量評(píng)估不同序列與給定目標(biāo)主鏈結(jié)構(gòu)匹配的程度:能量越低的序列越有可能穩(wěn)定地形成與目標(biāo)一致的主鏈結(jié)構(gòu)。
2.1.1 序列設(shè)計(jì)的能量函數(shù)
序列設(shè)計(jì)的能量函數(shù)具有經(jīng)驗(yàn)的數(shù)學(xué)形式,其中既有基于物理原理的能量項(xiàng),也有通過(guò)對(duì)蛋白質(zhì)數(shù)據(jù)庫(kù)進(jìn)行統(tǒng)計(jì)分析得到的能量項(xiàng)。以現(xiàn)在應(yīng)用成功的例子最多、使用最廣泛的蛋白質(zhì)設(shè)計(jì)軟件Rosetta[25]為例,其能量函數(shù)是刻畫(huà)不同物理相互作用的能量項(xiàng)和部分統(tǒng)計(jì)能量項(xiàng)的線(xiàn)性組合,
(1) 物理能量項(xiàng)
用于刻畫(huà)蛋白質(zhì)等生物大分子體系的物理能量項(xiàng)可分為共價(jià)相互作用能量項(xiàng)(鍵長(zhǎng)、鍵角、二面角等)和非共價(jià)相互作用能量項(xiàng)(范德華相互作用、靜電相互作用,溶劑化自由能、氫鍵等)兩類(lèi)(圖3)。在序列設(shè)計(jì)中,鍵長(zhǎng)、鍵角以及決定立體構(gòu)型的非正常二面角等幾何性質(zhì)通常保持固定不變,共價(jià)相互作用能量項(xiàng)可視為常數(shù)??勺兊奈锢砟芰宽?xiàng)中,范德華相互作用能量項(xiàng)是隨原子間距離而變化的短程排斥和長(zhǎng)程色散吸引的加和。Rosetta使用了吸引和排斥可拆分加權(quán)的Lennard-Jones勢(shì)來(lái)計(jì)算范德華相互作用能量。靜電項(xiàng)刻畫(huà)帶電的極性官能團(tuán)之間的庫(kù)侖相互作用,Rosetta使用最初來(lái)自CHARMM分子力場(chǎng)的原子電荷分布來(lái)計(jì)算靜電能,并通過(guò)組優(yōu)化進(jìn)行了調(diào)整。氫鍵是親核重原子將電子密度提供給極性氫時(shí)形成的部分共價(jià)相互作用。Rosetta使用了靜電模型和特殊的氫鍵模型來(lái)計(jì)算氫鍵的能量,并且該能量被細(xì)分為不同的類(lèi)型分別計(jì)算:長(zhǎng)距離主鏈氫鍵、短距離主鏈氫鍵、主鏈和側(cè)鏈原子之間的氫鍵、側(cè)鏈之間的氫鍵。溶劑效應(yīng)在決定蛋白質(zhì)構(gòu)象時(shí)發(fā)揮了至關(guān)重要的作用。分子能量函數(shù)中常用的溶劑模型分為顯式溶劑模型和隱式溶劑模型[39]。顯式溶劑模型需要對(duì)每個(gè)溶劑分子的原子空間位置進(jìn)行采樣并據(jù)此計(jì)算溶質(zhì)-溶劑原子間的相互作用。由于計(jì)算量較大,顯式溶劑模型對(duì)序列設(shè)計(jì)是不合適的。隱式溶劑模型則通過(guò)定義只依賴(lài)于溶質(zhì)結(jié)構(gòu)坐標(biāo)的有效溶劑化自由能來(lái)處理溶劑效應(yīng)。Rosetta中使用的Lazaridis-Karplus(LK)隱式高斯排除模型[40],溶劑化自由能包括各向同性的溶劑化能量以及各向異性的溶劑化自由能兩部分,分別刻畫(huà)非極性和極性溶劑化效應(yīng)。
圖3
圖3 物理能量項(xiàng)
Fig. 3 Physical energy terms(Physical energy functions are generally constructed from the addition of covalent interaction terms as well as non covalent interaction terms)
(2)統(tǒng)計(jì)能量項(xiàng)
統(tǒng)計(jì)能量項(xiàng)是對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析得到的概率分布進(jìn)行轉(zhuǎn)化后得到的(圖4),通過(guò)對(duì)數(shù)據(jù)庫(kù)中不同的構(gòu)型變量分布進(jìn)行統(tǒng)計(jì)分析,將其出現(xiàn)的概率轉(zhuǎn)換為能量,對(duì)依賴(lài)于多個(gè)幾何變量的高維統(tǒng)計(jì)能量項(xiàng)(例如依賴(lài)于構(gòu)象和環(huán)境的主鏈位點(diǎn)之間的相互作用),需要發(fā)展特殊的技術(shù),才能恰當(dāng)?shù)毓烙?jì)多維概率密度,從而得到合理的統(tǒng)計(jì)能量函數(shù)??梢詮膬蓚€(gè)不同角度來(lái)理解序列設(shè)計(jì)的統(tǒng)計(jì)能量項(xiàng)。一是從統(tǒng)計(jì)熱力學(xué)角度,在平衡態(tài),物理系統(tǒng)處于不同微觀(guān)狀態(tài)的概率服從玻爾茲曼分布,
圖4
圖4 不同類(lèi)型的統(tǒng)計(jì)能量項(xiàng)
Fig. 4 Statistical energy terms of various types(Different statistical energy functions are obtained by transforming the probability distributions obtained from statistical analysis of different kinds of data)
需要注意到,無(wú)論是微觀(guān)狀態(tài)的概率P
這樣的殘基類(lèi)型依賴(lài)的統(tǒng)計(jì)能量,可以和物理能量項(xiàng)加權(quán)組合起來(lái),用于彌補(bǔ)物理能量項(xiàng)的不足。Rosetta總能量中就使用了多個(gè)這樣的單殘基統(tǒng)計(jì)能量項(xiàng),包括反映Ramachandran主鏈二面角對(duì)殘基類(lèi)型影響的能量項(xiàng)、側(cè)鏈構(gòu)象依賴(lài)的能量項(xiàng)等。此外,Rosetta還使用幾何參數(shù)的統(tǒng)計(jì)概率分布來(lái)計(jì)算半胱氨酸形成的二硫鍵的能量。值得注意的是,在用這種方法考慮統(tǒng)計(jì)能量項(xiàng)時(shí),我們假設(shè)了不同結(jié)構(gòu)特征(如主鏈二面角、溶劑暴露程度、二級(jí)結(jié)構(gòu)類(lèi)型等)對(duì)殘基類(lèi)型的影響是相互獨(dú)立、可互相加和的。這個(gè)假設(shè)實(shí)際上是不成立的,它對(duì)統(tǒng)計(jì)能量函數(shù)帶來(lái)的不利影響可能比較大。
本文作者課題組提出的ABACUS方法[27-28],使用了主要基于統(tǒng)計(jì)能量項(xiàng)的能量模型來(lái)進(jìn)行序列設(shè)計(jì)。其主鏈結(jié)構(gòu)依賴(lài)的能量被分解為單殘基項(xiàng)和殘基間兩兩相互作用項(xiàng)的加和。這兩類(lèi)能量項(xiàng)都是通過(guò)直接統(tǒng)計(jì)在給定主鏈結(jié)構(gòu)特征的前提下的氨基酸側(cè)鏈類(lèi)型或類(lèi)型組合的概率分布得到的。不同于以往的統(tǒng)計(jì)能量項(xiàng),ABACUS把不同結(jié)構(gòu)特征組合起來(lái),作為決定氨基酸類(lèi)型概率分布的聯(lián)合條件,單殘基能量項(xiàng)由氨基酸所在位置的二級(jí)結(jié)構(gòu)類(lèi)型、Ramachandran主鏈二面角、溶劑可及性面積這些特征同時(shí)決定;而殘基間相互作用項(xiàng)則在同時(shí)考慮兩個(gè)主鏈位點(diǎn)的上述結(jié)構(gòu)特征之外,還考慮位點(diǎn)間的相對(duì)位置(包括距離和取向),把所有結(jié)構(gòu)特征作為影響殘基類(lèi)型組合概率的聯(lián)合條件。除主鏈依賴(lài)的殘基類(lèi)型能量外,ABACUS總能量中還包括了主鏈構(gòu)象依賴(lài)的rotamer能量以及原子間空間堆積能量。它們是通過(guò)對(duì)天然蛋白側(cè)鏈構(gòu)象分布、原子間距離分布分別進(jìn)行統(tǒng)計(jì)得到的。
(3) 確定不同能量項(xiàng)的權(quán)重
上述把不同類(lèi)型能量項(xiàng)組合起來(lái)構(gòu)成總能量的方案是一種經(jīng)驗(yàn)選擇。參與組合的不同能量項(xiàng)可能反復(fù)、冗余地包括了同一物理因素的貢獻(xiàn)(比如除范德華相互作用外,主鏈構(gòu)象、側(cè)鏈構(gòu)象等能量項(xiàng)也會(huì)包括范德華相互作用的貢獻(xiàn))。對(duì)各能量項(xiàng)引入待定權(quán)重能一定程度抵消這種冗余計(jì)算的不利影響。另外,把這些權(quán)重作為可調(diào)參數(shù)來(lái)擬合實(shí)驗(yàn)數(shù)據(jù),我們還可能把實(shí)驗(yàn)數(shù)據(jù)中包含的一些其他信息籠統(tǒng)地引入模型中,從而改善模型。目前,用實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練優(yōu)化權(quán)重最有效的方法是最大化天然序列恢復(fù)比例。其基本思想是使用能量函數(shù)重新設(shè)計(jì)天然蛋白質(zhì)的序列,檢查各位點(diǎn)重新設(shè)計(jì)的氨基酸殘基類(lèi)型與天然殘基類(lèi)型是否一致。在實(shí)際應(yīng)用時(shí),我們可以基于待優(yōu)化的權(quán)重的特點(diǎn)對(duì)這一基本思路進(jìn)行調(diào)整。例如:保持氨基酸序列不變,只優(yōu)化各位點(diǎn)的rotamer類(lèi)型,檢查預(yù)測(cè)的側(cè)鏈構(gòu)象和天然構(gòu)象的偏差;只重設(shè)計(jì)一個(gè)位點(diǎn)的殘基類(lèi)型,保持其他位點(diǎn)的天然殘基類(lèi)型不變(單位點(diǎn)設(shè)計(jì)),等等。
2.1.2 序列和側(cè)鏈構(gòu)象空間的搜索和優(yōu)化算法
定義能量函數(shù)后,序列設(shè)計(jì)的下一步是確定總能量最低(或盡可能低)的氨基酸序列。由于總能量還依賴(lài)于側(cè)鏈構(gòu)象,該搜索優(yōu)化過(guò)程同時(shí)確定側(cè)鏈類(lèi)型和rotamer?,F(xiàn)在已經(jīng)有多種方法來(lái)解決此問(wèn)題,包括確定性?xún)?yōu)化算法(例如死端消除、平均場(chǎng)優(yōu)化)以及隨機(jī)優(yōu)化算法(如模擬退火、遺傳算法)[41]。
確定性?xún)?yōu)化算法可以解決全局最小的問(wèn)題。但是蛋白質(zhì)設(shè)計(jì)搜索空間沿多個(gè)維度(即序列空間,側(cè)鏈構(gòu)象空間,骨架構(gòu)象空間)迅速增大、物理模型可能太復(fù)雜等,可能導(dǎo)致確定性?xún)?yōu)化算法無(wú)法應(yīng)用。確定性?xún)?yōu)化算法例如死端消除法經(jīng)常應(yīng)用于較小的蛋白質(zhì)或少數(shù)位點(diǎn)的氨基酸殘基類(lèi)型優(yōu)化問(wèn)題。但是確定性?xún)?yōu)化算法在最近也有一些大的改進(jìn),例如蛋白質(zhì)設(shè)計(jì)的CLEVER算法[42],該算法建立在Keating實(shí)驗(yàn)室以前開(kāi)發(fā)的簇?cái)U(kuò)展算法[43]的基礎(chǔ)上。用于蛋白質(zhì)設(shè)計(jì)的簇?cái)U(kuò)展是一種將復(fù)雜的三維原子級(jí)能量函數(shù)(是原子坐標(biāo)的函數(shù))映射到僅依賴(lài)于序列的簡(jiǎn)單線(xiàn)性函數(shù)的技術(shù)。因此,簇?cái)U(kuò)展將輸入的物理能量模型映射為一個(gè)簡(jiǎn)單得多的模型,然后可以使用整數(shù)線(xiàn)性規(guī)劃求解器來(lái)有效地找到新模型中的最佳序列。蛋白質(zhì)設(shè)計(jì)軟件OSPRREY3.0使用基于成本函數(shù)網(wǎng)絡(luò)(CFN)處理的最先進(jìn)組合優(yōu)化技術(shù),使找到全局最小序列的計(jì)算過(guò)程加速了幾個(gè)數(shù)量級(jí)[44]。
相對(duì)于確定性?xún)?yōu)化算法,隨機(jī)優(yōu)化算法實(shí)現(xiàn)更為簡(jiǎn)單。盡管隨機(jī)優(yōu)化只是找到能量盡可能低的序列,不保證得到全局最優(yōu)解,但考慮到能量函數(shù)本身并不是百分之百準(zhǔn)確,并且能正確折疊成目標(biāo)結(jié)構(gòu)的序列不唯一,隨機(jī)優(yōu)化找到的低能量序列和真正的全局能量最低序列實(shí)際上是同等有效的。用Monte Carlo模擬退火進(jìn)行隨機(jī)優(yōu)化的簡(jiǎn)單算法為:從隨機(jī)選擇的初始序列出發(fā);計(jì)算當(dāng)前序列能量,每步隨機(jī)突變一個(gè)或多個(gè)位點(diǎn)的殘基,計(jì)算能量變化;根據(jù)能量變化值和Metropolis判據(jù)決定接受或拒絕突變;反復(fù)迭代該步驟,至能量不再降低。使用Metropolis判據(jù)導(dǎo)致降低能量的突變均會(huì)被接受,而使能量升高的突變有一定概率會(huì)被接受。該判據(jù)中使用“溫度”作為參數(shù)來(lái)度量能量變化的大小。選擇高溫參數(shù)時(shí)能量被容許發(fā)生大的漲落,而低溫時(shí)能量降低到局部極小值附近后漲落很小。在模擬退火優(yōu)化中,模擬從高溫開(kāi)始,以消除初始序列中大范圍的不合理成分,然后逐步降低溫度,以更精確地確定能量極小序列。
2.1.3 考慮主鏈結(jié)構(gòu)的柔性
相似但不完全一樣的氨基酸序列折疊形成的穩(wěn)定主鏈結(jié)構(gòu)也是相近的,但不完全一樣。在序列設(shè)計(jì)中考慮主鏈骨架柔性,可能可以增加設(shè)計(jì)結(jié)果的多樣性,找到更多能滿(mǎn)足設(shè)計(jì)目標(biāo)的結(jié)果。另外,由于能量計(jì)算依賴(lài)于結(jié)構(gòu),如果能精細(xì)處理與序列改變相對(duì)應(yīng)的主鏈結(jié)構(gòu)變化,可以更精確地計(jì)算給定氨基酸序列的能量。后者對(duì)準(zhǔn)確設(shè)計(jì)分子間相互作用界面可能非常重要,因?yàn)閷?duì)分子間特異性識(shí)別非常重要的氫鍵、鹽橋等特異性相互作用更精細(xì)地依賴(lài)于三維結(jié)構(gòu)。目前還沒(méi)有各方面都比較好的處理主鏈結(jié)構(gòu)柔性的方法,現(xiàn)有處理方法可分為考慮單一主鏈構(gòu)象態(tài)的柔性擾動(dòng)的方法,以及基于多主鏈結(jié)構(gòu)設(shè)計(jì)序列的方法。
(1)考慮對(duì)單一主鏈構(gòu)象態(tài)柔性擾動(dòng)的方法
受實(shí)驗(yàn)觀(guān)察到的蛋白質(zhì)晶體結(jié)構(gòu)中主鏈構(gòu)象局部漲落模式的啟發(fā),Davis等[31]提出了一種主鏈原子協(xié)同變化模式,稱(chēng)為backrub。在該模式下,相鄰三個(gè)殘基的主鏈原子的坐標(biāo)變化依賴(lài)于同一個(gè)參數(shù)。在Rosetta全原子力場(chǎng)的背景下,Smith等[45]研究了使用backrub move來(lái)進(jìn)行構(gòu)象采樣的方法。Frappier等[35]也同樣利用這一方法來(lái)設(shè)計(jì)與特定配體結(jié)合的蛋白質(zhì)。在設(shè)計(jì)過(guò)程中,他們考慮配體相對(duì)于蛋白質(zhì)的可能旋轉(zhuǎn)和平移,同時(shí)考慮蛋白質(zhì)主鏈原子的協(xié)同運(yùn)動(dòng),將這些對(duì)蛋白質(zhì)和配體坐標(biāo)的操作結(jié)合起來(lái),稱(chēng)之為coupled moves。為了考慮氨基酸側(cè)鏈的改變,他們根據(jù)主鏈構(gòu)象變化,計(jì)算移動(dòng)的主鏈片段上每個(gè)潛在突變或側(cè)鏈構(gòu)象的能量變化,根據(jù)Boltzmann分布計(jì)算每個(gè)潛在突變或側(cè)鏈構(gòu)象的概率,用于選擇側(cè)鏈構(gòu)象。
(2)基于多主鏈結(jié)構(gòu)設(shè)計(jì)序列的方法
這類(lèi)方法常常被稱(chēng)為基于結(jié)構(gòu)系綜的設(shè)計(jì)方法,這里“系綜”是指多個(gè)主鏈結(jié)構(gòu)的集合。按統(tǒng)計(jì)熱力學(xué)理論,同樣的序列能夠形成的主鏈結(jié)構(gòu)并不是唯一的,只是不同的主鏈結(jié)構(gòu)具有不同的概率。系綜方法用多個(gè)主鏈結(jié)構(gòu)來(lái)代表目標(biāo)結(jié)構(gòu)的概率分布,同時(shí)優(yōu)化序列處于多個(gè)目標(biāo)結(jié)構(gòu)狀態(tài)的能量,因此又被稱(chēng)為多狀態(tài)設(shè)計(jì)。由于計(jì)算量較大,可包含在系綜中的主鏈構(gòu)象數(shù)目一般不能太多。在蛋白質(zhì)與小分子配體界面設(shè)計(jì)中,基于對(duì)結(jié)構(gòu)柔性的考慮,Lanouette等[46]通過(guò)構(gòu)建主鏈結(jié)構(gòu)系綜進(jìn)行多狀態(tài)設(shè)計(jì)來(lái)預(yù)測(cè)SMYD2蛋白的底物識(shí)別空間。除此之外,Hilpert等[47]開(kāi)發(fā)了一種新的多特異性算法,即設(shè)計(jì)能與不同配體分子結(jié)合的單個(gè)目標(biāo)蛋白。在該算法中,處于復(fù)合物狀態(tài)的蛋白質(zhì)剛開(kāi)始被冗余設(shè)計(jì)為具有不同的序列;隨著設(shè)計(jì)推進(jìn),越來(lái)越多的位置被根據(jù)前期設(shè)計(jì)結(jié)果約束為相同的殘基類(lèi)型占據(jù),從而使設(shè)計(jì)結(jié)果逐步收斂到單一序列;最后通過(guò)貪婪選擇算法(greedy selection algorithm)進(jìn)行最終單一序列優(yōu)化。
2.2 主鏈結(jié)構(gòu)設(shè)計(jì)方法
主鏈結(jié)構(gòu)設(shè)計(jì)方法可分為兩大類(lèi)(圖5)。一類(lèi)是啟發(fā)式的主鏈設(shè)計(jì)方法,它使用天然片段進(jìn)行拼接,拼接時(shí)可用參數(shù)化的模型去約束整體結(jié)構(gòu),搭建出原子水平的主鏈模型,然后再用原子水平的能量函數(shù)進(jìn)行主鏈優(yōu)化。因?yàn)槭褂迷铀降哪芰亢瘮?shù),優(yōu)化時(shí)需要考慮側(cè)鏈的原子,所以是在預(yù)設(shè)側(cè)鏈的基礎(chǔ)上進(jìn)行迭代設(shè)計(jì)。另一類(lèi)是使用不依賴(lài)于側(cè)鏈的能量函數(shù)進(jìn)行主鏈設(shè)計(jì)方法,這類(lèi)方法可用于在序列待定的條件下進(jìn)行主鏈結(jié)構(gòu)的采樣和優(yōu)化。
圖5
圖5 兩種主鏈設(shè)計(jì)策略
Fig. 5 Two backbone design strategies(Up, Splicing with the native fragment into a new backbone. Down, Main chain design methods for optimizing statistical energy functions)
2.2.1 啟發(fā)式的主鏈設(shè)計(jì)方法
保證主鏈的局部結(jié)構(gòu)具有高“可設(shè)計(jì)性”的一種常用方法是用天然存在的蛋白質(zhì)片段來(lái)拼接組裝新的主鏈[48],除了提供良好的二級(jí)結(jié)構(gòu)之外,這些片段還可以包含在二級(jí)結(jié)構(gòu)的起始和終止處高可設(shè)計(jì)性的結(jié)構(gòu)模式。此外,對(duì)結(jié)構(gòu)單元之間的堆積可采用參數(shù)化的模型:通過(guò)少量的參數(shù)來(lái)描述經(jīng)驗(yàn)觀(guān)察到的各類(lèi)蛋白質(zhì)結(jié)構(gòu)單元之間的堆積特征,用于對(duì)片段拼接產(chǎn)生的主鏈結(jié)構(gòu)進(jìn)行約束?;谔囟ńY(jié)構(gòu)的參數(shù)化模型,可以快速生成大量蛋白質(zhì)骨架。值得一提的是,這種方法對(duì)于卷曲螺旋蛋白(由圍繞超螺旋中心軸的兩個(gè)或多個(gè)α-螺旋組成)的設(shè)計(jì)特別適用,最新應(yīng)用包括跨膜蛋白[49- 50]和α-螺旋桶[51]的從頭設(shè)計(jì)等。這種啟發(fā)式的主鏈設(shè)計(jì)方法的優(yōu)點(diǎn)在于簡(jiǎn)明,適用于設(shè)計(jì)理想的主鏈結(jié)構(gòu)。然而也正因?yàn)槭褂昧颂烊唤Y(jié)構(gòu)片段,它難以用于設(shè)計(jì)復(fù)雜的、非理想的主鏈結(jié)構(gòu)。
Rosetta作為一種啟發(fā)式的主鏈設(shè)計(jì)方法使用了序列能量和主鏈能量相耦合的全原子能量函數(shù),這意味著只有在假設(shè)序列已給定時(shí)才能進(jìn)行主鏈設(shè)計(jì)與優(yōu)化,因此Rosetta實(shí)際采用預(yù)定序列的迭代策略(假定序列-優(yōu)化主鏈-重新設(shè)計(jì)序列-優(yōu)化主鏈)進(jìn)行優(yōu)化,這增加了對(duì)計(jì)算量的要求。
2.2.2 使用不依賴(lài)于側(cè)鏈的能量函數(shù)進(jìn)行主鏈設(shè)計(jì)
根據(jù)上述關(guān)于啟發(fā)式的主鏈設(shè)計(jì)方法的分析,若能設(shè)計(jì)出一個(gè)通用的不依賴(lài)于側(cè)鏈的主鏈能量函數(shù),則在設(shè)計(jì)主鏈時(shí)將會(huì)更加自由。構(gòu)建這類(lèi)能量模型的途徑之一是將前述統(tǒng)計(jì)能量函數(shù)的原理應(yīng)用于天然蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)。早期,MacDonald等[52]發(fā)展了基于α-C原子的能量函數(shù)來(lái)模擬主鏈的局部構(gòu)象(即一段連續(xù)殘基的主鏈構(gòu)象)。在不依賴(lài)側(cè)鏈的條件下,此能量函數(shù)的一些低能量結(jié)構(gòu)仍與實(shí)驗(yàn)結(jié)構(gòu)相似,說(shuō)明能量高低能在一定程度上反映可設(shè)計(jì)性高低。該模型在描述序列上距離較遠(yuǎn)的主鏈堆積時(shí)使用了非常簡(jiǎn)單的函數(shù),因此其用于優(yōu)化完整主鏈時(shí)結(jié)果與實(shí)際主鏈結(jié)構(gòu)的差別比較大,不適用于下一步的序列設(shè)計(jì)。我們?cè)谏栽绲墓ぷ髦?,?bào)道了一種稱(chēng)為tetraBASE的統(tǒng)計(jì)能量,可以用于優(yōu)化二級(jí)結(jié)構(gòu)單元之間的主鏈堆積[11]。 該能量模型假設(shè)這種空間堆積相互作用依賴(lài)于二級(jí)結(jié)構(gòu)類(lèi)型、殘基主鏈的相對(duì)取向以及原子間距離。計(jì)算結(jié)果表明,在不指定二級(jí)結(jié)構(gòu)單元的氨基酸序列的情況下,通過(guò)Monte Carlo模擬退火優(yōu)化不同二級(jí)結(jié)構(gòu)單元之間的相對(duì)位置,可以原子水平均方誤差1.5~2.5 ?(1?=10-10 m)的精度再現(xiàn)天然蛋白中二級(jí)結(jié)構(gòu)的三維排列。這說(shuō)明基于優(yōu)化統(tǒng)計(jì)能量函數(shù)得到高可設(shè)計(jì)性的原子水平的三維主鏈結(jié)構(gòu)模型是可能的。然而,tetraBASE能量函數(shù)不是連續(xù)、解析可導(dǎo)的,它也不包含描述二級(jí)結(jié)構(gòu)單元內(nèi)部柔性或環(huán)區(qū)構(gòu)象的能量項(xiàng),用它還無(wú)法實(shí)現(xiàn)主鏈完全柔性的構(gòu)象設(shè)計(jì)。最近,我們建立了一套完整描述柔性主鏈結(jié)構(gòu)的統(tǒng)計(jì)能量函數(shù),其中側(cè)鏈主要作為空間位阻的保持者參與其中,因此只需使用簡(jiǎn)化的序列即可進(jìn)行主鏈的采樣和優(yōu)化。我們把這個(gè)模型稱(chēng)為SCUBA(side chain unspecialized backbone arrangement,待發(fā)表)。SCUBA使用神經(jīng)網(wǎng)絡(luò)能量項(xiàng)來(lái)反映在高可設(shè)計(jì)性結(jié)構(gòu)中多種幾何結(jié)構(gòu)參數(shù)間的相互依賴(lài)關(guān)系,同時(shí)保證能量對(duì)原子坐標(biāo)是連續(xù)解析可導(dǎo)的,從而適用于隨機(jī)動(dòng)力學(xué)模擬等成熟的分子構(gòu)象模擬采樣方法。在初步驗(yàn)證中,我們已得到一例實(shí)例,用SCUBA設(shè)計(jì)主鏈后再用ABACUS進(jìn)行序列設(shè)計(jì),得到的蛋白質(zhì)實(shí)驗(yàn)結(jié)構(gòu)符合預(yù)期(待發(fā)表)。SCUBA提供了一種新的、在序列全部或部分待定的情況下對(duì)高可設(shè)計(jì)性主鏈結(jié)構(gòu)進(jìn)行采樣和優(yōu)化的方法。用SCUBA進(jìn)行結(jié)構(gòu)設(shè)計(jì)可充分考慮主鏈柔性,從而可能推動(dòng)配體結(jié)合蛋白、酶、蛋白相互作用界面設(shè)計(jì)等功能蛋白設(shè)計(jì)的發(fā)展。
2.3 蛋白質(zhì)分子間相互作用界面的設(shè)計(jì)方法
一種蛋白質(zhì)的功能在很大程度上是由它與其他特定蛋白質(zhì)或特定小分子的特異性識(shí)別所決定的。把蛋白質(zhì)從頭設(shè)計(jì)的基本算法進(jìn)行一些針對(duì)性的調(diào)整后,可應(yīng)用于設(shè)計(jì)特異的分子間相互作用。目前已有一些設(shè)計(jì)成功的例子報(bào)道,盡管大多數(shù)從頭設(shè)計(jì)的分子相互作用的親和力相對(duì)于天然相互作用而言還不是太高。
2.3.1 設(shè)計(jì)蛋白質(zhì)-蛋白質(zhì)間的相互作用界面
這類(lèi)界面一般位于蛋白質(zhì)表面。設(shè)計(jì)的基本步驟如圖6所示,首先設(shè)計(jì)與目標(biāo)受體(綠色)形成復(fù)合物的配體蛋白的主鏈構(gòu)象(紅色),再設(shè)計(jì)和優(yōu)化配體蛋白界面的殘基類(lèi)型,從而得到最終設(shè)計(jì)結(jié)果(藍(lán)色)。設(shè)計(jì)復(fù)合物主鏈結(jié)構(gòu)時(shí),要考慮的首要特性是兩個(gè)表面幾何形狀的互補(bǔ)性。如果要從頭設(shè)計(jì)新的相互作用界面,這個(gè)性質(zhì)可在表面殘基類(lèi)型待定的前提下,用來(lái)指導(dǎo)分子對(duì)接等算法,確定兩個(gè)分子主鏈骨架之間的相對(duì)位置和取向,即復(fù)合物的主鏈結(jié)構(gòu)。如果是對(duì)已有復(fù)合物界面進(jìn)行序列重設(shè)計(jì),則可以使用原始復(fù)合物的主鏈結(jié)構(gòu)??傮w而言,復(fù)合物主鏈結(jié)構(gòu)設(shè)計(jì)采用啟發(fā)式分子對(duì)接的方案居多,盡管目前采用這些方案能得到的界面往往達(dá)不到預(yù)期的相互作用密度[53]。
圖6
圖6 蛋白質(zhì)-蛋白質(zhì)界面設(shè)計(jì)的基本步驟
Fig. 6 Basic steps of protein-protein interface design[The backbone conformation of the ligand protein (red) in complex with the target receptor (green) is first designed,then the residue types at the ligand protein interface are designed and optimized, resulting in the final design result (blue)]
在確定復(fù)合物主鏈結(jié)構(gòu)后,可以用自動(dòng)優(yōu)化的方法重新設(shè)計(jì)界面處的氨基酸序列[18]。界面序列設(shè)計(jì)的一個(gè)主要困難是界面殘基間的相互作用既包括疏水相互作用,也存在大量氫鍵、鹽橋等極性相互作用。其中疏水相互作用對(duì)親和力的絕對(duì)貢獻(xiàn)很大,但缺乏特異性。而極性相互作用是保證相互作用特異性的主要因素。關(guān)于蛋白質(zhì)分子間界面殘基分布的一個(gè)流行的模型是“O型環(huán)”,環(huán)的中心是疏水殘基緊密堆積形成的核,該核被極性相互作用殘基環(huán)繞。目前,對(duì)殘基間極性相互作用設(shè)計(jì)的準(zhǔn)確度還不高。如何利用界面的各類(lèi)序列特征從頭設(shè)計(jì)親和力和特異性媲美天然界面的人工蛋白相互作用界面,仍然是十分大的挑戰(zhàn)。另一種設(shè)計(jì)思路,是把天然蛋白質(zhì)復(fù)合物中反復(fù)出現(xiàn)的界面結(jié)構(gòu)模式“移植”到其他表面。比較典型的是平行或反平行堆積的螺旋產(chǎn)生的蛋白界面。這樣的界面多肽主鏈結(jié)構(gòu)規(guī)則,殘基側(cè)鏈間形成的規(guī)則氫鍵網(wǎng)絡(luò)被成功“移植”的可能性更高。
2.3.2 設(shè)計(jì)小分子配體識(shí)別口袋
對(duì)酶、別構(gòu)蛋白等,小分子配體結(jié)合口袋是其功能中心。特異性識(shí)別口袋的設(shè)計(jì)是功能蛋白質(zhì)設(shè)計(jì)的重點(diǎn)。一種“由內(nèi)向外”(inside-out)的基本設(shè)計(jì)思路是[9]:首先設(shè)計(jì)一個(gè)或多個(gè)由圍繞目標(biāo)配體的孤立殘基組成的虛擬口袋結(jié)構(gòu),這些殘基的位置和構(gòu)象使其能夠以最有利的方式與配體發(fā)生相互作用;下一步是用虛擬口袋篩選能夠提供這樣一個(gè)口袋結(jié)構(gòu)的蛋白質(zhì)骨架(RosettaMatch算法假設(shè)給定主鏈骨架不變,找到能與構(gòu)成虛擬口袋的殘基位置達(dá)到最佳幾何匹配的一組骨架位點(diǎn)[54]);接著,通過(guò)篩選大量主鏈骨架,得到最佳匹配的主鏈骨架以及相應(yīng)的口袋殘基定位組合;最后,把虛擬口袋轉(zhuǎn)移到篩選出的蛋白骨架中后,可對(duì)口袋附近的殘基再進(jìn)行重新設(shè)計(jì)和優(yōu)化。
2.3.3 設(shè)計(jì)氫鍵網(wǎng)絡(luò)
無(wú)論是蛋白質(zhì)-蛋白質(zhì)相互作用界面還是小分子結(jié)合口袋,分子間氫鍵網(wǎng)絡(luò)對(duì)在保證高親和力的同時(shí)維持相互作用的高特異性具有重要意義。氫鍵網(wǎng)絡(luò)設(shè)計(jì)的困難之一是其形成需要多個(gè)位點(diǎn)的殘基類(lèi)型和側(cè)鏈構(gòu)象的協(xié)同變化。Boyken等[55]在2016年開(kāi)發(fā)出一種計(jì)算方法HBNet更充分地組合搜索殘基類(lèi)型和側(cè)鏈構(gòu)象,以快速枚舉基于給定主鏈結(jié)構(gòu)可能實(shí)現(xiàn)的所有側(cè)鏈氫鍵網(wǎng)絡(luò)。HBNet首先對(duì)所有極性側(cè)鏈對(duì)應(yīng)的所有構(gòu)象(rotamer)之間的氫鍵和空間排斥相互作用進(jìn)行預(yù)先計(jì)算。HBNet的方法在2018年得到了改進(jìn)形成MC HBNet[56],使氫鍵網(wǎng)絡(luò)的設(shè)計(jì)與計(jì)算速度更快。序列設(shè)計(jì)中保持主鏈結(jié)構(gòu)固定對(duì)設(shè)計(jì)氫鍵網(wǎng)絡(luò)有不利影響,未來(lái)可結(jié)合考慮主鏈柔性的設(shè)計(jì)技術(shù)來(lái)進(jìn)行氫鍵網(wǎng)絡(luò)設(shè)計(jì)。
2.4 負(fù)設(shè)計(jì)方法
蛋白質(zhì)結(jié)構(gòu)和功能并不直接取決于與單一結(jié)構(gòu)狀態(tài)對(duì)應(yīng)的絕對(duì)自由能,而是取決于目標(biāo)狀態(tài)相對(duì)于其他狀態(tài)的自由能差。例如,蛋白質(zhì)折疊的穩(wěn)定性取決于正確折疊態(tài)相對(duì)于非折疊態(tài)、錯(cuò)誤折疊態(tài)、聚集態(tài)等的自由能差;分子間結(jié)合的親和力取決于結(jié)合態(tài)相對(duì)于游離態(tài)的自由能差,等等。由于技術(shù)上的因素,絕大多數(shù)蛋白質(zhì)計(jì)算設(shè)計(jì)僅考慮在目標(biāo)結(jié)構(gòu)狀態(tài)下去優(yōu)化氨基酸序列,以盡可能降低目標(biāo)結(jié)構(gòu)狀態(tài)的自由能。這種聚焦于提高目標(biāo)結(jié)構(gòu)狀態(tài)穩(wěn)定性的設(shè)計(jì)思路被稱(chēng)為正設(shè)計(jì)(圖7)。另一種可能的設(shè)計(jì)思路,則是提高目標(biāo)狀態(tài)之外其他結(jié)構(gòu)狀態(tài)的自由能,降低它們相對(duì)于目標(biāo)結(jié)構(gòu)的穩(wěn)定性。這種思路被稱(chēng)為負(fù)設(shè)計(jì)(圖7)。負(fù)設(shè)計(jì)機(jī)制被認(rèn)為在天然蛋白質(zhì)序列進(jìn)化過(guò)程中普遍存在[57]。如果要在蛋白質(zhì)設(shè)計(jì)中自動(dòng)地考慮負(fù)設(shè)計(jì),需要進(jìn)行多狀態(tài)設(shè)計(jì),并引入目標(biāo)狀態(tài)之外的結(jié)構(gòu)狀態(tài),通過(guò)改變序列使設(shè)計(jì)蛋白的目標(biāo)結(jié)構(gòu)和可能的競(jìng)爭(zhēng)結(jié)構(gòu)有明顯的能量差距,這樣設(shè)計(jì)出的氨基酸序列可以很容易地折疊為目標(biāo)結(jié)構(gòu)。而且僅僅關(guān)注目標(biāo)結(jié)構(gòu)并通過(guò)改變序列降低其能量有時(shí)可能不會(huì)改善目標(biāo)蛋白質(zhì)結(jié)構(gòu)的折疊性,例如對(duì)于能量簡(jiǎn)并的競(jìng)爭(zhēng)結(jié)構(gòu)(蛋白質(zhì)-蛋白質(zhì)相互作用和螺旋低聚體)很容易產(chǎn)生的情況。所以需要考慮在降低目標(biāo)結(jié)構(gòu)能量的同時(shí)盡量提高其與其他狀態(tài)結(jié)構(gòu)的能量差距。
圖7
圖7 正設(shè)計(jì)與負(fù)設(shè)計(jì)
Fig. 7 Positive design versus negative design(Positive design only considers decreasing target state energy and does not consider other states. Negative design then needs to raise the energy of the other states so that their energy differences from the target state increase)
Hallen等[38]在2017年提出了一種多態(tài)蛋白質(zhì)設(shè)計(jì)的通用程序,使用一個(gè)“適應(yīng)度函數(shù)”來(lái)根據(jù)序列滿(mǎn)足特定設(shè)計(jì)任務(wù)目標(biāo)的程度來(lái)對(duì)多態(tài)蛋白質(zhì)進(jìn)行排名。通過(guò)首先將單個(gè)序列匹配到多個(gè)狀態(tài),計(jì)算該序列在每個(gè)狀態(tài)上的能量,之后將這些能量合并以產(chǎn)生單個(gè)值,來(lái)評(píng)估適應(yīng)度函數(shù)。通過(guò)每次迭代的多態(tài)設(shè)計(jì),降低目標(biāo)構(gòu)象態(tài)的能量,擴(kuò)大非目標(biāo)態(tài)構(gòu)象集的能量,最終達(dá)到多態(tài)設(shè)計(jì)的準(zhǔn)確性。在2017年他們又將多種多態(tài)設(shè)計(jì)方法與Rosetta結(jié)合形成“Rosetta:MSF”,一種用于多狀態(tài)計(jì)算蛋白質(zhì)設(shè)計(jì)的模塊化框架[58]。對(duì)有些問(wèn)題,例如相互作用界面設(shè)計(jì),基于多態(tài)設(shè)計(jì)引入負(fù)設(shè)計(jì)有一定的可行性。例如,為了增加蛋白質(zhì)-蛋白質(zhì)相互作用的特異性,可以利用負(fù)設(shè)計(jì)并懲罰那些有利于不良相互作用的序列。但是,需要考慮的蛋白質(zhì)分子可能結(jié)構(gòu)狀態(tài)常常太多,這種顯式考慮非目標(biāo)狀態(tài)進(jìn)行負(fù)設(shè)計(jì)的方法至今沒(méi)有較理想的策略,沒(méi)有得到廣泛應(yīng)用。盡管如此,負(fù)設(shè)計(jì)作為一種概念和思想,仍然可以用來(lái)定性分析和比較不同的正設(shè)計(jì)結(jié)果。例如,全疏水的界面和親/疏水組合的界面相比,后者可能功能上更優(yōu);實(shí)際上并非所有蛋白質(zhì)設(shè)計(jì)任務(wù)都可以通過(guò)優(yōu)化單個(gè)結(jié)構(gòu)的序列來(lái)建模。
3 蛋白質(zhì)計(jì)算設(shè)計(jì)應(yīng)用
隨著蛋白質(zhì)計(jì)算設(shè)計(jì)技術(shù)的發(fā)展,在合成生物學(xué)、生物醫(yī)學(xué)等領(lǐng)域逐步出現(xiàn)了相關(guān)的應(yīng)用。本節(jié)中我們不區(qū)分從頭設(shè)計(jì)和既有蛋白質(zhì)改造,主要按設(shè)計(jì)目的不同分以下三類(lèi)介紹不同的應(yīng)用研究:通過(guò)蛋白質(zhì)設(shè)計(jì)提高目標(biāo)結(jié)構(gòu)的穩(wěn)定性;設(shè)計(jì)特異性的蛋白質(zhì)小分子相互作用(包括酶活性中心);設(shè)計(jì)蛋白質(zhì)分子間的特異性識(shí)別。
3.1 目標(biāo)結(jié)構(gòu)穩(wěn)定性的提升
基于能量函數(shù)優(yōu)化序列,常常獲得結(jié)構(gòu)穩(wěn)定性非常高的設(shè)計(jì)蛋白。因此,蛋白質(zhì)計(jì)算設(shè)計(jì)被用于指導(dǎo)蛋白質(zhì)工程,改善天然蛋白的結(jié)構(gòu)穩(wěn)定性。另一個(gè)應(yīng)用是疫苗設(shè)計(jì),通過(guò)設(shè)計(jì)額外的主鏈骨架來(lái)維持抗原肽段的已知三維空間構(gòu)象。此外,還可以通過(guò)序列重設(shè)計(jì)提高蛋白質(zhì)在特定環(huán)境條件下的結(jié)構(gòu)穩(wěn)定性,如將膜蛋白改造為水溶性蛋白。以下將這幾類(lèi)應(yīng)用分別舉例說(shuō)明。
Mu等[3]利用Wijma等[59]提出的FRESCO方案來(lái)提高酶穩(wěn)定性。以黑曲霉葡萄糖氧化酶為突變對(duì)象,不僅根據(jù)FRESCO方案,使用FoldX和Rosetta_ddg計(jì)算能量,還利用ABACUS進(jìn)行能量計(jì)算,通過(guò)設(shè)定閾值來(lái)尋找遠(yuǎn)離活性位點(diǎn)的潛在穩(wěn)定性突變位點(diǎn)。隨后通過(guò)人工觀(guān)察和分子動(dòng)力學(xué)模擬來(lái)篩選突變集合,將提升穩(wěn)定性的突變選項(xiàng)整合起來(lái),最終得到多個(gè)穩(wěn)定突變體。與野生型相比,突變體能夠耐受更廣泛的溫度和pH范圍,并且顯示出的催化活性更高,最好的突變體耐受溫度較野生型提高了8.5 ℃,該突變體也在野生型會(huì)快速失活的pH6.0和pH7.0展現(xiàn)了更好的耐受性。Correia等[60]利用已知抗原結(jié)構(gòu)來(lái)定義疫苗的功能構(gòu)象,設(shè)計(jì)了穩(wěn)定該構(gòu)象的目標(biāo)拓?fù)浣Y(jié)構(gòu),而后用基于片段組裝的方法從頭設(shè)計(jì)出符合該拓?fù)浣Y(jié)構(gòu)的骨架,經(jīng)過(guò)多輪的序列設(shè)計(jì)和主鏈優(yōu)化的迭代,最終篩選出合理的結(jié)果并進(jìn)行了實(shí)驗(yàn)驗(yàn)證。Marcandalli等[61]通過(guò)設(shè)計(jì)蛋白質(zhì)自組裝納米顆粒作為骨架來(lái)固定并呈遞病毒性糖蛋白抗原復(fù)合物,從而在可控密度的條件下呈遞此病毒抗原,實(shí)現(xiàn)疫苗的定制設(shè)計(jì)。Sesterhenn等[62]建立了TopoBuilder系統(tǒng),借此來(lái)從頭設(shè)計(jì)能穩(wěn)定復(fù)雜結(jié)構(gòu)模體的蛋白質(zhì)。通過(guò)這個(gè)系統(tǒng),他們?cè)O(shè)計(jì)了能同時(shí)呈遞三種抗原的蛋白,其設(shè)計(jì)方法為:針對(duì)不同的且結(jié)構(gòu)復(fù)雜的抗原位點(diǎn),首先在二維空間上列舉適合的蛋白拓?fù)浣Y(jié)構(gòu),并使用理想的二級(jí)結(jié)構(gòu)單元和參數(shù)化設(shè)置將此二維空間投影至三維空間。通過(guò)這種方式,即可在不依賴(lài)模板的條件下設(shè)計(jì)所需的主鏈結(jié)構(gòu)。
3.2 蛋白質(zhì)-小分子相互作用的設(shè)計(jì)
通過(guò)重設(shè)計(jì)小分子結(jié)合界面,可以獲得新的酶等催化元件、轉(zhuǎn)錄因子、熒光蛋白等化學(xué)感受元件。Banda-Vazquez等[65]通過(guò)口袋遷移(將一個(gè)天然口袋移植到另一個(gè)主鏈骨架上)和基于統(tǒng)計(jì)配對(duì)位置的搜索方法(獲得與口袋殘基突變關(guān)聯(lián)但遠(yuǎn)離口袋的殘基),對(duì)小分子結(jié)合蛋白LAOBP進(jìn)行重設(shè)計(jì),使其成為谷氨酰胺的結(jié)合蛋白。Glasgow等[66]參考了天然法尼基焦磷酸鹽(FPP)-蛋白復(fù)合物模板,人工篩選了FPP的結(jié)合口袋模體(僅包含4個(gè)殘基),而后通過(guò)與大量骨架界面對(duì)接、柔性骨架(骨架系綜法)優(yōu)化和序列設(shè)計(jì)的方法,設(shè)計(jì)了被FPP調(diào)節(jié)的生物效應(yīng)器。為了設(shè)計(jì)能與高度缺電子的卟啉分子結(jié)合的非天然蛋白,Polizzi等[67]通過(guò)數(shù)學(xué)參數(shù)化模型從頭建立了反平行卷曲螺旋主鏈,并利用骨架系綜法進(jìn)行了柔性骨架設(shè)計(jì)??紤]到除了口袋位點(diǎn)以外,蛋白質(zhì)核心區(qū)域的殘基也可能會(huì)對(duì)其結(jié)合功能有影響,作者對(duì)所有內(nèi)部殘基和口袋位點(diǎn)進(jìn)行了序列重設(shè)計(jì),而非僅設(shè)計(jì)第一、二殼層的接觸殘基,最終設(shè)計(jì)出了高度熱穩(wěn)定的卟啉結(jié)合蛋白PS1。Dou等[68]在使用參數(shù)化方法首次成功從頭設(shè)計(jì)β-桶蛋白的基礎(chǔ)上,將其空腔與生色團(tuán)3,5-二氟-4-羥基亞芐基-咪唑啉酮進(jìn)行對(duì)接設(shè)計(jì),得到了從頭設(shè)計(jì)的熒光蛋白。Li等[4]通過(guò)底物結(jié)合口袋的重設(shè)計(jì),將芽孢桿菌YM55-1天冬氨酸酶狹窄的催化底物范圍拓展到作為互補(bǔ)氫胺化反應(yīng),且對(duì)底物耐受性最高達(dá)到300g/L,定向改變了芽孢桿菌YM55-1天冬氨酸酶的催化功能。
3.3 蛋白分子間的特異性識(shí)別設(shè)計(jì)
Leaver-Fay等[69]、Froning[70]提出了設(shè)計(jì)雙特異性抗體的方法,使用多狀態(tài)設(shè)計(jì)策略,并考慮引入非目標(biāo)狀態(tài)進(jìn)行負(fù)設(shè)計(jì)。Silva等[71]從頭設(shè)計(jì)了一個(gè)有著天然細(xì)胞因子結(jié)合位點(diǎn),然而拓?fù)浣Y(jié)構(gòu)和序列都不同于天然蛋白的人工細(xì)胞因子,此設(shè)計(jì)蛋白只結(jié)合天然白細(xì)胞介素-2的部分受體,卻不結(jié)合其他受體,隔絕了對(duì)部分下游細(xì)胞信號(hào)的影響。Chen等[72]通過(guò)用參數(shù)化的方法從頭設(shè)計(jì)螺旋主鏈骨架,并建立氫鍵網(wǎng)絡(luò)、環(huán)區(qū)的連接,進(jìn)行序列優(yōu)化,獲得多組具有特異性異源二聚能力的蛋白對(duì),并用它們構(gòu)建了蛋白質(zhì)邏輯門(mén)[73]。Langan等[74]針對(duì)信號(hào)通路中天然存在的相互作用蛋白,將控制蛋白功能的“籠子”、“插銷(xiāo)”和“鑰匙”分別設(shè)計(jì)于蛋白相互作用界面上,通過(guò)界面設(shè)計(jì)實(shí)現(xiàn)了調(diào)節(jié)某對(duì)蛋白相互作用的人工蛋白開(kāi)關(guān)設(shè)計(jì),并把這一設(shè)計(jì)用于內(nèi)源性信號(hào)通路的反饋控制[75]。
蛋白質(zhì)分子間的特異性識(shí)別設(shè)計(jì)也牽涉到組裝體的設(shè)計(jì),其可以應(yīng)用于新材料領(lǐng)域。Shen等[76]進(jìn)行了蛋白質(zhì)自組裝體的從頭設(shè)計(jì),使其可以聚集成微米級(jí)的細(xì)絲。他們首先建立了一個(gè)纖維片段,隨后通過(guò)旋轉(zhuǎn)平移形成參數(shù)化的螺旋結(jié)構(gòu),再在這個(gè)骨架基礎(chǔ)上進(jìn)行序列設(shè)計(jì)。根據(jù)纖維片段和旋轉(zhuǎn)平移等參數(shù)的變化,可以形成大量不同的蛋白,這一設(shè)計(jì)策略有助于推動(dòng)一系列多尺度超材料的制造。King等[77]更新了Rosetta的對(duì)稱(chēng)建模框架tcdock,用來(lái)模擬高度有序?qū)ΨQ(chēng)的蛋白質(zhì)支架對(duì)的對(duì)接,依據(jù)每一個(gè)對(duì)接構(gòu)型對(duì)界面設(shè)計(jì)的實(shí)用性打分,最后使用負(fù)染電鏡等手段對(duì)設(shè)計(jì)出的蛋白質(zhì)的組裝狀態(tài)進(jìn)行X射線(xiàn)晶體學(xué)分析,結(jié)果表明設(shè)計(jì)出的組裝體材料與理論值的RMSD偏差在0.5~1.2 ?,證明了這種方法對(duì)界面幾何形狀有著精確的控制,并且能夠高精度地設(shè)計(jì)具有多種納米級(jí)特征的雙組分蛋白質(zhì)納米材料。Fallas等[78]采用類(lèi)似于軟質(zhì)心模型的Monte Carlo Sampling,首先生成用于對(duì)接的主鏈模型,然后使用骨架原子的坐標(biāo)和二級(jí)結(jié)構(gòu)元件來(lái)對(duì)蛋白質(zhì)-蛋白質(zhì)對(duì)接進(jìn)行打分,最后使用全原子Rosetta Design[25]計(jì)算優(yōu)化蛋白質(zhì)-蛋白質(zhì)界面序列,結(jié)果表明所設(shè)計(jì)的蛋白質(zhì)在溶液中穩(wěn)定地形成均聚物。
4 展 望
蛋白質(zhì)計(jì)算設(shè)計(jì)把我們對(duì)蛋白質(zhì)序列-結(jié)構(gòu)-功能關(guān)系的生物物理認(rèn)識(shí)和數(shù)學(xué)模型、計(jì)算方法等綜合在一起,逐漸形成了一套系統(tǒng)的理論和方法學(xué),并得到越來(lái)越多的實(shí)驗(yàn)驗(yàn)證,展示出廣泛應(yīng)用前景,是合成生物學(xué)的重要使能技術(shù)之一。
蛋白質(zhì)計(jì)算設(shè)計(jì)的發(fā)展和應(yīng)用仍然處于初級(jí)階段。從方法上來(lái)講,主鏈結(jié)構(gòu)和功能的從頭設(shè)計(jì)的效果還有很大提升空間。已有的關(guān)于主鏈的設(shè)計(jì)方法,一般是基于天然片段進(jìn)行主鏈設(shè)計(jì),亦或是對(duì)規(guī)則結(jié)構(gòu)進(jìn)行參數(shù)化設(shè)計(jì)。而當(dāng)前的能量函數(shù)還不能完全做到主鏈的全自動(dòng)從頭設(shè)計(jì),對(duì)極性相互作用的定量刻畫(huà)還不夠準(zhǔn)確。基于rotamer的構(gòu)象表示方法為極性相互作用的定量化帶來(lái)困難:離散rotamer對(duì)側(cè)鏈原子位置引入較大誤差,不能準(zhǔn)確地進(jìn)行氫鍵網(wǎng)絡(luò)設(shè)計(jì)。未來(lái)方法進(jìn)一步發(fā)展的關(guān)鍵包括對(duì)主鏈設(shè)計(jì)能量模型和側(cè)鏈極性相互作用模型的改進(jìn)。
由于蛋白質(zhì)并非孤立存在的,這既體現(xiàn)為蛋白質(zhì)的功能往往與其他生物分子(如磷脂雙分子層)互作有關(guān),也體現(xiàn)為細(xì)胞內(nèi)外環(huán)境(如pH)為蛋白質(zhì)提供的復(fù)雜溶劑環(huán)境。而目前的設(shè)計(jì)方法中,往往是將其他小分子視做剛體進(jìn)行對(duì)接,并將蛋白質(zhì)周?chē)h(huán)境進(jìn)行簡(jiǎn)化估計(jì)。盡管這些簡(jiǎn)化模型是出于對(duì)效率的考量,它們?cè)趯?shí)際應(yīng)用中對(duì)成功率的影響也是不能忽視的。目前已有關(guān)于將pH[79-80]、磷脂雙分子層[22,81-83]等方面因素引入蛋白質(zhì)設(shè)計(jì)的分析。這些嘗試有望拓寬蛋白質(zhì)計(jì)算設(shè)計(jì)方法的應(yīng)用領(lǐng)域,也有望提高蛋白質(zhì)設(shè)計(jì)的合理性和成功率。此外,如何在蛋白質(zhì)計(jì)算設(shè)計(jì)的整體框架中考慮和處理負(fù)設(shè)計(jì),也是未來(lái)方法研究的要點(diǎn)之一。
同時(shí),由于蛋白質(zhì)-蛋白質(zhì)界面的形狀和化學(xué)特征的極端多樣性,確定蛋白質(zhì)的識(shí)別位點(diǎn)和能量熱點(diǎn)的簡(jiǎn)單策略一般不會(huì)很有效[84]。因此,建立起氫鍵和靜電相互作用易于計(jì)算的描述,對(duì)于蛋白質(zhì)-蛋白質(zhì)界面的能量函數(shù)的充分建模非常重要。一個(gè)相關(guān)的挑戰(zhàn)是建立合理的水分子模型,這些水分子通常在蛋白質(zhì)界面上形成水介導(dǎo)氫鍵的延伸網(wǎng)絡(luò),而標(biāo)準(zhǔn)的隱式溶劑化模型無(wú)法捕捉到這些網(wǎng)絡(luò)[85]。除了能量函數(shù),在主鏈柔韌性的建模方面也存在缺陷。解決這些問(wèn)題對(duì)于基于結(jié)構(gòu)的蛋白質(zhì)相互作用特異性的深刻理解和預(yù)測(cè)至關(guān)重要。因此還需要通過(guò)更精確的建模技術(shù)生成詳細(xì)和精確的結(jié)構(gòu)模型來(lái)模擬界面[85]。
《合成生物學(xué)》|蛋白質(zhì)計(jì)算設(shè)計(jì):方法和應(yīng)用展望
參考文獻(xiàn)
[1]
KUHLMAN B, BRADLEY P.
Advances in protein structure prediction and design
[J]. Nature Reviews Molecular Cell Biology, 2019, 20(11): 681-697.
[本文引用: 1]
[2]
HUANG P S, BOYKEN S E, BAKER D.
The coming of age of de novo protein design
[J]. Nature, 2016, 537(7620): 320-327.
[3]
MU Q, CUI Y, TIAN Y, et al.
Thermostability improvement of the glucose oxidase from Aspergillus niger for efficient gluconic acid production via computational design
[J]. International Journal of Biological Macromolecules, 2019, 136: 1060-1068.
[本文引用: 1]
[4]
LI R, WIJMA H J, SONG L, et al.
Computational redesign of enzymes for regio- and enantioselective hydroamination
[J]. Nature Chemical Biology, 2018, 14(7): 664-670.
[本文引用: 1]
[5]
ZHAN J, DING B, MA R, et al.
Develop reusable and combinable designs for transcriptional logic gates
[J]. Molecular Systems Biology, 2010, 6: 388.
[本文引用: 1]
[6]
PACKER M S, LIU D R.
Methods for the directed evolution of proteins
[J]. Nature Reviews Genetics, 2015, 16(7): 379-394.
[本文引用: 1]
[7]
LIU Y, YAN Z, LU X, et al.
Improving the catalytic activity of isopentenyl phosphate kinase through protein coevolution analysis
[J]. Scientific Reports, 2016, 6: 24117.
[本文引用: 1]
[8]
COLUZZA I.
Computational protein design: a review
[J]. Journal of Physics-Condensed Matter, 2017, 29(14): 143001.
[本文引用: 1]
[9]
KISS G, CELEBI-OLCUM N, MORETTI R, et al.
Computational enzyme design
[J]. Angewandte Chemie International Edition, 2013, 52(22): 5700-5725.
[本文引用: 1]
[10]
GOLDENZWEIG A, FLEISHMAN S J.
Principles of protein stability and their application in computational design
[J]. Annual Review of Biochemistry, 2018, 87: 105-129.
[11]
BARAN D, PSZOLLA M G, LAPIDOTH G D, et al.
Principles for computational design of binding antibodies
[J]. Proceedings of the National Academy of Sciences of the United States of America, 2017, 114(41): 10900-10905.
[本文引用: 2]
[12]
SUN M G, SEO M H, NIM S, et al.
Protein engineering by highly parallel screening of computationally designed variants
[J]. Science Advances, 2016, 2(7): e1600692.
[本文引用: 1]
[13]
KORENDOVYCH I V, DEGRADO W F.
De novo protein design, a retrospective
[J]. Quarterly Reviews of Biophysics, 2020, 53:e3.
[本文引用: 1]
[14]
LUPAS A N, BASSLER J.
Coiled coils - a model system for the 21st century
[J]. Trends in Biochemical Sciences, 2017, 42(2): 130-140.
[本文引用: 1]
[15]
HARBURY P B, PLECS J J, TIDOR B, et al.
High-resolution protein design with backbone freedom
[J]. Science, 1998, 282(5393): 1462-1467.
[16]
HUANG P S, OBERDORFER G, XU C, et al.
High thermodynamic stability of parametrically designed helical bundles
[J]. Science, 2014, 346(6208): 481-485.
[本文引用: 1]
[17]
MURPHY G S, SATHYAMOORTHY B, DER B S, et al.
Computational de novo design of a four-helix bundle protein-DND_4HB
[J]. Protein Science, 2015, 24(4): 434-445.
[本文引用: 1]
[18]
JOH N H, WANG T, BHATE M P, et al.
De novo design of a transmembrane Zn(2)(+)-transporting four-helix bundle
[J]. Science, 2014, 346(6216): 1520-1524.
[本文引用: 2]
[19]
LIANG H, CHEN H, FAN K, et al.
De novo design of a beta alpha beta motif
[J]. Angewandte Chemie International Edition, 2009, 48(18): 3301-3303.
[本文引用: 1]
[20]
GRIGORYAN G, DE GRADO W F.
Probing designability via a generalized model of helical bundle geometry
[J]. Journal of Molecular Biology, 2011, 405(4): 1079-1100.
[本文引用: 1]
[21]
DAHIYAT B I, SARISKY C A, MAYO S L.
De novo protein design: towards fully automated sequence selection
[J]. Journal of Molecular Biology, 1997, 273(4): 789-796.
[本文引用: 1]
[22]
LAZARIDIS T, KARPLUS M.
Effective energy functions for protein structure prediction
[J]. Current Opinion in Structural Biology, 2000, 10(2): 139-145.
[本文引用: 2]
[23]
PARK H, BRADLEY P, GREISEN P, JR., et al.
Simultaneous optimization of biomolecular energy functions on features from small molecules and macromolecules
[J]. Journal of Chemical Theory and Computation, 2016, 12(12): 6201-6212.
[24]
HUANG J, RAUSCHER S, NAWROCKI G, et al.
CHARMM36m: an improved force field for folded and intrinsically disordered proteins
[J]. Nature Methods, 2017, 14(1): 71-73.
[本文引用: 1]
[25]
ALFORD R F, LEAVER-FAY A, JELIAZKOV J R, et al.
The rosetta all-atom energy function for macromolecular modeling and design
[J]. Journal of Chemical Theory and Computation, 2017, 13(6): 3031-3048.
[本文引用: 4]
[26]
BOAS F E, HARBURY P B.
Potential energy functions for protein design
[J]. Current Opinion in Structural Biology, 2007, 17(2): 199-204.
[本文引用: 1]
[27]
XIONG P, WANG M, ZHOU X Q, et al.
Protein design with a comprehensive statistical energy function and boosted by experimental selection for foldability
[J]. Nature Communications, 2014, 5: 5330.
[本文引用: 3]
[28]
XIONG P, HU X H, HUANG B, et al.
Increasing the efficiency and accuracy of the ABACUS protein sequence design method
[J]. Bioinformatics, 2020, 36(1): 136-144.
[本文引用: 2]
[29]
KUHLMAN B, DANTAS G, IRETON G C, et al.
Design of a novel globular protein fold with atomic-level accuracy
[J]. Science, 2003, 302(5649): 1364-1368.
[本文引用: 1]
[30]
FRIEDLAND G D, KORTEMME T.
Designing ensembles in conformational and sequence space to characterize and engineer proteins
[J]. Current Opinion in Structural Biology, 2010, 20(3): 377-384.
[本文引用: 1]
[31]
DAVIS I W, ARENDALL W B, 3RD, RICHARDSON D C, et al.
The backrub motion: how protein backbone shrugs when a sidechain dances
[J]. Structure, 2006, 14(2): 265-274.
[本文引用: 2]
[32]
ZHOU X, XIONG P, WANG M, et al.
Proteins of well-defined structures can be designed without backbone readjustment by a statistical model
[J]. Journal of Structural Biology, 2016, 196(3): 350-357.
[本文引用: 1]
[33]
KOGA N, TATSUMI-KOGA R, LIU G, et al.
Principles for designing ideal protein structures
[J]. Nature, 2012, 491(7423): 222-227.
[本文引用: 1]
[34]
CHU H Y, LIU H Y.
TetraBASE: a side chain-independent statistical energy for designing realistically packed protein backbones
[J]. Journal of Chemical Information and Modeling, 2018, 58(2): 430-442.
[本文引用: 2]
[35]
FRAPPIER V, JENSON J M, ZHOU J, et al.
Tertiary structural motif sequence statistics enable facile prediction and design of peptides that bind anti-apoptotic Bfl-1 and Mcl-1
[J]. Structure, 2019, 27(4): 606-617, e5.
[本文引用: 2]
[36]
MACKENZIE C O, ZHOU J, GRIGORYAN G.
Tertiary alphabet for the observable protein structural universe
[J]. Proceedings of the National Academy of Sciences of the United States of America, 2016, 113(47): E7438-E7447.
[本文引用: 1]
[37]
OLLIKAINEN N, DE JONG R M, KORTEMME T.
Coupling protein side-chain and backbone flexibility improves the re-design of protein-ligand specificity
[J]. PLoS Computational Biology, 2015, 11(9): e1004335.
[本文引用: 1]
[38]
HALLEN M A, DONALD B R.
CATS (Coordinates of Atoms by Taylor Series): protein design with backbone flexibility in all locally feasible directions
[J]. Bioinformatics, 2017, 33(14): I5-I12.
[本文引用: 2]
[39]
ROUX B, SIMONSON T.
Implicit solvent models
[J]. Biophysical Chemistry, 1999, 78(1/2): 1-20.
[本文引用: 1]
[40]
LAZARIDIS T, KARPLUS M.
Effective energy function for proteins in solution
[J]. Proteins, 1999, 35(2): 133-152.
[本文引用: 1]
[41]
GAINZA P, NISONOFF H M, DONALD B R.
Algorithms for protein design
[J]. Current Opinion in Structural Biology, 2016, 39: 16-26.
[本文引用: 1]
[42]
NEGRON C, KEATING A E.
Multistate protein design using CLEVER and CLASSY
[J]. Methods in Protein Design, 2013, 523: 171-190.
[本文引用: 1]
[43]
GRIGORYAN G, ZHOU F, LUSTIG S R, et al.
Ultra-fast evaluation of protein energies directly from sequence
[J]. PLoS Computational Biology, 2006, 2(6): 551-563.
[本文引用: 1]
[44]
TRAORE S, ROBERTS K E, ALLOUCHE D, et al.
Fast search algorithms for computational protein design
[J]. Journal of Computational Chemistry, 2016, 37(12): 1048-1058.
[本文引用: 1]
[45]
SMITH C A, KORTEMME T.
Backrub-like backbone simulation recapitulates natural protein conformational variability and improves mutant side-chain prediction
[J]. Journal of Molecular Biology, 2008, 380(4): 742-756.
[本文引用: 1]
[46]
LANOUETTE S, DAVEY J A, ELISMA F, et al.
Discovery of substrates for a SET domain lysine methyltransferase predicted by multistate computational protein design
[J]. Structure, 2015, 23(1): 206-215.
[本文引用: 1]
[47]
HILPERT K, WINKLER D F, HANCOCK R E.
Peptide arrays on cellulose support: SPOT synthesis, a time and cost efficient method for synthesis of large numbers of peptides in a parallel and addressable fashion
[J]. Nature Protocols, 2007, 2(6): 1333-1349.
[本文引用: 1]
[48]
MACKENZIE C O, GRIGORYAN G.
Protein structural motifs in prediction and design
[J]. Current Opinion in Structural Biology, 2017, 44: 161-167.
[本文引用: 1]
[49]
MRAVIC M, THOMASTON J L, TUCKER M, et al.
Packing of apolar side chains enables accurate design of highly stable membrane proteins
[J]. Science, 2019, 363(6434): 1418-1423.
[本文引用: 1]
[50]
LU P, MIN D, DIMAIO F, et al.
Accurate computational design of multipass transmembrane proteins
[J]. Science, 2018, 359(6379): 1042-1046.
[本文引用: 1]
[51]
THOMSON A R, WOOD C W, BURTON A J, et al.
Computational design of water-soluble alpha-helical barrels
[J]. Science, 2014, 346(6208): 485-488.
[本文引用: 1]
[52]
MACDONALD J T, MAKSIMIAK K, SADOWSKI M I, et al.
De novo backbone scaffolds for protein design
[J]. Proteins, 2010, 78(5): 1311-1325.
[本文引用: 1]
[53]
KARANICOLAS J, CORN J E, CHEN I, et al.
A de novo protein binding pair by computational design and directed evolution
[J]. Molecular Cell, 2011, 42(2): 250-260.
[本文引用: 1]
[54]
ZANGHELLINI A, JIANG L, WOLLACOTT A M, et al.
New algorithms and an in silico benchmark for computational enzyme design
[J]. Protein Science, 2006, 15(12): 2785-2794.
[本文引用: 1]
[55]
BOYKEN S E, CHEN Z, GROVES B, et al.
De novo design of protein homo-oligomers with modular hydrogen-bond network-mediated specificity
[J]. Science, 2016, 352(6286): 680-687.
[本文引用: 1]
[56]
MAGUIRE J B, BOYKEN S E, BAKER D, et al.
Rapid sampling of hydrogen bond networks for computational protein design
[J]. Journal of Chemical Theory and Computation, 2018, 14(5): 2751-2760.
[本文引用: 1]
[57]
RICHARDSON J S, RICHARDSON D C.
Natural beta-sheet proteins use negative design to avoid edge-to-edge aggregation
[J]. Proceedings of the National Academy of Sciences of the United States of America, 2002, 99(5): 2754-2759.
[本文引用: 1]
[58]
LOFFLER P, SCHMITZ S, HUPFELD E, et al.
Rosetta:MSF: a modular framework for multi-state computational protein design
[J]. PLoS Computational Biology, 2017, 13(6): e1005600.
[本文引用: 1]
[59]
WIJMA H J, FLOOR R J, JEKEL P A, et al.
Computationally designed libraries for rapid enzyme stabilization
[J]. Protein Engineering Design & Selection, 2014, 27(2): 49-58.
[本文引用: 1]
[60]
CORREIA B E, BATES J T, LOOMIS R J, et al.
Proof of principle for epitope-focused vaccine design
[J]. Nature, 2014, 507(7491): 201-206.
[本文引用: 1]
[61]
MARCANDALLI J, FIALA B, OLS S, et al.
Induction of potent neutralizing antibody responses by a designed protein nanoparticle vaccine for respiratory syncytial virus
[J]. Cell, 2019, 176(6): 1420-1431, e17.
[本文引用: 1]
[62]
SESTERHENN F, YANG C, BONET J, et al.
De novo protein design enables the precise induction of RSV-neutralizing antibodies
[J]. Science, 2020, 368(6492): eaay5051.
[本文引用: 1]
[63]
SLOVIC A M, KONO H, LEAR J D, et al.
Computational design of water-soluble analogues of the potassium channel KcsA
[J]. Proceedings of the National Academy of Sciences of the United States of America, 2004, 101(7): 1828-1833.
[本文引用: 1]
[64]
WANNIER T M, MOORE M M, MOU Y, et al.
Computational design of the beta-sheet surface of a red fluorescent protein allows control of protein oligomerization
[J]. PLoS One, 2015, 10(6): e0130582.
[本文引用: 1]
[65]
BANDA-VAZQUEZ J, SHANMUGARATNAM S, RODRIGUEZ-SOTRES R, et al.
Redesign of LAOBP to bind novel l-amino acid ligands
[J]. Protein Science, 2018, 27(5): 957-968.
[本文引用: 1]
[66]
GLASGOW A A, HUANG Y M, MANDELL D J, et al.
Computational design of a modular protein sense-response system
[J]. Science, 2019, 366(6468): 1024-1028.
[本文引用: 1]
[67]
POLIZZI N F, WU Y, LEMMIN T, et al.
De novo design of a hyperstable non-natural protein-ligand complex with sub-A accuracy
[J]. Nature Chemistry, 2017, 9(12): 1157-1164.
[本文引用: 1]
[68]
DOU J, VOROBIEVA A A, SHEFFLER W, et al.
De novo design of a fluorescence-activating beta-barrel
[J]. Nature, 2018, 561(7724): 485-491.
[本文引用: 1]
[69]
LEAVER-FAY A, FRONING K J, ATWELL S, et al.
Computationally designed bispecific antibodies using negative state repertoires
[J]. Structure, 2016, 24(4): 641-651.
[本文引用: 1]
[70]
FRONING K J, LEAVER-FAY A, WU X, et al.
Computational design of a specific heavy chain/kappa light chain interface for expressing fully IgG bispecific antibodies
[J]. Protein Science, 2017, 26(10): 2021-2038.
[本文引用: 1]
[71]
SILVA D A, YU S, ULGE U Y, et al.
De novo design of potent and selective mimics of IL-2 and IL-15
[J]. Nature, 2019, 565(7738): 186-191.
[本文引用: 1]
[72]
CHEN Z, BOYKEN S E, JIA M, et al.
Programmable design of orthogonal protein heterodimers
[J]. Nature, 2019, 565(7737): 106-111.
[本文引用: 1]
[73]
CHEN Z, KIBLER R D, HUNT A, et al.
De novo design of protein logic gates
[J]. Science, 2020, 368(6486): 78-84.
[本文引用: 1]
[74]
LANGAN R A, BOYKEN S E, NG A H, et al.
De novo design of bioactive protein switches
[J]. Nature, 2019, 572(7768): 205-210.
[本文引用: 1]
[75]
NG A H, NGUYEN T H, GOMEZ-SCHIAVON M, et al.
Modular and tunable biological feedback control using a de novo protein switch
[J]. Nature, 2019, 572(7768): 265-269.
[本文引用: 1]
[76]
SHEN H, FALLAS J A, LYNCH E, et al.
De novo design of self-assembling helical protein filaments
[J]. Science, 2018, 362(6415): 705-709.
[本文引用: 1]
[77]
KING N P, BALE J B, SHEFFLER W, et al.
Accurate design of co-assembling multi-component protein nanomaterials
[J]. Nature, 2014, 510(7503): 103-108.
[本文引用: 1]
[78]
FALLAS J A, UEDA G, SHEFFLER W, et al.
Computational design of self-assembling cyclic protein homo-oligomers
[J]. Nature Chemistry, 2017, 9(4): 353-360.
[本文引用: 1]
[79]
KILAMBI K P, REDDY K, GRAY J J.
Protein-protein docking with dynamic residue protonation states
[J]. PLoS Computational Biology, 2014, 10(12): e1004018.
[本文引用: 1]
[80]
KILAMBI K P, GRAY J J.
Rapid calculation of protein pKa values using Rosetta
[J]. Biophysical Journal, 2012, 103(3): 587-595.
[本文引用: 1]
[81]
ALFORD R F, KOEHLER LEMAN J, WEITZNER B D, et al.
An integrated framework advancing membrane protein modeling and design
[J]. PLoS Computational Biology, 2015, 11(9): e1004398.
[本文引用: 1]
[82]
BARTH P, SCHONBRUN J, BAKER D.
Toward high-resolution prediction and design of transmembrane helical protein structures
[J]. Proceedings of the National Academy of Sciences of the United States of America, 2007, 104(40): 15682-15687.
[83]
YAROV-YAROVOY V, SCHONBRUN J, BAKER D.
Multipass membrane protein structure prediction using Rosetta
[J]. Proteins, 2006, 62(4): 1010-1025.
[本文引用: 1]
[84]
BOGAN AA, THORN K S.
Anatomy of hot spots in protein interfaces
[J]. Journal of Molecular Biology, 1998, 280(1): 1-9.
[本文引用: 1]
[85]
KORTEMME T, BAKER D.
Computational design of protein-protein interactions
[J]. Current Opinion in Chemical Biology, 2004, 8(1): 91-97.
[本文引用: 2]




南京肽業(yè)生物科技有限公司
地址:
Email: info@njpeptide.com
總機(jī):025-58361106-801
