總機:025-58361106-801
傳真:025-58361107-806
Email:info@njpeptide.com
地址:南京市化學(xué)工業(yè)園區(qū)方水路158號三樓
DOI: 10.16155/j.0254-1793.2017.01.01
來源:藥物分析雜志 2019, Vol. 39 Issue (4): 716-721. DOI: 10.16155/j.0254-1793.2019.04.18
石巖 , 熊婧 , 魏鋒 , 馬雙成
摘要:目的:研究并建立徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)預(yù)測化合物色譜峰HPLC保留時間的方法。方法:使用Agilent TC-C18色譜柱(250 mm×4.6 mm,5μm),甲醇-水為流動相等度洗脫,以毛蕊異黃酮葡萄糖苷、芒柄花素、山柰苷、山柰素、槲皮素、刺芒柄花苷、毛蕊異黃酮及異鼠李素8個化合物為研究對象,不同比例流動相洗脫條件下其中7個化合物色譜峰保留時間為特征,與待預(yù)測化合物色譜峰保留時間組成訓(xùn)練集各樣本,生成并訓(xùn)練神經(jīng)網(wǎng)絡(luò),使得該神經(jīng)網(wǎng)絡(luò)具有通過以上7個化合物色譜峰保留時間預(yù)測待預(yù)測化合物色譜峰保留時間的能力。結(jié)果:在使用同一型號色譜柱不同HPLC儀器的情況下,模型的保留時間預(yù)測誤差不大于0.608 min。結(jié)論:本研究創(chuàng)建的方法能夠?qū)衔锉A魰r間進(jìn)行有效和準(zhǔn)確地預(yù)測。
在液相色譜分析中,對比色譜峰的保留時間(retention time,RT)是非常重要的定性手段。一般情況下,不同的化合物在相同的HPLC洗脫系統(tǒng)中的色譜峰往往具有不同RT,而同一化合物在不同的HPLC洗脫系統(tǒng)中的色譜峰RT一般也不相同,因此常常需要使用對照物質(zhì)(對照品或?qū)φ仗崛∥铮﹣泶_定待分析化合物的色譜峰在HPLC系統(tǒng)中的RT。然而,隨著中藥質(zhì)量標(biāo)準(zhǔn)的不斷發(fā)展,以及多組分和整體模式評價方法的日益增多,對照物質(zhì)的制備、標(biāo)定、儲存等環(huán)節(jié)都面臨著挑戰(zhàn)[1],對照物質(zhì)在檢測成本中的比重也越來越大。為了解決這一問題,一些化合物色譜峰RT預(yù)測及確定的方法應(yīng)運而生,主要有相對保留時間法[2]、雙標(biāo)線性校正法[3]和定量結(jié)構(gòu)性質(zhì)關(guān)系(quantitative structure property relationship,QSPR)法[4-6]等。本文利用機器學(xué)習(xí)中徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(radial basis function neural network,RBFNN)的方法,對化合物色譜峰的RT進(jìn)行預(yù)測研究,在建模和預(yù)測過程中,創(chuàng)新地加入了猶如“探針”般探測表征色譜洗脫條件的其他幾個化合物,能夠準(zhǔn)確地預(yù)測多個化合物在不同等度洗脫條件下的RT。
1 原理機器學(xué)習(xí)領(lǐng)域的前驅(qū)Arthur Samuel將機器學(xué)習(xí)歸結(jié)為研究賦予計算機學(xué)習(xí)能力而并非直接編寫程序的領(lǐng)域。而Tom Mitchell在《Machine Learning》一書中,對機器學(xué)習(xí)進(jìn)行了更加詳細(xì)地描述:計算機程序在完成以性能度量P衡量的目標(biāo)T過程中,如果在經(jīng)驗E的影響下,對P衡量的T結(jié)果有所改進(jìn),那么該程序就是依據(jù)E在學(xué)習(xí)[7]。圖 1展示了機器學(xué)習(xí)的一個整體過程,一般來說,首先需要將已有的數(shù)據(jù)放入訓(xùn)練集(training set,TS),然后通過某些算法來實現(xiàn)計算機對TS的學(xué)習(xí)。在學(xué)習(xí)過程中,計算機需要不斷調(diào)整算法參數(shù),以達(dá)到預(yù)測結(jié)果距離目標(biāo)值最接近。機器學(xué)習(xí)的結(jié)果可達(dá)到相對最優(yōu)的算法參數(shù),作為假想(hypothesis)以實現(xiàn)根據(jù)對未知樣品的特征(feature)進(jìn)行目標(biāo)的預(yù)測判斷。TS如圖 2所示,一般需要包含m個已知樣品,分別用n個特征表示,每個樣品都有相應(yīng)輸出目標(biāo)。
|
圖 1 機器學(xué)習(xí)概況圖Fig.1 General picture of machine learning |
|
圖 2 TS組成Fig.2 Form of TS |
本研究的思路是計算機通過對m個HPLC條件n個化合物色譜峰RT及其對應(yīng)的待預(yù)測化合物色譜峰RT進(jìn)行學(xué)習(xí),獲得相對最優(yōu)化學(xué)習(xí)成果,從而實現(xiàn)不同HPLC條件下對該化合物色譜峰RT的預(yù)測。與文獻(xiàn)報道的類似方法[4-6]不同,本文創(chuàng)新性地使用了n個其他化合物的色譜峰RT作為HPLC條件的特征放入學(xué)習(xí)算法的訓(xùn)練和預(yù)測中,這n個化合物與待預(yù)測化合物平行進(jìn)樣,猶如待預(yù)測化合物溶液體系外部的“探針”色譜洗脫條件表征,因此稱為外部“探針”。
本文中的機器學(xué)習(xí)使用的是RBFNN,該網(wǎng)絡(luò)是J. Moody和C. Darken于20世紀(jì)80年代提出的,是一種含單隱層的3層前饋式網(wǎng)絡(luò)(如圖 3),該網(wǎng)絡(luò)的原理及相關(guān)實驗均表明,通過基函數(shù)的運用,其可以任意精度逼近任意函數(shù),還可以辨識非線性系統(tǒng)[8]。RBFNN的3層分別為輸入層、隱藏層和輸出層,其中隱藏層中使用了非線性函數(shù),對輸入層信息進(jìn)行非線性轉(zhuǎn)換至多維隱藏空間中[9],隱藏層中的基函數(shù)最常用的為Gaussian函數(shù)。
|
圖 3 RBFNN結(jié)構(gòu)圖Fig.3 RBFNN structure |
本研究具體是在多種等度洗脫條件下獲得8個化合物的RT數(shù)據(jù),分別將其中1個化合物RT作為目標(biāo)輸出,另外7個化合物RT數(shù)據(jù)作為輸入特征進(jìn)行模型訓(xùn)練,然后通過某等度洗脫條件下7個化合物的RT數(shù)據(jù)便可預(yù)測出另外的1個化合物的RT,因此本研究為了對應(yīng)8個化合物的RT預(yù)測,共建立了8個預(yù)測模型。
2 方法與結(jié)果2.1 儀器與試藥Waters高效液相色譜儀3臺(編號分別為H1、H2、H3),其中H1(購于2008年)為Waters 2695分離模塊,H2(購于2013年)為Waters e2695分離模塊,H1和H2均配有Waters e2998 PDA檢測器,H3(購于2004年)為Waters 2695,分離模塊配以Waters 2996 PDA檢測器。
色譜柱4根(編號分別為C1、C2、C3、C4),均為250 mm×4.6 mm規(guī)格,5 μm填料,C1(LN:MP07570002)和C2(LN:MP07570001)均為Agilent TC-C18,C3為Inertsil ODS-3,C4為Phenomenex Luna C18。
毛蕊異黃酮葡萄糖苷(批號111920-201505,純度97.1%)、芒柄花素(批號111703-201504,供含量測定用)、山柰苷(批號111775-200701,供含量測定用)、山柰素(批號110861-201611,純度95.5%)、槲皮素(批號100081-200406,供含量測定用)均來自中國食品藥品檢定研究院。刺芒柄花苷(批號R04J6F2,純度98%)、毛蕊異黃酮(批號P29M6R2,純度98%)及異鼠李素(批號P08J7F15965,純度98%)均來自上海源葉生物科技有限公司。
黃芪(蒙古黃芪,批號120974-201110)、葶藶子(播娘蒿,批號121220-201403)、側(cè)柏葉(批號121396-201402)3個對照藥材均來自中國食品藥品檢定研究院。
甲醇為色譜純(Thermo Fisher Scientific公司);水為Millipore超純水。
2.2 溶液的制備2.2.1 對照品溶液取各對照品適量,加甲醇制成每1 mL含0.1 mg的單標(biāo)對照品溶液。
2.2.2 中藥基質(zhì)加標(biāo)溶液分別取黃芪(蒙古黃芪)、葶藶子(播娘蒿)和側(cè)柏葉對照藥材粉末各約1 mg,加甲醇5 mL,超聲處理(功率300 W,頻率40 kHz)20 min,放冷,過濾,分別取各藥材濾液0.9 mL。取毛蕊異黃酮、山柰苷和刺芒柄花苷3種對照品溶液各0.1 mL,分別加入以上所取的0.9 mL的黃芪(蒙古黃芪)、葶藶子(播娘蒿)和側(cè)柏葉藥材溶液中,搖勻,所得溶液分別以Plus1、Plus2和Plus3表示。
2.3 色譜條件進(jìn)樣量為5 μL,檢測波長為254 nm,流動相流速均為1.0 mL·min-1。甲醇(A)-水(B)為流動相等度洗脫,A與B兩相的不同比例洗脫,各化合物色譜峰RT數(shù)值作為研究的特征值或目標(biāo)值,使用H1及C1在洗脫條件分別為65%A、62%A、60%A、57%A、55%A、52%A、50%A、47%A、45%A、42%A、40%A、37%A和35%A下測定的對照品色譜峰RT數(shù)據(jù)組成模型TS;洗脫條件61%A、51%A和44%A下測定的對照品色譜峰RT數(shù)據(jù)作為模型驗證集(validation set,VS);洗脫條件59%A、49%A、46%A和41%A下測定的對照品色譜峰RT數(shù)據(jù)作為模型測試集(test set,TeS);為測試模型對中藥基質(zhì)中化合物色譜峰的RT預(yù)測效果,49%A洗脫條件下,對3種中藥基質(zhì)加標(biāo)溶液中對照品色譜峰RT測定數(shù)據(jù)加入模型TeS;為測試模型對同型號不同批次色譜柱和不同HPLC儀器的預(yù)測效果,使用H2+C2組合(洗脫條件為60%A、53%A和49%A)、H3+C2組合(洗脫條件為51%A)的對照品RT測定結(jié)果數(shù)據(jù)加入模型TeS;為了測試模型對不同品牌色譜柱的預(yù)測能力,在49%A洗脫條件下使用H1+C3組合、H1+C4組合測定的對照品RT數(shù)據(jù)加入模型TeS。以上模型的TS、VS和TeS詳見表 1。
|
|
表 1 模型TS、VS和TeSTab.1 TS, VS and TeS |
將TS中的RT數(shù)據(jù)進(jìn)行歸一化處理,將各對照品色譜峰RT分別與相應(yīng)對照品在35%A洗脫條件下的RT比較,預(yù)處理后的數(shù)據(jù)均分布在大于0而小于等于1的范圍。
2.5 RBFNN模型的建立、訓(xùn)練及預(yù)測如上所述,當(dāng)對某1個化合物色譜峰RT進(jìn)行預(yù)測時,另外7個化合物色譜峰的RT數(shù)據(jù)作為特征值輸入RBFNN模型,每個化合物色譜峰RT的預(yù)測為單獨1個模型,本研究共建立有8個模型,各模型隱藏層神經(jīng)元個數(shù)均選擇13,Spread參數(shù)選擇依據(jù)VS樣本預(yù)測情況而定,毛蕊異黃酮葡萄糖苷、山柰苷、刺芒柄花苷、毛蕊異黃酮、槲皮素、山柰素、異鼠李素及芒柄花素各化合物對應(yīng)模型所采用的Spread參數(shù)分別為1.5、1.0、1.0、1.5、0.5、1.0、0.5和1.5。
將TeS各樣本數(shù)據(jù)依次輸入各模型,可得出各化合物色譜峰RT預(yù)測數(shù)據(jù),反歸一化處理后與測定的真實RT數(shù)據(jù)求差,結(jié)果見表 2。
|
|
表 2 預(yù)測值與測定值之差(min)Tab.2 Prediction errors |
黃酮類化合物是一類重要的天然藥物化學(xué)成分,在自然界中分布甚廣。因此在本研究初始階段,首選從該類化合物入手,需要說明的是,與其他RT預(yù)測研究[4-6]不同,本研究對化合物色譜峰的RT預(yù)測的時候,并未將化合物的分子結(jié)構(gòu)等相關(guān)信息納入研究信息范疇,所以理論上來講,本研究所創(chuàng)立的方法,無論是作為特征或是預(yù)測目標(biāo),都同樣適合其他類別的化合物,但是本著嚴(yán)謹(jǐn)?shù)膽B(tài)度,這一點需要下一步的試驗進(jìn)一步確證。
3.2 洗脫條件的選擇本著由簡入繁的思想,選擇簡單的甲醇和水洗脫系統(tǒng),采用等度洗脫的方式進(jìn)行切入研究。在設(shè)計TS樣本的時候,兼顧了實用性及樣本的代表性,甲醇于流動相中的比例在65%到35%的區(qū)間,盡可能均勻地選擇了13個點作為訓(xùn)練樣本,所選擇的8個化合物色譜峰RT范圍為3.296~152.391 min,具有足夠廣的RT分布范圍,TS中毛蕊異黃酮葡萄糖苷、山柰苷、刺芒柄花苷、毛蕊異黃酮、槲皮素、山柰素、異鼠李素及芒柄花素各化合物色譜峰RT范圍分別為3.296~11.634、3.785~40.522、4.154~30.610、5.048~57.155、5.070~60.773、6.530~113.671、6.965~147.024和7.937~152.391 min。同樣,為了優(yōu)化得到的Spread參數(shù)適用性更佳,在VS樣本的選取時,洗脫梯度盡可能分布更廣。
此外,值得一提的是,根據(jù)本研究理論,對梯度洗脫情況下化合物色譜峰RT預(yù)測的相關(guān)研究正在進(jìn)行中。
3.3 關(guān)于預(yù)測結(jié)果的解析本研究設(shè)計的TeS共分4個部分:第1部分為使用與TS和VS完全相同的儀器(H1)與色譜柱(C1),以及對照品溶液進(jìn)樣的情況;第2部分為使用與TS和VS完全相同的儀器(H1)與色譜柱(C1),以及中藥復(fù)雜基質(zhì)提取溶液進(jìn)樣的情況;第3部分為使用與TS和VS完全不同的儀器(H2和H3)與同型號不同批次色譜柱(C2)的情況;第4部分為使用與TS和VS完全相同的儀器(H1)與不同廠家不同型號色譜柱(C3和C4)的情況。由表 2可知,TeS第4部分預(yù)測結(jié)果最差,而第1、第2和第3部分預(yù)測結(jié)果與實測值相比的誤差均在0.608 min以內(nèi),均有良好的預(yù)測表現(xiàn)。
最大誤差值出現(xiàn)在第1部分41%甲醇洗脫條件下,此時模型對芒柄花素色譜峰RT預(yù)測誤差為0.608 min,該化合物RT實測值為71.366 min,屬于比較極端的洗脫條件,此時另外7個化合物色譜峰RT預(yù)測值大多也有較大誤差;而59%甲醇洗脫也屬于比較極端洗脫條件(實測RT范圍:3.560~11.805 min),但是預(yù)測誤差卻極?。?.001~0.093 min),可見模型預(yù)測效果有與RT成反比的趨勢,分析原因可能色譜分析時間越長,受干擾因素就會增多,從而造成偶然誤差增大,導(dǎo)致模型預(yù)測結(jié)果與實測值會出現(xiàn)的較大的差別,然而從本研究數(shù)據(jù)來看,71.366 min的色譜峰保留時間有著0.608 min的預(yù)測誤差完全可以接受。
TeS第2部分選用的中藥材黃芪、葶藶子和側(cè)柏葉(見圖 4),均是以黃酮類成分為質(zhì)控指標(biāo)性成分,并且分別為植物的根、種子和葉,足以代表大多數(shù)中藥才的藥用部位使用情況。模型對該部分TeS預(yù)測結(jié)果良好,表明本研究能夠滿足中藥等復(fù)雜基質(zhì)體系的分析要求。
|
1.毛蕊異黃酮(calycosin)2.山柰苷(kaempferitrin)3.刺芒柄花苷(ononin)圖 4 黃芪(Ⅰ)、葶藶子(Ⅱ)和側(cè)柏葉(Ⅲ)樣品液相色譜圖Fig.4 HPLC chromatograms of Astragali Radix (Ⅰ), Descurainiae Semen (Ⅱ) and Platycladi Cacumen (Ⅲ) |
對于TeS第3部分來說,是為了考察不同柱前體積、不同儀器運行狀態(tài)和同型號不同批號色譜柱,模型適用情況而設(shè)。模型對于該部分預(yù)測結(jié)果良好,可見在指定型號色譜柱情況下,本研究建立的方法可應(yīng)用于不同儀器。通常來講,由于不同廠家不同型號的色譜柱鍵合的基團不同,色譜行為會有著較大的差異,從機器學(xué)習(xí)原理來講,TS與TeS使用色譜柱如果差別較大,預(yù)測結(jié)果也會有較大誤差,這一點也從對TeS第4部分的預(yù)測結(jié)果得到證實,可見本研究所建立的方法具有一定的色譜柱排他性。
3.4 關(guān)于模型輸入特征的一些探討本研究使用多個化合物作為“探針”,起到探測和表征液相色譜條件特性的目的。由于本研究起到“探針”作用的化合物成分與待預(yù)測成分并未在同一分析基質(zhì)體系內(nèi),故為稱為外部“探針”。對于基質(zhì)對化合物色譜行為影響嚴(yán)重的情況,可以采用人為加入法,將“探針”化合物加入待預(yù)測基質(zhì)內(nèi),即為內(nèi)部“探針”。從本研究原理上來看,內(nèi)部“探針”的選用其實應(yīng)不受基質(zhì)中原有化合物的束縛,但是關(guān)于其應(yīng)用效果有待進(jìn)一步深入研究數(shù)據(jù)的證實。
4 展望本研究應(yīng)用機器學(xué)習(xí)理論中的神經(jīng)網(wǎng)絡(luò)模型的方法,從本質(zhì)上與相對保留時間等方法[2-3]完全不同,在模型的應(yīng)用上與一些文獻(xiàn)報道的方法[4-6]相近,但是在特征選取上有著較大的差別,本研究并未將化合物分子結(jié)構(gòu)作為模型特征,而專注于色譜條件特性的表征,創(chuàng)新地使用多種化合物(即“探針”)色譜峰的RT來表征色譜洗脫條件,具有簡便、直觀和準(zhǔn)確的特點,不僅適用于已知結(jié)構(gòu)和已知成分的色譜峰RT預(yù)測,對于未知結(jié)構(gòu)或未知成分的色譜峰RT預(yù)測也同樣適用,而且可實現(xiàn)洗脫條件在一定范圍內(nèi)的可調(diào)。
從本質(zhì)上講,本研究前期的模型建立與訓(xùn)練必不可少,在TS樣本的科學(xué)設(shè)計前提下,數(shù)據(jù)時代網(wǎng)絡(luò)化的今天給了本研究的應(yīng)用提供了契機。本研究所建立的方法可應(yīng)用于藥物分析領(lǐng)域中一測多評方法的待測成分RT定位,在規(guī)定色譜柱型號的前提下,可在一定范圍內(nèi)對供試品溶液的洗脫條件進(jìn)行優(yōu)化,直到待測成分色譜峰與其他色譜峰完全分離。本研究還可應(yīng)用于中藥特征圖譜中特征色譜峰的檢測定位,在模型建立后,只需提供“探針”化合物RT數(shù)據(jù),便可在該洗脫條件下,精確鎖定特征圖譜中的特征峰應(yīng)出現(xiàn)的位置??偠灾?,本研究對于價高難制備的對照物質(zhì)的替代具有極大的應(yīng)用前景,只需使用幾個價廉易得的對照物質(zhì)(或1個對照提取物)即可,對于中藥的質(zhì)量分析、評價與控制工作都極具意義。
來源:藥物分析雜志 2019, Vol. 39 Issue (4): 716-721. DOI: 10.16155/j.0254-1793.2019.04.18
參考文獻(xiàn)
| [1] |
孫磊, 金紅宇, 馬雙成, 等. 中藥標(biāo)準(zhǔn)物質(zhì)替代測定法技術(shù)指導(dǎo)原則[J]. 中國藥學(xué)雜志, 2015, 50(4): 284.
SUN L, JIN HY, MA SC, et al. Guideline of substitute reference substance method for evaluation of traditional Chinese medicines[J]. Chin Pharm J, 2015, 50(4): 284. |
| [2] |
中華人民共和國藥典2015年版.一部[S]. 2015: 303
ChP 2015. Vol Ⅰ[S]. 2015: 303 |
| [3] |
孫磊, 金紅宇, 逄瑜, 等. 雙標(biāo)多測法Ⅰ—雙標(biāo)線性校正技術(shù)用于色譜峰的定性[J]. 藥物分析雜志, 2013, 33(8): 1424.
SUN L, JIN HY, PENG Y, et al. Two reference substance for determination of multiple components (Ⅰ): linear calibration using two reference substances for identification of chromatographic peaks[J]. Chin J Pharm Anal, 2013, 33(8): 1424. |
| [4] |
MILLER TH, MUSENGA A, COWAN DA, et al. Prediction of chromatographic retention time in high-resolution anti-doping screening data using artificial neural networks[J]. Anal Chem, 2013, 85(21): 10330. DOI:10.1021/ac4024878
|
| [5] |
GORY?SKI K, BOJKO B, NOWACZYK A, et al. Quantitative structure-retention relationships models for prediction of high performance liquid chromatography retention time of small molecules: endogenous metabolites and banned compounds[J]. Anal Chim Acta, 2013, 797: 13. DOI:10.1016/j.aca.2013.08.025
|
| [6] |
JIAO L, XUE Z, WANG G, et al. QSPR study on the relative retention time of polybrominated diphenyl ethers (PBDEs) by using molecular distance-edge vector index[J]. Chemometr Intell Lab, 2014, 137: 91. DOI:10.1016/j.chemolab.2014.06.015
|
| [7] |
MITCHELL MT. Machine Learning[M]. Westlake Village: McGraw-Hill Education, 1997: 2.
|
| [8] |
YACIN SM, CHAKRAVARTHY VS, MANIVANNAN M. Reconstruction of gastric slow wave from finger photoplethysmographic signal using radial basis function neural network[J]. Med Biol Eng Comput, 2011, 49(11): 1241. DOI:10.1007/s11517-011-0796-1
|
| [9] |
YUAN LF, DING C, GUO SH, et al. Prediction of the types of ion channel-targeted conotoxins based on radial basis function network[J]. Toxicol In Vitro, 2013, 27(2): 852. DOI:10.1016/j.tiv.2012.12.024
來源:藥物分析雜志 2019, Vol. 39 Issue (4): 716-721. DOI: 10.16155/j.0254-1793.2019.04.18
|