System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機生物信息,具體為一種基于深度學習框架的藥物靶點識別方法。
技術介紹
1、精準識別藥物的靶標在藥物設計、藥物重定位和治療致病機制不明確的疾病等研究領域扮演關鍵角色,計算機輔助的藥物靶標識別方法經過數十年的發展,從基于結構和配體(藥物)的方法,逐步發展到目前的以機器學習為主的數據驅動方法,以機器學習為主的數據驅動方法卻能夠以較快速度和較高準確率,從海量藥物-靶標對中識別出與給定藥物有生物活性的靶標,以機器學習為主的數據驅動方法識別藥物靶標可以分為兩類:基于傳統機器學習的方法和基于深度學習的方法。
2、在基于深度學習的藥物-靶標結合親和性預測中,藥物-靶標的結合親和性預測一般被當作回歸任務,預測藥物和靶標之間交互的強度,經典的方法包括基于藥物和靶標序列的deepdta和deepdtaf等序列方法,基于藥物和靶標序列及結構的graphdta、datadta和s2dta等組合方法,基于藥物和靶標結構的gtamp-dta,msgnn-dta和planet等結構方法。基于深度學習對靶標預測概率排序研究是在藥物-靶標交互和結合親和性的基礎上,進一步對識別的可能靶標進行top-k排序,例如,codd-pred方法和guiltytargets-covid-19方法等。
3、盡管基于深度學習的絕大多數方法引入了靶標的特征,相比傳統機器學習方法,模型的性能指標如準確率、均方根誤差(root?mean?squared?error,rmse)、皮爾遜相關系數(pearson?correlation?coeffic
技術實現思路
1、本專利技術的目的在于提供一種基于深度學習框架的藥物靶點識別方法,,解決了
技術介紹
中所提出的問題。
2、為實現上述目的,本專利技術提供如下技術方案:一種基于深度學習框架的藥物靶點識別方法,包括以下步驟:
3、具體步驟如下:
4、s1:獲取藥物-靶標相互作用數據集。chemogenomic-model數據集來源于bindingdb數據庫(version?2020)和chembl27數據庫,該數據集包含153281個藥物(化合物或小分子)-靶標(蛋白質)對,這些藥物-靶標對與859個靶標和93281個藥物小分子相關,我們對該數據集進行預處理后,獲得47247個藥物-靶標對,其中,23481個正樣本和23766個負樣本,這些藥物-靶標對作為本研究的基準數據集。數據集的預處理步驟如下:
5、(1)基于859個靶標,我們將藥物-靶標對劃分為859個子數據集;
6、(2)我們將每個子數據集中的化合物進行相似度聚類,相似度閾值設為0.3,從而將每個子數據集劃分為多個化合物簇;
7、(3)在每個化合物簇中,如果正(負)樣本的數目為1,我們將保留該樣本;如果正(負)樣本的數目大于1,我們將抽取正(負)樣本的25%(結果向上取整)保留;
8、(4)最后,為了評估模型的性能,我們將每個簇抽取后的樣本進一步劃分為訓練集和測試集:如果簇中的正(負)樣本數目小于等于2,那么該簇的所有正(負)樣本均作為訓練集;如果該簇的正(負)樣本數目大于2且小于等于10,則按10%隨機抽取測試集樣本(向上取整),剩余樣本作為訓練集;如果該簇的正(負)樣本數目大于10,則按8%隨機抽取測試集樣本(向上取整),剩余正(負)樣本均作為訓練集。
9、s2:獲取靶標的結構文件(pdb),通過pdb文件得到靶標的結構特征表示以及邊特征表示。
10、s3:獲取藥物、靶標的序列標簽編碼特征表示、圖結構特征表示和物理化學特征表示。
11、s4:將藥物(靶標)的序列標簽編碼特征表示送入一個三層的多尺度卷積神經網絡中,每層的步長為1,填充為0,卷積核的大小分別為3x3、5x5和7x7,每個卷積層后均接有一個歸一化處理操作,獲取藥物(靶標)在多尺度卷積神經網絡的三層特征,將它們進行拼接并通過線性變換生成序列標簽編碼特征。
12、s5:將藥物圖結構特征表示送入三層的圖轉換器(graphtransformer)框架中提取藥物的結構模態特征,graphtransformer每層的heads為8,每個隱藏層的神經元個數為128,每個隱藏層后均接有歸一化處理操作,并在最后連接最大池化操作。
13、s6:將靶標圖結構特征表示送入residual?ew-gcn圖卷積網絡中,residual?ew-gcn架構引自gpcndta,residual?ew-gcn內含三個gcn層和一個全連接網絡,首先將靶標圖特征表示分別輸入第一層gcn和全連接層,其次把得到的第一層gcn輸出特征和全連接網絡的輸出特征拼接,然后將拼接的特征依次過第二層以及第三層gcn得到帶有殘差的特征,最后并對其進行l2歸一化操作。
14、s7:采用交叉注意力融合藥物(靶標)的序列標簽編碼特征表示和圖結構特征表示,然后融合藥物和靶標的融合特征表示得到藥物-靶標交叉注意力融合特征表示。
15、s8:將得到藥物-靶標交叉注意力融合特征表示與藥物(靶標)物理化學特征表示拼接后,作為藥物-靶標交互的全面特征送入全連接層預測藥物-靶標交互作用。
16、s9:比對真實標簽與預測結果,以最小化交叉熵損失函數更新網絡參數,直至達到最大迭代次數,訓練結束,獲得訓練好的mm-idtarget模型。
17、s10:對于訓練好的mm-idtarget模型,我們采用的是基于top-k的recall來評估模型藥物靶標識別的性能,具體計算過程如下:
18、(1)用于測試的藥物小分子數據集中,每個藥物小分子都會從模型中獲取一個與859個靶標交互的得分(取兩位小數)排序列表。
19、(2)如果一個藥物小分子與多個靶標的交互得分相同,我們將進一步采用先進方法deeppurpose對藥物小分子與靶標的交互得分進行預測,并對獲得的得分進行排序。
20、(3)如果一個藥物小分子的真實靶標在模型識別的top-k個靶標的范圍內,則定義該藥物小分子的靶標識別是正確的。基于top-k的recall評估指標,用于衡量在給定的測試藥物小分子數據集中正確識別的藥物小分子對應靶標的比例。。
21、與現有技術相比,本專利技術的有益效果如下:
22、(1)利用graph?transformer,mcnn(multiple?本文檔來自技高網...
【技術保護點】
1.一種基于深度學習框架的藥物靶點識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述S1中Chemogenomic-Model數據集來源于BindingDB數據庫(Version?2020)和ChEMBL27數據庫。
3.根據權利要求2所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:數據集包含153281個藥物-靶標對,這些藥物-靶標對與859個靶標和93281個藥物小分子相關,對該數據集進行預處理后,獲得47247個藥物-靶標對,其中,23481個正樣本和23766個負樣本。
4.根據權利要求3所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:數據集的預處理步驟如下:
5.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述S10中具體計算過程如下:
6.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述S11中損失函數的計算過程,如公式所示:
【技術特征摘要】
1.一種基于深度學習框架的藥物靶點識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述s1中chemogenomic-model數據集來源于bindingdb數據庫(version?2020)和chembl27數據庫。
3.根據權利要求2所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:數據集包含153281個藥物-靶標對,這些藥物-靶標對與859個靶標和93281個藥物小分...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。