System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及藥物靶標相互作用的,尤其涉及一種多模態特征融合模型在藥物靶標結合親和力預測的應用。
技術介紹
1、藥物靶標結合親和力是指藥物分子與生物靶標之間結合的緊密程度,通常以結合常數(如ic50、kd或ki)表示。這些常數反映了藥物分子在一定條件下與靶標結合的有效性,親和力越高,通常意味著藥物在較低濃度下即可有效發揮作用。需要注意的是,在使用kd時為了標準化,通常會對kd進行取負對數的操作(如davis數據集中),如公式所示:
2、pkd=-log10(kd×10-9)
3、經過該處理后,親和力的數值范圍更加適合模型處理,同時更好地反映藥物與靶標之間的結合親和力,值越大,代表親和力越高。藥物靶標結合親和力預測對于藥物設計、藥物重定位等工作具有指導意義。
4、傳統上,親和力的測量依賴于藥物實驗方法,這些方法雖然精確,但是耗時且成本巨大,限制了其在大規模藥物篩選中的應用。隨著計算能力的不斷提升,計算機類的方法也被廣泛運用在藥物靶標結合親和力預測上。
5、傳統的機器學習方法依賴于分子描述符和蛋白質的物理化學特性,通過手動提取特征,一些經典的機器學習方法就被用來進行藥物靶標親和力的預測,例如,支持向量機(svm),隨機森林(rf)等。
6、基于深度學習的方法通過自動學習分子結構和蛋白質序列中的特征,減少了人工特征提取的依賴,近年來成為藥物靶標結合親和力預測的熱點。deepdta利用卷積神經網絡從藥物和靶標的分子描述符和序列中提取特征,預測藥物與靶標的結合親和力;graphd
7、對于傳統的機器學習方法,它們依賴于人工提取的分子描述符或蛋白質可能無法全面捕捉復雜分子和靶標間的相互作用;大多數機器學習方法僅使用手工描述符或一維的序列數據,忽略了分子和蛋白質的三維結構;在訓練時,傳統的機器學習方法容易對小規模、高維數據集過擬合,導致模型在從未見過的數據集上的泛化能力較差。
8、對于過去的深度學習方法,依賴于大規模、高質量的數據,而藥物-靶標結合親和力數據集有限且存在偏倚問題,在數據不足的情況下,深度學習模型很容易過擬合;深度學習模型雖然能夠自動學習特征,但是其內部機制復雜,難以解釋其決策過程。這使得模型的可解釋性較差,難以提供生物學上的洞察;許多過去的深度學習模型在學習藥物分子和蛋白質表示時局限于單一的表示,無法捕捉全面的結構特征。
技術實現思路
1、為了彌補以上不足,本專利技術提供了一種多模態特征融合模型在藥物靶標結合親和力預測的應用,本模型通過深度學習方法分別處理藥物和靶標分支的特征,進行多模態的融合并進行預測,模型克服了藥物靶標相互作用數據集不足的問題,即便是在小數據集上也取得了較好的測試結果。
2、為了實現上述目的,本專利技術采用了如下技術方案:多模態特征融合模型在藥物靶標結合親和力預測的應用,包括以下步驟:
3、s1.獲取藥物靶標結合親和力的原始數據集,將數據集中的結合親和力指數作為訓練集、測試集的標簽;
4、s2.利用原始數據集中提供的藥物序列和靶標序列表示獲取其他模態的表示信息,并對獲取的不同模態的藥物和靶標的表示信息進行預處理操作,將它們處理為模型可以接受的特征向量形式;
5、s3.將藥物、靶標的多模態的特征向量以及結合親和力標簽分別保存為pytorchtensor(.pt)的形式;
6、s4.加載.pt文件,將不同模態的信息輸入到深度神經網絡中進行訓練與測試。
7、作為優選,所述步驟s2中包括以下步驟:
8、s2.1:利用python庫中rdkit進行操作,以藥物分子的smiles為輸入生成分子對象,將分子對象再轉化為相應的分子指紋形式(ecfp4);
9、s2.2:利用rdkit中的brics分割方法,對藥物分子的smiles進行分割,分割后的各個部分作為新的節點,斷點處使用一條新的邊連接,使用rdkit生成節點的167位的maccs指紋編碼和27位的藥效團指紋編碼,將兩段編碼連接作為各部分的節點信息,斷點處使用brics分割時的化學反應編碼作為邊上的信息,由以上的節點、節點信息、邊、邊信息構成藥物分子的片段圖;
10、s2.3:以蛋白質靶標的序列為索引在pdb數據庫中進行檢索,下載序列相似度最高的蛋白質結構,利用蛋白質結構計算出各個殘基間的距離,c-α原子是用于表示蛋白質主鏈骨架位置的關鍵原子,為了簡化計算,穩定蛋白質結構表征,將c-α原子作為蛋白質殘基的中心,即將c-α原子間的距離作為殘基距離,最后,將各個氨基酸的名稱映射到一個字典,生成蛋白質殘基距離接觸的鄰接矩陣;
11、s2.4:對于藥物smiles串和蛋白質序列,由于各個序列的長度不一,對于過長的序列采取截斷的方法,而對于較短的序列則進行補零,序列長度取512,使用基于bert的預訓練模型對序列的淺層特征進行了抽取。
12、作為優選,所述步驟s4中包括以下步驟:
13、s4.1:加載pytorchtensor文件,將讀取到的藥物smiles和蛋白質protein字典的值賦值給對應的變量,即藥物smiles序列的表示、藥物分子片段圖表示、藥物指紋表示和蛋白質序列表示、蛋白質殘基接觸圖表示;
14、s4.2:將表示信息輸入到模型中,得出預測結果;
15、s4.3:對模型進行不斷的訓練預測,學習率優化器采用了adamw優化算法,使用了權重衰減的策略以防止過擬合,學習率調度器使用了余弦退火算法,損失函數使用了均方根誤差損失,并加權moe中的損失函數,表示公式如下:
16、
17、loss=lossmse+wmoe.lossmoe
18、其中,n是樣本數量,outputi是模型的預測值,labeli是對應的真實值,wmoe為moe損失的權重,lossmoe為moe的損失,在每個epoch結束后,模型將進行驗證模式,不會更新參數,僅計算測試集上的損失,采用以下指標衡量模型的性能,一致性系數(ci),表示公式如下:
19、
本文檔來自技高網...
【技術保護點】
1.多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:包括以下步驟:
2.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S2中包括以下步驟:
3.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S4中包括以下步驟:
4.根據權利要求3所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S4.2中包括以下步驟:
5.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S4.2還包括S4.2.3:對于藥物的分子片段圖表示,表示信息為包含節點特征x、邊特征edge_attr和邊連接信息edge_index的圖結構,將圖結構數據輸入到基于消息傳遞的圖神經網絡中,圖網絡的內部操作如下,首先利用線性變化將節點特征和邊特征映射到輸出通道上,表示為:
6.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述S4.5還包括S4.2.5:對于上述得到
7.根據權利要求6所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述S4.2還包括S4.2.7:對于融合獲取的特征向量,將其輸入到全連接層中,得出最后的預測結果。
...【技術特征摘要】
1.多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:包括以下步驟:
2.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s2中包括以下步驟:
3.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s4中包括以下步驟:
4.根據權利要求3所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s4.2中包括以下步驟:
5.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s4.2還包括s4.2.3:對于藥物的分子片段圖表示,表示信息為包含節點特征x、邊特征edge_attr和邊連接信息edge_index的圖結構,將圖結構數據輸入到基于消息傳遞的圖神經網絡中,圖網絡的內部操作如下,首先利用線性變化將節點特征和邊特征映...
【專利技術屬性】
技術研發人員:康艷蕾,莊浩宇,李重,王秀秀,
申請(專利權)人:湖州師范學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。