System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 50岁人妻丰满熟妇αv无码区,日日摸夜夜添无码AVA片,日韩精品无码一区二区三区不卡
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    多模態特征融合模型在藥物靶標結合親和力預測的應用制造技術

    技術編號:44374878 閱讀:2 留言:0更新日期:2025-02-25 09:51
    本發明專利技術涉及藥物靶標相互作用的領域,公開了一種多模態特征融合模型在藥物靶標結合親和力預測的應用,包括以下步驟:S1.獲取藥物靶標結合親和力的原始數據集,將數據集中的結合親和力指數作為訓練集、測試集的標簽;S2.利用原始數據集中提供的藥物序列和靶標序列表示獲取其他模態的表示信息,并對獲取的不同模態的藥物和靶標的表示信息進行預處理操作,將它們處理為模型可以接受的特征向量形式;S3.將藥物、靶標的多模態的特征向量以及結合親和力標簽分別保存為pytorchtensor(.pt)的形式。本發明專利技術中,通過運用預訓練模型去學習藥物和蛋白質序列的淺層表征,克服了藥物靶標結合親和力數據集不足的問題。

    【技術實現步驟摘要】

    本專利技術涉及藥物靶標相互作用的,尤其涉及一種多模態特征融合模型在藥物靶標結合親和力預測的應用


    技術介紹

    1、藥物靶標結合親和力是指藥物分子與生物靶標之間結合的緊密程度,通常以結合常數(如ic50、kd或ki)表示。這些常數反映了藥物分子在一定條件下與靶標結合的有效性,親和力越高,通常意味著藥物在較低濃度下即可有效發揮作用。需要注意的是,在使用kd時為了標準化,通常會對kd進行取負對數的操作(如davis數據集中),如公式所示:

    2、pkd=-log10(kd×10-9)

    3、經過該處理后,親和力的數值范圍更加適合模型處理,同時更好地反映藥物與靶標之間的結合親和力,值越大,代表親和力越高。藥物靶標結合親和力預測對于藥物設計、藥物重定位等工作具有指導意義。

    4、傳統上,親和力的測量依賴于藥物實驗方法,這些方法雖然精確,但是耗時且成本巨大,限制了其在大規模藥物篩選中的應用。隨著計算能力的不斷提升,計算機類的方法也被廣泛運用在藥物靶標結合親和力預測上。

    5、傳統的機器學習方法依賴于分子描述符和蛋白質的物理化學特性,通過手動提取特征,一些經典的機器學習方法就被用來進行藥物靶標親和力的預測,例如,支持向量機(svm),隨機森林(rf)等。

    6、基于深度學習的方法通過自動學習分子結構和蛋白質序列中的特征,減少了人工特征提取的依賴,近年來成為藥物靶標結合親和力預測的熱點。deepdta利用卷積神經網絡從藥物和靶標的分子描述符和序列中提取特征,預測藥物與靶標的結合親和力;graphdta使用圖神經網絡從分子圖中學習藥物的特征信息;基于transformer的神經網絡框架transdti則使用更高效的transformer來進行親和力的預測任務。專利名稱“基于三分支cnn的藥物靶標結合親和力預測方法”(申請號為cn202211552644.2)使用了卷積網絡學習輸入的特征;專利名稱“基于跨尺度與跨模態注意力機制的藥物-靶標結合親和力預測方法”(申請號為cn202410505535.8)利用跨模態的注意力機制來進行多特征的融合;專利名稱“一種基于transvae的藥物-靶標結合親和力預測方法”(申請號為cn202310840256.2)結合transformer與變分自編碼器(variationalautoencoder,vae)兩個模型的優勢進行藥物靶標結合親和力的預測,對于傳統的藥物實驗,它們往往成本巨大,耗時耗力。

    7、對于傳統的機器學習方法,它們依賴于人工提取的分子描述符或蛋白質可能無法全面捕捉復雜分子和靶標間的相互作用;大多數機器學習方法僅使用手工描述符或一維的序列數據,忽略了分子和蛋白質的三維結構;在訓練時,傳統的機器學習方法容易對小規模、高維數據集過擬合,導致模型在從未見過的數據集上的泛化能力較差。

    8、對于過去的深度學習方法,依賴于大規模、高質量的數據,而藥物-靶標結合親和力數據集有限且存在偏倚問題,在數據不足的情況下,深度學習模型很容易過擬合;深度學習模型雖然能夠自動學習特征,但是其內部機制復雜,難以解釋其決策過程。這使得模型的可解釋性較差,難以提供生物學上的洞察;許多過去的深度學習模型在學習藥物分子和蛋白質表示時局限于單一的表示,無法捕捉全面的結構特征。


    技術實現思路

    1、為了彌補以上不足,本專利技術提供了一種多模態特征融合模型在藥物靶標結合親和力預測的應用,本模型通過深度學習方法分別處理藥物和靶標分支的特征,進行多模態的融合并進行預測,模型克服了藥物靶標相互作用數據集不足的問題,即便是在小數據集上也取得了較好的測試結果。

    2、為了實現上述目的,本專利技術采用了如下技術方案:多模態特征融合模型在藥物靶標結合親和力預測的應用,包括以下步驟:

    3、s1.獲取藥物靶標結合親和力的原始數據集,將數據集中的結合親和力指數作為訓練集、測試集的標簽;

    4、s2.利用原始數據集中提供的藥物序列和靶標序列表示獲取其他模態的表示信息,并對獲取的不同模態的藥物和靶標的表示信息進行預處理操作,將它們處理為模型可以接受的特征向量形式;

    5、s3.將藥物、靶標的多模態的特征向量以及結合親和力標簽分別保存為pytorchtensor(.pt)的形式;

    6、s4.加載.pt文件,將不同模態的信息輸入到深度神經網絡中進行訓練與測試。

    7、作為優選,所述步驟s2中包括以下步驟:

    8、s2.1:利用python庫中rdkit進行操作,以藥物分子的smiles為輸入生成分子對象,將分子對象再轉化為相應的分子指紋形式(ecfp4);

    9、s2.2:利用rdkit中的brics分割方法,對藥物分子的smiles進行分割,分割后的各個部分作為新的節點,斷點處使用一條新的邊連接,使用rdkit生成節點的167位的maccs指紋編碼和27位的藥效團指紋編碼,將兩段編碼連接作為各部分的節點信息,斷點處使用brics分割時的化學反應編碼作為邊上的信息,由以上的節點、節點信息、邊、邊信息構成藥物分子的片段圖;

    10、s2.3:以蛋白質靶標的序列為索引在pdb數據庫中進行檢索,下載序列相似度最高的蛋白質結構,利用蛋白質結構計算出各個殘基間的距離,c-α原子是用于表示蛋白質主鏈骨架位置的關鍵原子,為了簡化計算,穩定蛋白質結構表征,將c-α原子作為蛋白質殘基的中心,即將c-α原子間的距離作為殘基距離,最后,將各個氨基酸的名稱映射到一個字典,生成蛋白質殘基距離接觸的鄰接矩陣;

    11、s2.4:對于藥物smiles串和蛋白質序列,由于各個序列的長度不一,對于過長的序列采取截斷的方法,而對于較短的序列則進行補零,序列長度取512,使用基于bert的預訓練模型對序列的淺層特征進行了抽取。

    12、作為優選,所述步驟s4中包括以下步驟:

    13、s4.1:加載pytorchtensor文件,將讀取到的藥物smiles和蛋白質protein字典的值賦值給對應的變量,即藥物smiles序列的表示、藥物分子片段圖表示、藥物指紋表示和蛋白質序列表示、蛋白質殘基接觸圖表示;

    14、s4.2:將表示信息輸入到模型中,得出預測結果;

    15、s4.3:對模型進行不斷的訓練預測,學習率優化器采用了adamw優化算法,使用了權重衰減的策略以防止過擬合,學習率調度器使用了余弦退火算法,損失函數使用了均方根誤差損失,并加權moe中的損失函數,表示公式如下:

    16、

    17、loss=lossmse+wmoe.lossmoe

    18、其中,n是樣本數量,outputi是模型的預測值,labeli是對應的真實值,wmoe為moe損失的權重,lossmoe為moe的損失,在每個epoch結束后,模型將進行驗證模式,不會更新參數,僅計算測試集上的損失,采用以下指標衡量模型的性能,一致性系數(ci),表示公式如下:

    19、

    本文檔來自技高網...

    【技術保護點】

    1.多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:包括以下步驟:

    2.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S2中包括以下步驟:

    3.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S4中包括以下步驟:

    4.根據權利要求3所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S4.2中包括以下步驟:

    5.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟S4.2還包括S4.2.3:對于藥物的分子片段圖表示,表示信息為包含節點特征x、邊特征edge_attr和邊連接信息edge_index的圖結構,將圖結構數據輸入到基于消息傳遞的圖神經網絡中,圖網絡的內部操作如下,首先利用線性變化將節點特征和邊特征映射到輸出通道上,表示為:

    6.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述S4.5還包括S4.2.5:對于上述得到的特征向量,以藥物和蛋白質分支分別進行融合,融合策略是先將多模態的特征向量進行連接,連接后的形狀為(B,Ldrug,H)和(B,Lprotein,H),其中,Ldrug=Lsequence+Lgraph+Lfingerprint,Lprotein=Lsequence+Lfingerprint,然后將連接后的特征向量輸入到一個基于多專家架構的多頭自注意力層中,多頭自注意力的核心操作如下,對輸入x分別進行線性變換,得到查詢向量Q、鍵向量K和值向量V,表示為:

    7.根據權利要求6所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述S4.2還包括S4.2.7:對于融合獲取的特征向量,將其輸入到全連接層中,得出最后的預測結果。

    ...

    【技術特征摘要】

    1.多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:包括以下步驟:

    2.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s2中包括以下步驟:

    3.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s4中包括以下步驟:

    4.根據權利要求3所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s4.2中包括以下步驟:

    5.根據權利要求1所述的多模態特征融合模型在藥物靶標結合親和力預測的應用,其特征在于:所述步驟s4.2還包括s4.2.3:對于藥物的分子片段圖表示,表示信息為包含節點特征x、邊特征edge_attr和邊連接信息edge_index的圖結構,將圖結構數據輸入到基于消息傳遞的圖神經網絡中,圖網絡的內部操作如下,首先利用線性變化將節點特征和邊特征映...

    【專利技術屬性】
    技術研發人員:康艷蕾莊浩宇李重王秀秀
    申請(專利權)人:湖州師范學院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久天堂av综合色无码专区| 亚洲av中文无码字幕色不卡 | yy111111少妇影院里无码| 无码无需播放器在线观看| 东京热人妻无码人av| 人妻夜夜添夜夜无码AV| 无码人妻精品一区二区蜜桃AV| 蜜桃成人无码区免费视频网站| 无码激情做a爰片毛片AV片| 人妻无码一区二区不卡无码av| 亚洲色偷拍区另类无码专区| 中文字幕av无码一二三区电影 | 伊人久久精品无码麻豆一区| 国模无码人体一区二区| 免费无码一区二区三区蜜桃大 | 国产成人综合日韩精品无码不卡 | 人妻av中文字幕无码专区| 无码精品国产VA在线观看 | 亚洲精品午夜无码电影网| 精品无码国产AV一区二区三区| 精品无码日韩一区二区三区不卡| 久久亚洲AV永久无码精品| 日韩美无码五月天| 亚洲GV天堂无码男同在线观看| 精品无码AV一区二区三区不卡| 亚洲av永久无码精品古装片 | 无码乱肉视频免费大全合集| 无码人妻精品一区二区三区夜夜嗨| 综合无码一区二区三区| 狠狠精品久久久无码中文字幕| 免费无码又爽又黄又刺激网站| 免费A级毛片无码A| 亚洲精品无码99在线观看| 一本一道中文字幕无码东京热| 无码一区二区三区在线| 亚洲精品国产日韩无码AV永久免费网| 亚洲精品无码99在线观看| 免费一区二区无码东京热| 亚洲中文字幕久久精品无码喷水| 一本大道东京热无码一区| 无码专区中文字幕无码|