System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲av无码专区在线电影天堂 ,无码的免费不卡毛片视频,mm1313亚洲国产精品无码试看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>大理大學專利>正文

    一種基于深度學習框架的藥物靶點識別方法技術

    技術編號:44482571 閱讀:5 留言:0更新日期:2025-03-04 17:49
    本發明專利技術涉及計算機生物信息技術領域,公開了一種基于深度學習框架的藥物靶點識別方法,包括以下步驟:S1:獲取藥物?靶標相互作用Chemogenomic?Model數據集;S2:獲取靶標的結構文件,通過靶標的結構文件得到靶標的結構特征表示以及邊特征表示;S3:獲取藥物、靶標的序列標簽編碼特征表示、圖結構特征表示和物理化學特征表示;S4:將藥物的序列標簽編碼特征表示送入一個三層的多尺度卷積神經網絡中,每層的步長為1,填充為0,卷積核的大小分別為3x3、5x5和7x7。本發明專利技術通過使用的基準數據集僅為對比的先進方法所使用的基準數據集的三分之一,但在相同的靶標識別測試數據集上,MM?IDTarget在所有的Top?K評估指標上展現出接近或優于對比的先進方法的性能。

    【技術實現步驟摘要】

    本專利技術涉及計算機生物信息,具體為一種基于深度學習框架的藥物靶點識別方法


    技術介紹

    1、精準識別藥物的靶標在藥物設計、藥物重定位和治療致病機制不明確的疾病等研究領域扮演關鍵角色,計算機輔助的藥物靶標識別方法經過數十年的發展,從基于結構和配體(藥物)的方法,逐步發展到目前的以機器學習為主的數據驅動方法,以機器學習為主的數據驅動方法卻能夠以較快速度和較高準確率,從海量藥物-靶標對中識別出與給定藥物有生物活性的靶標,以機器學習為主的數據驅動方法識別藥物靶標可以分為兩類:基于傳統機器學習的方法和基于深度學習的方法。

    2、在基于深度學習的藥物-靶標結合親和性預測中,藥物-靶標的結合親和性預測一般被當作回歸任務,預測藥物和靶標之間交互的強度,經典的方法包括基于藥物和靶標序列的deepdta和deepdtaf等序列方法,基于藥物和靶標序列及結構的graphdta、datadta和s2dta等組合方法,基于藥物和靶標結構的gtamp-dta,msgnn-dta和planet等結構方法。基于深度學習對靶標預測概率排序研究是在藥物-靶標交互和結合親和性的基礎上,進一步對識別的可能靶標進行top-k排序,例如,codd-pred方法和guiltytargets-covid-19方法等。

    3、盡管基于深度學習的絕大多數方法引入了靶標的特征,相比傳統機器學習方法,模型的性能指標如準確率、均方根誤差(root?mean?squared?error,rmse)、皮爾遜相關系數(pearson?correlation?coefficient,pcc)等也有大幅提升,但是卻只有小部分成果利用圖神經網絡,從藥物和靶標中提取影響藥物靶標識別的結構特征,圖神經網絡在藥物靶標的識別研究中仍處于初始探索階段。此外,對于現存的基于深度學習的藥物-靶標交互或親和性識別藥物靶標的方法,只是考慮了模型的分類或回歸的性能指標,而對于評價模型識別靶標質量的關鍵性評價指標top-k卻鮮有計算,進一步利用圖神經網絡這一前沿深度學習技術,構建達到用戶期望的top-k閾值的藥物靶標識別模型仍然面臨巨大挑戰。因此,我們提出一種基于深度學習框架的藥物靶點識別方法。


    技術實現思路

    1、本專利技術的目的在于提供一種基于深度學習框架的藥物靶點識別方法,,解決了
    技術介紹
    中所提出的問題。

    2、為實現上述目的,本專利技術提供如下技術方案:一種基于深度學習框架的藥物靶點識別方法,包括以下步驟:

    3、具體步驟如下:

    4、s1:獲取藥物-靶標相互作用數據集。chemogenomic-model數據集來源于bindingdb數據庫(version?2020)和chembl27數據庫,該數據集包含153281個藥物(化合物或小分子)-靶標(蛋白質)對,這些藥物-靶標對與859個靶標和93281個藥物小分子相關,我們對該數據集進行預處理后,獲得47247個藥物-靶標對,其中,23481個正樣本和23766個負樣本,這些藥物-靶標對作為本研究的基準數據集。數據集的預處理步驟如下:

    5、(1)基于859個靶標,我們將藥物-靶標對劃分為859個子數據集;

    6、(2)我們將每個子數據集中的化合物進行相似度聚類,相似度閾值設為0.3,從而將每個子數據集劃分為多個化合物簇;

    7、(3)在每個化合物簇中,如果正(負)樣本的數目為1,我們將保留該樣本;如果正(負)樣本的數目大于1,我們將抽取正(負)樣本的25%(結果向上取整)保留;

    8、(4)最后,為了評估模型的性能,我們將每個簇抽取后的樣本進一步劃分為訓練集和測試集:如果簇中的正(負)樣本數目小于等于2,那么該簇的所有正(負)樣本均作為訓練集;如果該簇的正(負)樣本數目大于2且小于等于10,則按10%隨機抽取測試集樣本(向上取整),剩余樣本作為訓練集;如果該簇的正(負)樣本數目大于10,則按8%隨機抽取測試集樣本(向上取整),剩余正(負)樣本均作為訓練集。

    9、s2:獲取靶標的結構文件(pdb),通過pdb文件得到靶標的結構特征表示以及邊特征表示。

    10、s3:獲取藥物、靶標的序列標簽編碼特征表示、圖結構特征表示和物理化學特征表示。

    11、s4:將藥物(靶標)的序列標簽編碼特征表示送入一個三層的多尺度卷積神經網絡中,每層的步長為1,填充為0,卷積核的大小分別為3x3、5x5和7x7,每個卷積層后均接有一個歸一化處理操作,獲取藥物(靶標)在多尺度卷積神經網絡的三層特征,將它們進行拼接并通過線性變換生成序列標簽編碼特征。

    12、s5:將藥物圖結構特征表示送入三層的圖轉換器(graphtransformer)框架中提取藥物的結構模態特征,graphtransformer每層的heads為8,每個隱藏層的神經元個數為128,每個隱藏層后均接有歸一化處理操作,并在最后連接最大池化操作。

    13、s6:將靶標圖結構特征表示送入residual?ew-gcn圖卷積網絡中,residual?ew-gcn架構引自gpcndta,residual?ew-gcn內含三個gcn層和一個全連接網絡,首先將靶標圖特征表示分別輸入第一層gcn和全連接層,其次把得到的第一層gcn輸出特征和全連接網絡的輸出特征拼接,然后將拼接的特征依次過第二層以及第三層gcn得到帶有殘差的特征,最后并對其進行l2歸一化操作。

    14、s7:采用交叉注意力融合藥物(靶標)的序列標簽編碼特征表示和圖結構特征表示,然后融合藥物和靶標的融合特征表示得到藥物-靶標交叉注意力融合特征表示。

    15、s8:將得到藥物-靶標交叉注意力融合特征表示與藥物(靶標)物理化學特征表示拼接后,作為藥物-靶標交互的全面特征送入全連接層預測藥物-靶標交互作用。

    16、s9:比對真實標簽與預測結果,以最小化交叉熵損失函數更新網絡參數,直至達到最大迭代次數,訓練結束,獲得訓練好的mm-idtarget模型。

    17、s10:對于訓練好的mm-idtarget模型,我們采用的是基于top-k的recall來評估模型藥物靶標識別的性能,具體計算過程如下:

    18、(1)用于測試的藥物小分子數據集中,每個藥物小分子都會從模型中獲取一個與859個靶標交互的得分(取兩位小數)排序列表。

    19、(2)如果一個藥物小分子與多個靶標的交互得分相同,我們將進一步采用先進方法deeppurpose對藥物小分子與靶標的交互得分進行預測,并對獲得的得分進行排序。

    20、(3)如果一個藥物小分子的真實靶標在模型識別的top-k個靶標的范圍內,則定義該藥物小分子的靶標識別是正確的。基于top-k的recall評估指標,用于衡量在給定的測試藥物小分子數據集中正確識別的藥物小分子對應靶標的比例。。

    21、與現有技術相比,本專利技術的有益效果如下:

    22、(1)利用graph?transformer,mcnn(multiple?本文檔來自技高網...

    【技術保護點】

    1.一種基于深度學習框架的藥物靶點識別方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述S1中Chemogenomic-Model數據集來源于BindingDB數據庫(Version?2020)和ChEMBL27數據庫。

    3.根據權利要求2所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:數據集包含153281個藥物-靶標對,這些藥物-靶標對與859個靶標和93281個藥物小分子相關,對該數據集進行預處理后,獲得47247個藥物-靶標對,其中,23481個正樣本和23766個負樣本。

    4.根據權利要求3所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:數據集的預處理步驟如下:

    5.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述S10中具體計算過程如下:

    6.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述S11中損失函數的計算過程,如公式所示:

    【技術特征摘要】

    1.一種基于深度學習框架的藥物靶點識別方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:所述s1中chemogenomic-model數據集來源于bindingdb數據庫(version?2020)和chembl27數據庫。

    3.根據權利要求2所述的一種基于深度學習框架的藥物靶點識別方法,其特征在于:數據集包含153281個藥物-靶標對,這些藥物-靶標對與859個靶標和93281個藥物小分...

    【專利技術屬性】
    技術研發人員:曾新蘇光鵬李毅
    申請(專利權)人:大理大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av无码日韩av无码网站冲 | 久久亚洲精品无码| 国产精品无码素人福利不卡| 无码熟妇αⅴ人妻又粗又大| 中文字幕丰满伦子无码| 亚洲av无码成人影院一区| 日韩成人无码影院| 精品深夜AV无码一区二区老年 | 狠狠躁天天躁中文字幕无码| 精品成在人线AV无码免费看 | 无码国产激情在线观看| 国产成人无码一区二区在线观看 | 中文字幕无码播放免费| 国产成人无码A区在线观看视频| 亚洲精品中文字幕无码A片老| 一本一道av中文字幕无码| 免费a级毛片无码a∨性按摩| 中字无码av电影在线观看网站 | 久久久久久国产精品免费无码| 亚洲中文字幕伊人久久无码| 无码一区二区三区免费视频| 亚洲国产精品无码久久久| 无码人妻丰满熟妇区五十路百度| 黄桃AV无码免费一区二区三区 | 亚洲Av无码一区二区二三区 | 国产精品无码久久久久久久久久| 亚洲国产成人精品无码一区二区| 久久青青草原亚洲AV无码麻豆| 久久无码一区二区三区少妇| 亚洲国产精品无码久久青草| 无翼乌工口肉肉无遮挡无码18| 永久免费av无码网站大全| 人妻少妇精品无码专区| 无码人妻aⅴ一区二区三区| 日韩毛片免费无码无毒视频观看 | 亚洲av无码一区二区三区网站| 永久免费av无码网站yy| 亚洲AV无码精品色午夜在线观看| 无码精品久久久天天影视| 精品无码一区二区三区在线| 亚洲日韩精品无码AV海量|