System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 午夜福利无码一区二区,久久久久亚洲av无码专区,无码av中文一区二区三区桃花岛
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>湖南大學專利>正文

    基于多模態蛋白質語言模型的DNA綁定殘基預測方法技術

    技術編號:44286595 閱讀:3 留言:0更新日期:2025-02-14 22:22
    本發明專利技術公開了生物信息學技術領域的基于多模態蛋白質語言模型的DNA綁定殘基預測方法。該基于多模態蛋白質語言模型的DNA綁定殘基預測方法包括以下步驟:將待進行DNA綁定殘基預測的蛋白質序列P,依次使用工具分別獲取特征文件;將所有特征文件輸入ESM3中得到一個嵌入矩陣M;將蛋白質序列處理成殘基樣本,根據蛋白質結構圖搭建等變圖神經網絡模型,利用已知DNA綁定殘基的蛋白質序列構建數據集并訓練所搭建的網絡;將蛋白質序列的殘基樣本輸入到訓練的模型中,得到蛋白質序列的DNA綁定殘基。該基于多模態蛋白質語言模型的DNA綁定殘基預測方法提高了DNA綁定殘基預測的效率與精確性。

    【技術實現步驟摘要】

    本專利技術涉及生物信息學,具體地,涉及一種基于多模態蛋白質語言模型的dna綁定殘基預測方法。


    技術介紹

    1、dna-蛋白質相互作用貫穿許多生命活動過程,起到基礎的調控作用。此外,dna綁定蛋白質的突變是引起許多疑難基因疾病的根本原因。準確識別dna綁定殘基有助于深入理解dna-蛋白質相互作用的內在機制,同時闡明疾病的致病機理。因此,精確預測dna綁定殘基,有助于蛋白質調控功能的研究及靶向藥物的研發,具有十分重要的生物學意義。

    2、目前,專門用于dna綁定殘基預測的文獻方法有:esm-dbp(zeng?w,dou?y,pan?l,et?al.improving?prediction?performance?of?general?protein?language?model?bydomain-adaptive?pretraining?on?dna-binding?protein[j].nature?communications,2024,15(1):7838.即:zeng?w等.基于dna結合蛋白的領域自適應預訓練提高通用蛋白質語言模型的預測性能[j].自然通訊,2024,15(1):7838);graphbind(xia?y,xia?c?q,pan?x,et?al.graphbind:protein?structural?context?embedded?rules?learned?byhierarchical?graph?neural?networks?for?recognizing?nucleic-acid-bindingresidues[j].nucleic?acids?research,2021,49(9):e51-e51.即:xia?y等.graphbind:用層次圖神經網絡學習的蛋白質結構上下文嵌入規則用于識別核酸結合殘基[j].核酸研究,2021,49(9):e51-e51);equipnas(roche?r,moussad?b,shuvo?m?h,et?al.equipnas:improved?protein-nucleic?acid?binding?site?prediction?using?protein-language-model-informed?equivariant?deep?graph?neural?networks[j].nucleic?acidsresearch,2024,52(5):e27-e27.即:roche?r等.equipnas:基于蛋白質語言模型的等變深度圖神經網絡改進的蛋白質核酸結合位點預測[j].核酸研究,2024,52(5):e27-e27)、esm-nbr(zeng?w,lv?d,liu?x,et?al.esm-nbr:fast?and?accurate?nucleic?acid-bindingresidue?prediction?via?protein?language?model?feature?representation?andmulti-task?learning[c].2023ieee?international?conference?on?bioinformaticsand?biomedicine(bibm).ieee,2023:76-81.即:zeng?w等.基于蛋白質語言模型特征表示和多任務學習的核酸結合殘基快速準確預測[c].2023年ieee生物信息學與生物醫學國際會議,2023:76-81)等。

    3、esm-dbp收集了大量的dna綁定蛋白質用于改進大型通用蛋白質語言模型esm2。graphbind構建以目標殘基為中心的局部蛋白質圖來學習空間上下文嵌入信息,并使用了層次圖神經網絡作為分類器學習其鑒別特征。equipnas使用了多種蛋白質序列和結構特征,以及蛋白質語言模型esm2的特征嵌入,然后利用等變圖神經網絡作為模型鑒別dna綁定殘基。esm-nbr使用了通用蛋白質語言模型esm2的表征并結合多任務學習技術同時預測dna和rna結合殘基。綜上所述,現存的dna綁定殘基預測方法在計算代價、劃分精確性方面,距離實際應用的要求還有很大差距,迫切地需要改進。


    技術實現思路

    1、為了解決上述問題,本專利技術的目的在于提供一種基于多模態蛋白質語言模型的dna綁定殘基預測方法,克服現有dna綁定殘基預測方法在計算代價、劃分精確性方面的不足,計算代價低、劃分精確性高,提高了dna綁定殘基預測的效率與精確性。

    2、為了實現上述目的,本專利技術的技術方案如下:

    3、一種基于多模態蛋白質語言模型的dna綁定殘基預測方法,包括以下步驟:

    4、s1.將待進行dna綁定殘基預測的蛋白質序列p,依次使用alphafold2、dssp、shrake-rupley和interproscan工具分別獲取蛋白質結構pdb特征文件、蛋白質二級結構dssp特征文件、蛋白質溶劑可及性ss特征文件以及interpro功能注釋特征文件;

    5、s2.將s1中獲取的所有特征文件輸入多模態蛋白質語言模型esm3中得到一個嵌入矩陣m作為蛋白質p的特征表示;

    6、s3.將蛋白質序列處理成殘基樣本,根據蛋白質結構圖搭建等變圖神經網絡模型,利用已知dna綁定殘基的蛋白質序列構建數據集并訓練所搭建的網絡;

    7、s4.將待進行dna綁定殘基預測的蛋白質序列的殘基樣本輸入到訓練的模型中,得到蛋白質序列的dna綁定殘基。

    8、進一步的,所述s1包括以下步驟:

    9、s11.輸入一個殘基數為l的待進行dna綁定殘基預測的蛋白質序列信息,記作p;

    10、s12.對于蛋白質p,使用alphafold2工具預測其三維結構信息得到pdb特征文件,并將其原子坐標表示為記作coord的矩陣;

    11、s13.對于s12中得到的蛋白質p的pdb特征文件,使用dssp工具計算得到蛋白質p的八態二級結構ss={s1,s2,...,si,...,sl},其中si∈(h,b,e,g,i,t,s,l)表示蛋白質p的第i個殘基的二級結構狀態;

    12、s14.使用shrake-rupley算法對s12中得到的蛋白質p的pdb特征文件計算其溶劑可及性表面積sa={a1,a2,...,ai,...,al},非負實值ai表示蛋白質p的第i個殘基的溶劑可及性表面積;

    13、s15.對蛋白質p的序列使用interproscan工具搜索pfam,prosite和cath數據庫得到一個蛋白質功能注釋信息特征文件

    14、進一步的,所述s12中的記作coord的矩陣為一個大小為l×nnn×3的矩陣,其中,nnn為每個殘基的原子個數,3為每個原子的三維空間坐標。

    15、進一步的,所述s15中的蛋白質功能注釋信息文件其中,表示fun中第i條功能注釋信息,nnn表示fun中功能注釋信息的總數目,每條功能注釋信息包含一條蛋白質功能注釋文本str和對應的功能區間r=[start,en本文檔來自技高網...

    【技術保護點】

    1.基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S1包括以下步驟:

    3.根據權利要求2所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S12中的記作Coord的矩陣為一個大小為L×N×3的矩陣,其中,N為每個殘基的原子個數,3為每個原子的三維空間坐標。

    4.根據權利要求2所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S15中的蛋白質功能注釋信息文件其中,表示FUN中第i條功能注釋信息,N表示FUN中功能注釋信息的總數目,每條功能注釋信息包含一條蛋白質功能注釋文本STR和對應的功能區間R=[start,end],其中1≤start≤end≤L。

    5.根據權利要求2所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S2中的嵌入矩陣M的大小為L×1534,其中,L為蛋白質P中殘基的個數,1534為每個殘基的特征維度。

    6.根據權利要求2所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S3包括以下步驟:

    7.根據權利要求6所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S32包括以下步驟:

    8.根據權利要求7所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S4包括以下步驟:

    ...

    【技術特征摘要】

    1.基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,所述s1包括以下步驟:

    3.根據權利要求2所述的基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,所述s12中的記作coord的矩陣為一個大小為l×n×3的矩陣,其中,n為每個殘基的原子個數,3為每個原子的三維空間坐標。

    4.根據權利要求2所述的基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,所述s15中的蛋白質功能注釋信息文件其中,表示fun中第i條功能注釋信息,n表示fun中功能注釋信息的總數目,每條功能注釋信息包含一條蛋白質功...

    【專利技術屬性】
    技術研發人員:彭紹亮,曾文武呂達鋒,許力文,潘良睿
    申請(專利權)人:湖南大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码专区在线电影成人| 激情无码亚洲一区二区三区| 亚洲av无码成h人动漫无遮挡| 国产AV无码专区亚洲AV毛网站| 丰满熟妇乱又伦在线无码视频| 亚洲精品无码久久久久APP| 亚洲伊人成无码综合网| 日本爆乳j罩杯无码视频| 久久久久无码精品国产| 亚洲日韩精品无码专区网站| 92午夜少妇极品福利无码电影 | 大桥久未无码吹潮在线观看| 免费A级毛片无码无遮挡内射| 亚洲精品无码专区久久同性男| 亚洲精品无码久久| 无码午夜人妻一区二区三区不卡视频 | 中文无码成人免费视频在线观看| 99精品国产在热久久无码| 国产台湾无码AV片在线观看| 性色av无码免费一区二区三区 | 免费a级毛片无码a∨免费软件 | 亚洲aⅴ无码专区在线观看| 亚洲av无码一区二区三区乱子伦| yy111111少妇影院无码| 人妻无码中文字幕| 无码aⅴ精品一区二区三区| 永久免费av无码不卡在线观看| 亚洲AV无码1区2区久久| 亚洲Av无码专区国产乱码DVD | 2014AV天堂无码一区| 亚洲AV无码一区二三区| 国产av无码专区亚洲国产精品| 日韩少妇无码一区二区三区 | 色视频综合无码一区二区三区| 精品多人p群无码| 亚洲av无码一区二区三区四区 | 国产嫖妓一区二区三区无码| 精品无码成人片一区二区| 亚洲av中文无码| 亚洲日韩欧洲无码av夜夜摸| 无码av最新无码av专区|