System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及生物信息學,具體地,涉及一種基于多模態蛋白質語言模型的dna綁定殘基預測方法。
技術介紹
1、dna-蛋白質相互作用貫穿許多生命活動過程,起到基礎的調控作用。此外,dna綁定蛋白質的突變是引起許多疑難基因疾病的根本原因。準確識別dna綁定殘基有助于深入理解dna-蛋白質相互作用的內在機制,同時闡明疾病的致病機理。因此,精確預測dna綁定殘基,有助于蛋白質調控功能的研究及靶向藥物的研發,具有十分重要的生物學意義。
2、目前,專門用于dna綁定殘基預測的文獻方法有:esm-dbp(zeng?w,dou?y,pan?l,et?al.improving?prediction?performance?of?general?protein?language?model?bydomain-adaptive?pretraining?on?dna-binding?protein[j].nature?communications,2024,15(1):7838.即:zeng?w等.基于dna結合蛋白的領域自適應預訓練提高通用蛋白質語言模型的預測性能[j].自然通訊,2024,15(1):7838);graphbind(xia?y,xia?c?q,pan?x,et?al.graphbind:protein?structural?context?embedded?rules?learned?byhierarchical?graph?neural?networks?for?recognizing?nucleic-acid-bin
3、esm-dbp收集了大量的dna綁定蛋白質用于改進大型通用蛋白質語言模型esm2。graphbind構建以目標殘基為中心的局部蛋白質圖來學習空間上下文嵌入信息,并使用了層次圖神經網絡作為分類器學習其鑒別特征。equipnas使用了多種蛋白質序列和結構特征,以及蛋白質語言模型esm2的特征嵌入,然后利用等變圖神經網絡作為模型鑒別dna綁定殘基。esm-nbr使用了通用蛋白質語言模型esm2的表征并結合多任務學習技術同時預測dna和rna結合殘基。綜上所述,現存的dna綁定殘基預測方法在計算代價、劃分精確性方面,距離實際應用的要求還有很大差距,迫切地需要改進。
技術實現思路
1、為了解決上述問題,本專利技術的目的在于提供一種基于多模態蛋白質語言模型的dna綁定殘基預測方法,克服現有dna綁定殘基預測方法在計算代價、劃分精確性方面的不足,計算代價低、劃分精確性高,提高了dna綁定殘基預測的效率與精確性。
2、為了實現上述目的,本專利技術的技術方案如下:
3、一種基于多模態蛋白質語言模型的dna綁定殘基預測方法,包括以下步驟:
4、s1.將待進行dna綁定殘基預測的蛋白質序列p,依次使用alphafold2、dssp、shrake-rupley和interproscan工具分別獲取蛋白質結構pdb特征文件、蛋白質二級結構dssp特征文件、蛋白質溶劑可及性ss特征文件以及interpro功能注釋特征文件;
5、s2.將s1中獲取的所有特征文件輸入多模態蛋白質語言模型esm3中得到一個嵌入矩陣m作為蛋白質p的特征表示;
6、s3.將蛋白質序列處理成殘基樣本,根據蛋白質結構圖搭建等變圖神經網絡模型,利用已知dna綁定殘基的蛋白質序列構建數據集并訓練所搭建的網絡;
7、s4.將待進行dna綁定殘基預測的蛋白質序列的殘基樣本輸入到訓練的模型中,得到蛋白質序列的dna綁定殘基。
8、進一步的,所述s1包括以下步驟:
9、s11.輸入一個殘基數為l的待進行dna綁定殘基預測的蛋白質序列信息,記作p;
10、s12.對于蛋白質p,使用alphafold2工具預測其三維結構信息得到pdb特征文件,并將其原子坐標表示為記作coord的矩陣;
11、s13.對于s12中得到的蛋白質p的pdb特征文件,使用dssp工具計算得到蛋白質p的八態二級結構ss={s1,s2,...,si,...,sl},其中si∈(h,b,e,g,i,t,s,l)表示蛋白質p的第i個殘基的二級結構狀態;
12、s14.使用shrake-rupley算法對s12中得到的蛋白質p的pdb特征文件計算其溶劑可及性表面積sa={a1,a2,...,ai,...,al},非負實值ai表示蛋白質p的第i個殘基的溶劑可及性表面積;
13、s15.對蛋白質p的序列使用interproscan工具搜索pfam,prosite和cath數據庫得到一個蛋白質功能注釋信息特征文件
14、進一步的,所述s12中的記作coord的矩陣為一個大小為l×nnn×3的矩陣,其中,nnn為每個殘基的原子個數,3為每個原子的三維空間坐標。
15、進一步的,所述s15中的蛋白質功能注釋信息文件其中,表示fun中第i條功能注釋信息,nnn表示fun中功能注釋信息的總數目,每條功能注釋信息包含一條蛋白質功能注釋文本str和對應的功能區間r=[start,en本文檔來自技高網...
【技術保護點】
1.基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S1包括以下步驟:
3.根據權利要求2所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S12中的記作Coord的矩陣為一個大小為L×N×3的矩陣,其中,N為每個殘基的原子個數,3為每個原子的三維空間坐標。
4.根據權利要求2所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S15中的蛋白質功能注釋信息文件其中,表示FUN中第i條功能注釋信息,N表示FUN中功能注釋信息的總數目,每條功能注釋信息包含一條蛋白質功能注釋文本STR和對應的功能區間R=[start,end],其中1≤start≤end≤L。
5.根據權利要求2所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S2中的嵌入矩陣M的大小為L×1534,其中,L為蛋白質P中殘基的個數,1534為每個殘基的特征維度。
6.根據權利要求
7.根據權利要求6所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S32包括以下步驟:
8.根據權利要求7所述的基于多模態蛋白質語言模型的DNA綁定殘基預測方法,其特征在于,所述S4包括以下步驟:
...【技術特征摘要】
1.基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,所述s1包括以下步驟:
3.根據權利要求2所述的基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,所述s12中的記作coord的矩陣為一個大小為l×n×3的矩陣,其中,n為每個殘基的原子個數,3為每個原子的三維空間坐標。
4.根據權利要求2所述的基于多模態蛋白質語言模型的dna綁定殘基預測方法,其特征在于,所述s15中的蛋白質功能注釋信息文件其中,表示fun中第i條功能注釋信息,n表示fun中功能注釋信息的總數目,每條功能注釋信息包含一條蛋白質功...
【專利技術屬性】
技術研發人員:彭紹亮,曾文武,呂達鋒,許力文,潘良睿,
申請(專利權)人:湖南大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。