System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,尤其涉及一種蛋白質-核酸結合殘基識別方法及相關設備。
技術介紹
1、基于序列的蛋白質-核酸結合殘基識別方法依賴于蛋白質的一級結構(即氨基酸序列)。這種方法通常通過提取蛋白質序列中的局部或全局特征來進行殘基預測。近年來,隨著大規模蛋白質序列數據庫的構建和深度學習技術的進展,基于序列的預測方法得到了快速發展。
2、早期的序列分析方法通常基于傳統的機器學習模型,如支持向量機(svm)、隨機森林(rf)和極限梯度提升(xgboost)等。這些方法主要依賴于蛋白質的理化性質和氨基酸特征,構建特征向量,并利用監督學習對這些特征進行分類。例如,yan等人提出了一種基于氨基酸理化性質的svm模型,能夠識別蛋白質中的關鍵結合殘基。這類方法的優點在于相對簡單,且不需要蛋白質的三維結構信息,因而計算成本較低。此外,序列數據相比于三維結構數據更容易獲取,因為可以直接通過測序技術獲得。然而,這類方法的主要局限在于它們無法捕捉蛋白質的三維空間信息,忽視了殘基的空間位置及其與核酸的相互作用關系,因此其預測性能在復雜結合位點的場景中往往不足。
3、隨著大規模數據和計算能力的提升,深度學習技術開始廣泛應用于序列分析任務中。例如,近年來提出的大規模預訓練模型,如esm(evolutionary?scale?modeling)和protbert[8]等,顯著提高了序列分析的效果。這類模型通過從大量蛋白質序列中學習到深層次的上下文信息,可以更好地識別序列中的重要特征。rao等人提出的esm模型利用transformer結構對
4、為了提升預測效果,許多研究者還嘗試通過引入蛋白質的進化信息(如pssm和hmmprofiles)來增強基于序列的模型。進化信息反映了蛋白質在不同物種中的保守性,能夠幫助識別重要的結合位點。jones等人使用了進化信息來改進基于序列的殘基識別模型,并通過組合序列特征和進化特征顯著提高了預測準確性。然而,進化信息的獲取通常依賴于多個序列比對(msa),這不僅計算開銷大,且在某些情況下(如蛋白質家族較少時)無法獲得足夠的信息。此外,進化信息主要基于序列相似性,對空間幾何特征的捕捉能力較弱。
5、由此可見,傳統的基于序列的蛋白質-核酸結合殘基識別方法存在識別準確性較低的問題。
技術實現思路
1、本申請實施例的目的在于提出一種蛋白質-核酸結合殘基識別方法及相關設備,以解決傳統的基于序列的蛋白質-核酸結合殘基識別方法存在識別準確性較低的問題。
2、為了解決上述技術問題,本申請實施例提供一種蛋白質-核酸結合殘基識別方法,采用了如下所述的技術方案:
3、獲取待識別蛋白質的氨基酸序列以及三維結構數據;
4、將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;
5、將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;
6、對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;
7、將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。
8、進一步的,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:
9、根據注意力機制對所述結構特征數據進行自適應調整操作,其中,所述注意力機制表示為:
10、
11、其中,qi和kj分別表示原子i和鄰近原子j的查詢向量和鍵向量,dk為縮放因子。
12、進一步的,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:
13、調用初始多層感知機分類器,并基于自監督學習方式對所述初始多層感知機分類器進行模型訓練操作,得到所述訓練好的多層感知機分類器。
14、進一步的,所述模型訓練操作的損失函數表示為:
15、
16、其中,zi和zj表示經過不同數據增強后的蛋白質特征向量,τ為溫度參數。
17、進一步的,所述加權融合特征表示為:
18、ffusion=α·fseq+β·fstruct
19、其中,α和β是可學習的權重參數,分別控制序列特征和結構特征對最終預測的貢獻比例,fseq表示所述序列特征數據,fstruct表示所述結構特征數據。
20、進一步的,所述概率信息表示為:
21、pi=σ(w·ffusion+b)
22、其中,w為權重矩陣,b為偏置項,σ為sigmoid激活函數,用于將輸出值歸一化到[0,1][0,1][0,1]區間。
23、為了解決上述技術問題,本申請實施例還提供一種蛋白質-核酸結合殘基識別裝置,采用了如下所述的技術方案:
24、數據獲取模塊,用于獲取待識別蛋白質的氨基酸序列以及三維結構數據;
25、序列特征提取模塊,用于將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;
26、結構特征提取模塊,用于將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;
27、加權融合模塊,用于對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;
28、識別模塊,用于將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。
29、進一步的,所述裝置還包括:
30、自適應調整模塊,用于根據注意力機制對所述結構特征數據進行自適應調整操作,其中,所述注意力機制表示為:
31、
32、其中,qi和kj分別表示原子i和鄰近原子j的查詢向量和鍵向量,dk為縮放因子。
33、為了解決上述技術問題,本申請實施例還提供一種計算機設備,采用了如下所述的技術方案:
34、包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如上所述的蛋白質-核酸結合殘基識別方法的步驟。
35、為了解決上述技術問題,本申請實施例還提供一種計算機可讀存儲介質,本文檔來自技高網...
【技術保護點】
1.一種蛋白質-核酸結合殘基識別方法,其特征在于,包括下述步驟:
2.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:
3.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:
4.根據權利要求3所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述模型訓練操作的損失函數表示為:
5.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述加權融合特征表示為:
6.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述概率信息表示為:
7.一種蛋白質-核酸結合殘基識別裝置,其特征在于,包括:
8.根據權利要求7所述的蛋白質-核酸結合殘基識別裝置,其特征在于,所述裝置還包括:
9.一種計算機設備,包括存
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如權利要求1至6中任一項所述的蛋白質-核酸結合殘基識別方法的步驟。
...【技術特征摘要】
1.一種蛋白質-核酸結合殘基識別方法,其特征在于,包括下述步驟:
2.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:
3.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:
4.根據權利要求3所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述模型訓練操作的損失函數表示為:
5.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述加權融合特征表...
【專利技術屬性】
技術研發人員:李鎮,孫思琦,李煜,周宇喆,王晟,崔曙光,
申請(專利權)人:香港中文大學深圳,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。