System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品无码一二区免费,中文有码vs无码人妻,亚洲精品中文字幕无码AV
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種蛋白質-核酸結合殘基識別方法及相關設備技術

    技術編號:44493944 閱讀:4 留言:0更新日期:2025-03-04 18:00
    本申請實施例屬于人工智能技術領域,涉及一種蛋白質?核酸結合殘基識別方法及相關設備,該方法包括:獲取待識別蛋白質的氨基酸序列以及三維結構數據;將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。本申請能夠準確、可靠地識別出蛋白質的結合位點。

    【技術實現步驟摘要】

    本申請涉及人工智能,尤其涉及一種蛋白質-核酸結合殘基識別方法及相關設備


    技術介紹

    1、基于序列的蛋白質-核酸結合殘基識別方法依賴于蛋白質的一級結構(即氨基酸序列)。這種方法通常通過提取蛋白質序列中的局部或全局特征來進行殘基預測。近年來,隨著大規模蛋白質序列數據庫的構建和深度學習技術的進展,基于序列的預測方法得到了快速發展。

    2、早期的序列分析方法通常基于傳統的機器學習模型,如支持向量機(svm)、隨機森林(rf)和極限梯度提升(xgboost)等。這些方法主要依賴于蛋白質的理化性質和氨基酸特征,構建特征向量,并利用監督學習對這些特征進行分類。例如,yan等人提出了一種基于氨基酸理化性質的svm模型,能夠識別蛋白質中的關鍵結合殘基。這類方法的優點在于相對簡單,且不需要蛋白質的三維結構信息,因而計算成本較低。此外,序列數據相比于三維結構數據更容易獲取,因為可以直接通過測序技術獲得。然而,這類方法的主要局限在于它們無法捕捉蛋白質的三維空間信息,忽視了殘基的空間位置及其與核酸的相互作用關系,因此其預測性能在復雜結合位點的場景中往往不足。

    3、隨著大規模數據和計算能力的提升,深度學習技術開始廣泛應用于序列分析任務中。例如,近年來提出的大規模預訓練模型,如esm(evolutionary?scale?modeling)和protbert[8]等,顯著提高了序列分析的效果。這類模型通過從大量蛋白質序列中學習到深層次的上下文信息,可以更好地識別序列中的重要特征。rao等人提出的esm模型利用transformer結構對蛋白質序列進行建模,從數百萬蛋白質序列中學習到豐富的語義信息,從而能夠有效地捕捉結合殘基的位置特征。類似地,protbert通過對氨基酸序列的上下文編碼,使得模型能夠理解不同氨基酸之間的相互作用。然而,這些基于序列的深度學習方法仍然面臨一些局限性。首先,它們無法充分利用蛋白質的三維結構信息,而三維結構對于殘基的空間關系至關重要。其次,在某些情況下,僅憑序列信息難以區分結合位點的微小差異,特別是在高度保守的序列區域。因此,盡管基于序列的深度學習方法在特定場景下表現出色,但它們在預測復雜的結合位點時依然存在瓶頸。

    4、為了提升預測效果,許多研究者還嘗試通過引入蛋白質的進化信息(如pssm和hmmprofiles)來增強基于序列的模型。進化信息反映了蛋白質在不同物種中的保守性,能夠幫助識別重要的結合位點。jones等人使用了進化信息來改進基于序列的殘基識別模型,并通過組合序列特征和進化特征顯著提高了預測準確性。然而,進化信息的獲取通常依賴于多個序列比對(msa),這不僅計算開銷大,且在某些情況下(如蛋白質家族較少時)無法獲得足夠的信息。此外,進化信息主要基于序列相似性,對空間幾何特征的捕捉能力較弱。

    5、由此可見,傳統的基于序列的蛋白質-核酸結合殘基識別方法存在識別準確性較低的問題。


    技術實現思路

    1、本申請實施例的目的在于提出一種蛋白質-核酸結合殘基識別方法及相關設備,以解決傳統的基于序列的蛋白質-核酸結合殘基識別方法存在識別準確性較低的問題。

    2、為了解決上述技術問題,本申請實施例提供一種蛋白質-核酸結合殘基識別方法,采用了如下所述的技術方案:

    3、獲取待識別蛋白質的氨基酸序列以及三維結構數據;

    4、將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;

    5、將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;

    6、對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;

    7、將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。

    8、進一步的,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:

    9、根據注意力機制對所述結構特征數據進行自適應調整操作,其中,所述注意力機制表示為:

    10、

    11、其中,qi和kj分別表示原子i和鄰近原子j的查詢向量和鍵向量,dk為縮放因子。

    12、進一步的,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:

    13、調用初始多層感知機分類器,并基于自監督學習方式對所述初始多層感知機分類器進行模型訓練操作,得到所述訓練好的多層感知機分類器。

    14、進一步的,所述模型訓練操作的損失函數表示為:

    15、

    16、其中,zi和zj表示經過不同數據增強后的蛋白質特征向量,τ為溫度參數。

    17、進一步的,所述加權融合特征表示為:

    18、ffusion=α·fseq+β·fstruct

    19、其中,α和β是可學習的權重參數,分別控制序列特征和結構特征對最終預測的貢獻比例,fseq表示所述序列特征數據,fstruct表示所述結構特征數據。

    20、進一步的,所述概率信息表示為:

    21、pi=σ(w·ffusion+b)

    22、其中,w為權重矩陣,b為偏置項,σ為sigmoid激活函數,用于將輸出值歸一化到[0,1][0,1][0,1]區間。

    23、為了解決上述技術問題,本申請實施例還提供一種蛋白質-核酸結合殘基識別裝置,采用了如下所述的技術方案:

    24、數據獲取模塊,用于獲取待識別蛋白質的氨基酸序列以及三維結構數據;

    25、序列特征提取模塊,用于將所述氨基酸序列輸入至訓練好的蛋白質語言模型進行序列特征提取操作,得到序列特征數據;

    26、結構特征提取模塊,用于將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據;

    27、加權融合模塊,用于對所述序列特征數據以及所述結構特征數據進行加權融合操作,得到加權融合特征;

    28、識別模塊,用于將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息。

    29、進一步的,所述裝置還包括:

    30、自適應調整模塊,用于根據注意力機制對所述結構特征數據進行自適應調整操作,其中,所述注意力機制表示為:

    31、

    32、其中,qi和kj分別表示原子i和鄰近原子j的查詢向量和鍵向量,dk為縮放因子。

    33、為了解決上述技術問題,本申請實施例還提供一種計算機設備,采用了如下所述的技術方案:

    34、包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如上所述的蛋白質-核酸結合殘基識別方法的步驟。

    35、為了解決上述技術問題,本申請實施例還提供一種計算機可讀存儲介質,本文檔來自技高網...

    【技術保護點】

    1.一種蛋白質-核酸結合殘基識別方法,其特征在于,包括下述步驟:

    2.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:

    3.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:

    4.根據權利要求3所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述模型訓練操作的損失函數表示為:

    5.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述加權融合特征表示為:

    6.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述概率信息表示為:

    7.一種蛋白質-核酸結合殘基識別裝置,其特征在于,包括:

    8.根據權利要求7所述的蛋白質-核酸結合殘基識別裝置,其特征在于,所述裝置還包括:

    9.一種計算機設備,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如權利要求1至6中任一項所述的蛋白質-核酸結合殘基識別方法的步驟。

    10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如權利要求1至6中任一項所述的蛋白質-核酸結合殘基識別方法的步驟。

    ...

    【技術特征摘要】

    1.一種蛋白質-核酸結合殘基識別方法,其特征在于,包括下述步驟:

    2.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述三維結構數據以點云形式輸入至稀疏卷積網絡進行結構特征提取操作,得到結構特征數據的步驟之后,還包括下述步驟:

    3.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,在所述將所述加權融合特征輸入至訓練好的多層感知機分類器進行識別操作,得到每個殘基為結合位點的概率信息的步驟之前,還包括下述步驟:

    4.根據權利要求3所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述模型訓練操作的損失函數表示為:

    5.根據權利要求1所述的蛋白質-核酸結合殘基識別方法,其特征在于,所述加權融合特征表...

    【專利技術屬性】
    技術研發人員:李鎮孫思琦李煜周宇喆王晟崔曙光
    申請(專利權)人:香港中文大學深圳
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产成人精品无码一区二区老年人| 综合无码一区二区三区| 永久无码精品三区在线4| 中文字幕在线无码一区二区三区| 狠狠躁天天躁无码中文字幕图| 亚洲日韩精品A∨片无码| 西西4444www大胆无码| 久久亚洲AV成人无码| 久久久久亚洲Av无码专| 国产亚洲精品a在线无码| 少妇无码AV无码专区线| 亚洲精品无码久久久久久| 亚洲A∨无码一区二区三区| 亚洲gv猛男gv无码男同短文 | 少妇中文无码高清| 久久午夜夜伦鲁鲁片免费无码 | 久久久久亚洲?V成人无码| 东京热av人妻无码| 国产在线无码视频一区| 人妻无码久久一区二区三区免费| 亚洲高清无码在线观看| 色综合99久久久无码国产精品| 久久老子午夜精品无码| 亚洲欧洲精品无码AV| 中文字幕人妻无码专区| 亚洲AV日韩AV高潮无码专区| yy111111少妇无码影院| 精品无码国产污污污免费| 亚洲av永久无码精品天堂久久| 亚洲av永久无码精品漫画| 永久免费AV无码网站国产| 国产色无码精品视频免费| 国产亚洲精久久久久久无码AV| 无码不卡中文字幕av| HEYZO无码中文字幕人妻| 在线A级毛片无码免费真人| 日韩精品无码成人专区| V一区无码内射国产| 中文字幕无码久久久| 亚洲AV无码专区国产乱码电影| 中文字幕无码精品三级在线电影|