System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于生物信息領域,涉及一種基于圖卷積網絡預測蛋白質-蛋白質結合親和力的方法。
技術介紹
0、技術背景
1、蛋白質之間的相互作用在生物體內的生理過程中發揮著核心功能,包括免疫、代謝以及信號傳導等。了解蛋白質-蛋白質相互作用對于研究生物系統和藥物設計至關重要,直接影響到蛋白質和肽藥物的發展。分子之間相互作用的一個關鍵特征是結合親和力,準確得到蛋白質-蛋白質的結合親和力是了解蛋白質-蛋白質相互作用而引起的生物學功能的關鍵,但傳統的實驗方法對于親和力的測定需要耗費大量的資源和時間,同時計算預測如分子動力學模擬和經驗能量函數在計算需求和準確性方面存在一定的局限性。
2、蛋白質-蛋白質結合親和力的預測是一個復雜的問題,因為蛋白質之間的相互作用涉及到多種因素,如結構、序列、電荷等。這些因素之間的相互作用非常復雜,難以準確地建立數學模型來對其進行預測;并且蛋白質之間結合親和力的預測需要大量的數據支持,而目前可用的數據集相對有限,這限制了深度學習方法在該領域的應用;此外,蛋白質-蛋白質結合親和力的預測涉及到多個蛋白質之間的相互作用,而現有的數據集中大部分只包含兩個蛋白質鏈的信息,這限制了對復雜蛋白質相互作用的深入研究和預測能力。
3、雖然目前已有相當多的深度學習方法來預測蛋白質-蛋白質、蛋白質-配體和蛋白質-核酸復合物的解離常數(kd)或吉布斯自由能(δg)。然而,尚未能夠開發出一種能夠高精度預測各種性質的蛋白質復合物的特征的方法,尤其是蛋白質-蛋白質結合親和力預測領域。該領域仍然未被充分探索,尚未構
技術實現思路
1、針對現有蛋白質-蛋白質親和力預測方法精度較低、難以預測多鏈復合物親和力的問題,本專利技術提出了一種基于圖卷積網絡的蛋白質-蛋白質結合親和力預測的方法,涉及生物信息學領域,基本原理如下(圖1):將蛋白質-蛋白質復合物與相互作用區域分別轉化為原子級別的圖,通過基于圖卷積網絡構建的模型對復合物進行分子內和分子間節點特征以及邊特征進行學習,充分利用蛋白質的圖結構特征,深入挖掘蛋白質-蛋白質之間的相互作用關系,繼而提升預測蛋白質-蛋白質結合親和力數值的精度,并且通過對數據集的處理實現預測多鏈復合物親和力的功能。
2、為實現上述目的,本專利技術所采用的技術方案如下:
3、一方面,本專利技術提供了一種基于圖卷積網絡預測蛋白質-蛋白質結合親和力的方法,所述方法包含以下步驟:
4、s1:獲取蛋白質-蛋白質復合物數據集;
5、s2:提取蛋白質-蛋白質復合物中一定距離閾值內的相互作用界面,并生成蛋白質-蛋白質復合物圖和相互作用圖(圖2);
6、具體地,蛋白質-蛋白質復合物圖中將原子作為節點,兩原子之間作為邊;相互作用圖只有邊。
7、s3:提取圖的初始節點特征和邊特征;
8、s4:更新蛋白質-蛋白質復合物圖的節點特征;
9、s4.1:使用線性層將節點特征和邊特征投影到特定維度,再使用激活函數,引入非線性關系,這可使得模型可以捕捉到更復雜的、非線性的關系。
10、s4.2:再更新邊特征,將邊連接的節點特征與邊特征進行拼接,使得后續更新節點特征考慮到邊的特性;
11、s4.3:將更新后的邊特征與節點特征進行融合得到新的節點特征,使用注意力機制和門控循環單元(gru)來捕捉節點和邊之間的關系;
12、需要理解的是,傳統的圖卷積神經網絡(gcn)通常只是通過鄰接矩陣加權求和,而本專利技術利用注意力機制對邊特征進行加權,這意味著模型可以根據邊的“重要性”調整信息傳播的方式,從而捕獲更有意義的邊信息,提升表示能力;并且在融合邊特征和節點特征時使用了gru單元,這不僅僅是簡單的加權求和或者平均,而是利用gru來動態地結合鄰居節點的特征和邊特征,繼而更好地捕捉節點和邊的復雜關系。因此注意力機制和gru相結合來融合節點和邊特征,是本專利技術提高預測蛋白之間結合親和力準確率的必要條件。
13、s4.4:對節點特征繼續進行更新,通過最大池化層對鄰居節點特征進行聚合,再與源節點特征進行拼接。
14、需要理解的是,傳統的gcn的信息聚合方式通常只是通過加權平均(或簡單平均)聚合鄰居節點的特征,這種方式可能會導致一些重要的鄰居節點特征被平均化,從而喪失一些顯著信息,且在某些情況下,這種平均的聚合方法不能很好地捕捉到圖中重要節點的局部結構信息;而最大池化能從每個特征通道中選擇數值最大的節點特征,這意味著該處理方式能夠專注于最顯著或最活躍的特征,同時忽略不重要的信息,從而對關鍵特征進行強調。在圖數據中,節點的數量可能很大,直接處理所有節點會導致計算開銷過高且難以提取全局特征;最大池化能將大量的局部信息濃縮為少量的全局信息,既減小了計算量,又突出了主要特征。因此,最大池化層處理方式也是影響預測結果準確性的關鍵因素。
15、s5:更新相互作用圖的邊特征;
16、s6:通過全連接層輸出蛋白質-蛋白質結合親和力的最終預測值。
17、進一步地,步驟s4.1所述的激活函數為h'v=leakyrelu(wnhv+bn),其中,h'v是投影后的節點特征,wn表示線性變換的權重矩陣,hv表示初始節點特征,bn表示偏置項。
18、適用于卷積神經網絡隱藏層的激活函數主要有relu和leaky?relu,leaky?relu函數解決了relu函數的神經元死亡問題,且同時具有relu函數的優點,即計算效率高、允許網絡快速收斂、非線性等;此外,leaky?relu函數在負區域具有小的正斜率,因此即使對于負輸入值,它也可以進行反向傳播。因此,激活函數的種類也是影響預測結果準確性的關鍵因素,也只有leaky?relu函數最適于本專利技術提供的預測方法。
19、進一步地,步驟s4.3所述的注意力機制為其中αuv表示從結點u到節點v的注意力權重,e”uv表示邊(u,v)更新后的最終特征,n(v)表示節點v的鄰居節點集合,e”vk表示由節點v及其鄰居節點k構成的邊。
20、進一步地,步驟s4.3所述的門控循環單元的公式為其中,表示融合節點特征和邊特征后更新的節點特征,h'v表示投影后的節點特征,n(v)表示節點v的鄰居節點集合,αuv表示從結點u到節點v的注意力權重,e”uv表示邊(u,v)更新后的最終特征。
21、進一步地,步驟s4.4所述的最大池化層公式為其中,為最大池化聚合鄰居節點的特征,n(v)表示節點v的鄰居節點集合,表示融合節點特征和邊特征后更新的節點特征。
22、進一步地,s4.4步驟中所述節點特征拼接公式為其中,l表示節點更新層的層數;表示融合節點特征和邊特征后更新的節點特征;為最大池化聚合鄰居節點的特征。
23、進一步地,所述s5步驟包含如下步驟:
24、s5.1:將每個邊與其連接的兩個節點最終更新得到的特征(即s4步驟更新后的節點特征)進行拼接,得到新的邊特征;本文檔來自技高網...
【技術保護點】
1.一種基于圖卷積網絡預測蛋白質-蛋白質結合親和力的方法,其特征在于,所述方法包含以下步驟:
2.如權利要求1所述的方法,其特征在于,所述的激活函數為hv'=LeakyRELU(Wnhv+bn),其中,hv'表示投影后的節點特征,Wn表示線性變換的權重矩陣,hv'表示初始節點特征,
3.如權利要求1所述的方法,其特征在于,所述的注意力機制為其中αuv表示從節點u到節點v的注意力權重,e'u'v表示邊(u,v)更新后的最終特征,N(v)表示節點v的鄰居節點集合,e'v'k表示由節點v及其鄰居節點k構成的邊。
4.如權利要求1所述的方法,其特征在于,所述的門控循環單元的公式為其中,表示融合節點特征和邊特征后更新的節點特征,hv'表示投影后的節點特征,N(v)表示節點v的鄰居節點集合,αuv表示從結點u到節點v的注意力權重,e'u'v表示邊(u,v)更新后的最終特征。
5.如權利要求1所述的方法,其特征在于,所述的最大池化層公式為其中,為最大池化聚合鄰居節點的特征,N(v)表示節點v的鄰居節點集合,表示融合節點特征和邊特征后更新的節點特征
6.如權利要求1所述的方法,其特征在于,S4步驟中所述節點特征拼接公式為其中,L表示節點更新層的層數;表示融合節點特征和邊特征后更新的節點特征;為最大池化聚合鄰居節點的特征。
7.如權利要求1所述的方法,其特征在于,所述S5步驟包含如下步驟:
8.如權利要求7所述的方法,其特征在于,S5.2步驟所述的多層感知機更新邊特征采用的公式為其中ei'j為更新后的邊特征,為由源節點i特征、目標節點j特征和初始邊特征拼接而成的邊特征。
9.如權利要求1所述的方法,其特征在于,所述S2步驟包含以下步驟:
10.一種計算機程序產品,其特征在于,所述產品包含處理器和存儲器,所述存儲器用于存儲所述處理器的可執行指令;所述處理器配置為經由執行所述可執行指令來執行權利要求1-9任意一項所述的基于圖卷積網絡預測蛋白質-蛋白質結合親和力的方法。
...【技術特征摘要】
1.一種基于圖卷積網絡預測蛋白質-蛋白質結合親和力的方法,其特征在于,所述方法包含以下步驟:
2.如權利要求1所述的方法,其特征在于,所述的激活函數為hv'=leakyrelu(wnhv+bn),其中,hv'表示投影后的節點特征,wn表示線性變換的權重矩陣,hv'表示初始節點特征,
3.如權利要求1所述的方法,其特征在于,所述的注意力機制為其中αuv表示從節點u到節點v的注意力權重,e'u'v表示邊(u,v)更新后的最終特征,n(v)表示節點v的鄰居節點集合,e'v'k表示由節點v及其鄰居節點k構成的邊。
4.如權利要求1所述的方法,其特征在于,所述的門控循環單元的公式為其中,表示融合節點特征和邊特征后更新的節點特征,hv'表示投影后的節點特征,n(v)表示節點v的鄰居節點集合,αuv表示從結點u到節點v的注意力權重,e'u'v表示邊(u,v)更新后的最終特征。
5.如權利要求1所述的方法,其特征在于,所述的最大池化層公式為其中,為...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。