基于掩碼機制可控長度的多肽序列生成方法及系統技術方案

技術編號：44124486 閱讀：20 留言：0更新日期：2025-01-24 22:44

本發明專利技術涉及一種基于掩碼機制可控長度的多肽序列生成方法及系統。所述方法包括：在多肽序列數據集中添加起始符、結束符、填充字符后輸入至蛋白質語言ESM2模型中，提取多肽序列潛空間嵌入；基于擴散模型進行加噪，結合掩碼機制訓練去噪器預測未加噪潛空間嵌入；對潛空間嵌入進行加噪結合掩碼機制訓練引導模塊，預測含噪潛空間嵌入的類別；計算得到不含噪數據，并對不含噪數據進行解碼得到多肽序列。由于去噪器中使用了掩碼機制，結合了蛋白質語言模型和擴散模型的優點，不僅可以達到控制生成的序列的長度，而且能夠使擴散模型很好地契合蛋白質語言模型的特點，從而使擴散模型生成更符合蛋白質語言模型的潛空間嵌入。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及多肽序列生成，特別是涉及一種基于掩碼機制可控長度的多肽序列生成方法及系統。

技術介紹

1、抗菌肽、抗真菌肽和抗病毒肽等治療肽是一類獨特的藥物，由短氨基酸鏈組成，在治療復雜的人類疾病方面具有巨大潛力。這些短肽的特點是結構緊湊、適應性強，有望徹底改變對細菌、真菌、寄生蟲和病毒引起的疾病的治療干預。

2、然而，目前這些多肽的工程設計模式主要以高通量篩選和合理設計為基礎，旨在提高體內穩定性、溶解性和菌株特異性，同時減少聚集。多肽的靈活性雖然有利于臨床研究，但卻使設計變得復雜，因為傳統的基于結構的方法往往不能很好地處理這些分子的動態、構象不穩定的性質；并且這些肽的組合空間是巨大的，其中又只有一小部分解決方案能滿足臨床需要。因此，這種基于近似窮舉方式的篩選方法可能既耗時又昂貴。

3、當前用于多肽序列生成有多種技術。例如，基于自回歸的方法將肽序列描繪成由氨基酸標記組成的句子，這樣就可以通過遞歸神經網絡(rnn)預測氨基酸排列來解決問題；基于變分自動編碼器(vae)的方法從通過編碼器-解碼器架構學習到的潛在空間中采樣，生成新的肽序列，并將治療特性作為條件約束或不作為條件約束；基于生成對抗網絡(gan)的方法利用已知數據訓練生成器和判別器，它們采用相互競爭的方式來學習數據分布，從而使生成器生成與真實多肽分布接近的新的多肽。

4、多肽序列的長度對于多肽的效果和物化性質具有重要的影響，現存的大部分多肽生成模型不能控制其生成的多肽序列的長度，其生成的序列長度完全交給生成模型來決定，并不能夠從剛開始進行生

技術實現思路

1、基于此，為了解決上述技術問題，提供一種基于掩碼機制可控長度的多肽序列生成方法及系統，可以控制生成的多肽序列的長度。

2、一種基于掩碼機制可控長度的多肽序列生成方法，所述方法包括：

3、從多肽數據庫中收集多肽序列，并對所述多肽序列進行數據處理后劃分為各個多肽序列數據集；

4、通過向量化文本工具對所述多肽序列數據集進行編碼，并添加起始符、結束符、填充字符；將添加字符后的多肽序列數據集輸入至esm2模型中，提取多肽序列潛空間嵌入；

5、對所述潛空間嵌入進行加噪，基于加噪后的潛空間嵌入結合掩碼機制訓練去噪器，并通過所述去噪器預測未加噪潛空間嵌入，計算預測的未加噪潛空間嵌入與實際未加噪潛空間嵌入之間的均方差損失；

6、對所述潛空間嵌入進行加噪，基于加噪后的潛空間嵌入結合掩碼機制訓練引導模塊，并通過所述引導模塊預測含噪潛空間嵌入的類別，計算預測類別與實際類別之間的交叉熵損失；

7、基于所述均方差損失、所述交叉熵損失得到不含噪數據，并對所述不含噪數據進行解碼得到多肽序列。

8、在其中一個實施例中，從多肽數據庫中收集多肽序列，并對所述多肽序列進行數據處理后劃分為各個多肽序列數據集，包括：

9、從多肽數據庫中收集標記為抗菌、抗真菌、抗病毒功能的多肽序列；

10、刪除收集的多肽序列中重復出現的多肽序列，并對剩下的多肽序列進行類別劃分，得到各個多肽序列數據集；

11、其中，各個多肽序列數據集分別為抗菌肽數據集、抗真菌肽數據集、抗病毒肽數據集、多肽混合數據集。

12、在其中一個實施例中，通過向量化文本工具對所述多肽序列數據集進行編碼，并添加起始符、結束符、填充字符，包括：

13、通過向量化文本工具對所述多肽序列數據集進行編碼，輸出索引向量和attention?mask向量的格式編碼；

14、分別在各個所述多肽序列數據集的起始位置添加起始符，末尾位置添加結束符，并在多肽序列少于目標字符時在末尾添加填充字符；

15、所述方法還包括：

16、將所述索引向量和attention?mask向量輸入至esm2模型中，得到所述多肽序列潛空間嵌入。

17、在其中一個實施例中，對所述潛空間嵌入進行加噪，基于加噪后的潛空間嵌入結合掩碼機制訓練去噪器，并通過所述去噪器預測未加噪潛空間嵌入，包括：

18、向所述潛空間嵌入逐步增加高斯噪聲，直到所述潛空間嵌入完全變為全高斯噪聲，完成加噪過程，得到加噪后的潛空間嵌入；

19、將所述加噪后的潛空間嵌入、時間步、attention?mask向量輸入至去噪器中，通過所述去噪器采用layernorm對所述加噪后的潛空間嵌入進行規范化處理，將所述attentionmask向量轉變為張量；

20、根據規范化處理后的潛空間嵌入以及所述張量預測未加噪潛空間嵌入。

21、在其中一個實施例中，向所述潛空間嵌入逐步增加高斯噪聲，直到所述潛空間嵌入完全變為全高斯噪聲，包括：

22、基于所述潛空間嵌入確定潛空間嵌入分布，確定添加噪聲的強度數據，并獲取對應的均值和方差；

23、基于所述潛空間嵌入、潛空間嵌入分布、所述強度數據，由所述均值和方差控制逐步增加高斯噪聲。

24、在其中一個實施例中，通過所述去噪器采用layernorm對所述加噪后的潛空間嵌入進行規范化處理，將所述attention?mask向量轉變為張量，包括：

25、基于所述去噪器，使用余弦位置編碼將時間步編碼為連續變量，編碼完畢后輸入一個多層感知機，得到處理后的時間步；

26、采用layernorm對所述加噪后的潛空間嵌入進行規范化處理，得到規范化后的含噪數據；

27、將所述處理后的時間步再輸入到一個多層感知機中，輸出目標時間步；

28、將所述目標時間步、規范化后的含噪數據進行縮放和位移操作，與所述attentionmask向量基于所述esm2模型得到輸出張量。

29、在其中一個實施例中，所述方法還包括；

30、確定重復操作次數；

31、將所述輸出張量作為所述含噪數據，重復進行縮放和位移操作處理，直到達到所述重復操作次數。

32、在其中一個實施例中，通過所述去噪器預測未加噪潛空間嵌入，包括：

33、將所述輸出張量與所述規范化后的含噪數據相加，并使用layernorm進行規范化后輸入至多層感知機，輸出預測未加噪潛空間嵌入。

34、在其中一個實施例中，所述方法還包括：

35、通過所述引導模塊將所述含噪潛空間嵌入以及對應的時間步進行處理，得到所述含噪潛空間嵌入所屬類別的概率；

36、計算出所述引導模板中分類器的梯度，并對所述梯度取對數，基于所述對數修改均值和方差，進行重參數化后得到不含噪聲的潛空間嵌入。

37、一種基于掩碼機制可控長度的多肽序列生成系統，所述系統包括：

38、數據集收集模塊，用于從多肽數據庫中收集多肽序列，并對所述多肽序列進行數據處理后劃分為各個多肽序列數據集；

39、提取模塊，用于通過向量化文本工具對所述多肽序列數據集進行編碼，并添加起始符、結束符、本文檔來自技高網...

【技術保護點】

1.一種基于掩碼機制可控長度的多肽序列生成方法，其特征在于，所述方法包括：

2.根據權利要求1所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，從多肽數據庫中收集多肽序列，并對所述多肽序列進行數據處理后劃分為各個多肽序列數據集，包括：

3.根據權利要求1所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，通過向量化文本工具對所述多肽序列數據集進行編碼，并添加起始符、結束符、填充字符，包括：

4.根據權利要求3所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，基于擴散模型對所述潛空間嵌入進行加噪，基于加噪后的潛空間嵌入結合掩碼機制訓練去噪器，并通過所述去噪器預測未加噪潛空間嵌入，包括：

5.根據權利要求4所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，向所述潛空間嵌入逐步增加高斯噪聲，直到所述潛空間嵌入完全變為全高斯噪聲，包括：

6.根據權利要求4所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，通過所述去噪器采用LayerNorm對所述加噪后的潛空間嵌入進行規范化處理，將所述att

7.根據權利要求6所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，所述方法還包括；

8.根據權利要求6所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，通過所述去噪器預測未加噪潛空間嵌入，包括：

9.根據權利要求1所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于，所述方法還包括：

10.一種基于掩碼機制可控長度的多肽序列生成系統，其特征在于，所述系統包括：

...

【技術特征摘要】

1.一種基于掩碼機制可控長度的多肽序列生成方法，其特征在于，所述方法包括：

5.根據權利要求4所述的基于掩碼機制可控長度的多肽序列生成方法，其特征在于...

【專利技術屬性】
技術研發人員：崔菲菲，羅振杰，耿奧運，張子龍，
申請(專利權)人：海南大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術