一種基于N-gram模型增強蛋白質肽段組裝的方法技術

技術編號：44502903 閱讀：3 留言：0更新日期：2025-03-07 13:02

本發明專利技術公開了一種基于N?gram模型增強蛋白質肽段組裝的方法，包括：第一部分以UniRef50的非冗余蛋白質序列數據庫作為訓練數據，對這些序列數據進行清理和標準化格式的預處理；使用預處理后的數據進行N?gram模型構建；使用Kneser?Ney平滑技術優化模型并計算氨基酸的條件概率，為后續尋找deBruijn圖的最優路徑提供依據；第二部分以測序所得的蛋白質肽段序列作為輸入，對肽段序列進行預處理；將預處理后的肽段劃分為以k為長度的連續子串；使用肽段子串構建deBruijn圖，用于表示肽段之間的重疊關系；再結合貪婪算法與第一部分的氨基酸概率尋找最優路徑；輸出蛋白質組裝序列。本發明專利技術有效延長了蛋白質組裝序列的長度，并提高了精確度，為確定蛋白質全長序列提供了新技術。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種基于n-gram模型增強蛋白質肽段組裝的方法。

技術介紹

1、在蛋白質組學研究領域中，由于高通量質譜技術的發展，肽段數據規模也隨之增大。如何將這些肽段數據準確、快速地組裝成完整的蛋白質序列已經成為了生物信息學中的一項重要研究。利用組裝技術確定蛋白質全長序列對于理解蛋白質結構和功能都非常重要。現有的蛋白質序列組裝方法通常使用多序列比對以及序列重疊技術，其中最常使用的是基于序列重疊關系的debruijn組裝器，它以測序肽段及其對應的強度數據與位置置信度作為輸入，構建加權debruijn圖來組裝蛋白質序列。然而該方法仍然存在局限性，它比較依賴輸入數據的質量，對于低豐度的肽段，不可靠的強度評分可能會導致錯誤的組裝路徑，并且如果輸入數據缺乏重疊肽，在使用貪婪算法尋找最優路徑時會出現路徑斷裂的情況，無法得到有效的組裝結果。還有該方法組裝的序列長度有限，難以一次性獲得完整的蛋白質全長序列。

2、通過對現有技術的研究分析，本專利技術提出了一種基于n-gram模型增強蛋白質肽段組裝的方法，利用統計語言模型能夠有效延長蛋白質肽段組裝的長度，還能進一步提高組裝序列的精確度。

技術實現思路

1、本專利技術是為了解決上述現有技術存在的問題而提供一種基于n-gram模型增強蛋白質肽段組裝的方法。

2、本專利技術所采用的技術方案有：

3、一種基于n-gram模型增強蛋白質肽段組裝的方法，包括以下步驟：

4、s1：獲取蛋白質序列數據集，并對數據集進行預處理；

5、s2：根據預處理后的所述數據集，令數據集中每一個蛋白質序列為一個“句子”，每一個氨基酸為一個“詞”，選擇n值并使用以n為長度的滑動窗口，將n個連續的氨基酸劃分為一組n-gram，將滑動窗口向右移動一個氨基酸，以此迭代生成n-grams表；

6、s3：統計n-grams表中n-gram切片的出現頻率，生成對應的頻數表，并以此構建n-gram模型；

7、s4：在每一個n-gram切片中，以前面n-1個氨基酸為發生的前提下，第n個氨基酸為目標，通過統計頻率計算條件概率，并且為避免零概率問題，對n-gram模型進行kneser-ney平滑處理；

8、s5：以s8中的斷裂子串作為n-1個氨基酸，使用n-gram模型預測下一個氨基酸，即目標氨基酸；

9、s6：使用困惑度作為內部評價指標對n-gram模型進行內部評價，調整n值，通過最小化困惑度來優化模型；

10、s7：將原始測序數據進行預處理，所得的蛋白質肽段劃分為以k為長度的連續子串，使用子串、重疊關系和置信度權重構建debruijn圖；

11、s8：使用貪婪算法尋找debruijn圖的最優路徑，以其中最大權重的子串作為種子，前后擴展種子形成蛋白質序列，受到重疊肽的缺失和從頭測序錯誤的影響，對斷裂的子串使用n-gram模型提供的條件概率，預測斷裂肽的下一個氨基酸，以此延長組裝的蛋白質序列；

12、s9：以組裝序列的覆蓋率與準確率對n-gram模型行外部評價。

13、進一步地，s1中，下載uniref50蛋白質序列數據集，對所述數據集進行預處理，包括去除冗余序列、標準化序列格式和去除不常見的氨基酸。

14、進一步地，s2中，對預處理過后的蛋白質序列數據集進行劃分，選擇n＝5的滑動窗口將序列分割為n-gram，窗口從序列的第一個位置開始，逐步向右移動一個單位，直到序列末尾。

15、進一步地，s4中，條件概率計算的方式為：

16、設w1w2w3…wn為一個n-gram切片，其概率表示為：

17、p(wn|w1,w2，...，wn-1)#(1)

18、在5-gram中對于五元組(wn-4，wn-3，wn-2，wn-1，wn)的概率表示為：

19、

20、其中，c(wn-4，wn-3，wn-2，wn-1，wn)是五元組出現的頻數，c(wn-4，wn-3，wn-2，wn-1)是前四個氨基酸出現的頻數。

21、進一步地，kneser-ney平滑處理公式為：

22、

23、

24、其中，表示在前面n-1個氨基酸的情況下，目標氨基酸wi出現的概率；

25、是片段(wi-n+1，wi-n+2，...，wi)在訓練數據庫中出現的頻數；

26、d是折扣因子，取值為0.75；

27、表示基于前面n-1個氨基酸的條件下，所有可能后續氨基酸w的頻數之和，即前面n-1個氨基酸序列在訓練數據庫中的頻數；

28、表示回退權重，用于調整回退到低階n-gram的概率質量；

29、公式4中是指給定前面n-1個氨基酸的條件下，出現不同目標氨基酸wi的數量；

30、公式3中是低一階，即n-1的gram的平滑概率，表示在給定前n-2個氨基酸的條件下，目標氨基酸wi的概率；

31、最基本unigram的平滑概率計算為：

32、

33、其中，c(wi)表示氨基酸wi在數據庫中出現的次數；n是數據庫中所有氨基酸頻數之和。

34、進一步地，s5中，使用n-gram模型計算目標氨基酸的概率，選擇其中概率最大的作為預測的目標氨基酸。

35、進一步地，s6中，使用困惑度作為內部評價指標對n-gram模型進行內部評價，困惑度越小，序列的概率越大，n-gram模型越好，公式為：

36、

37、進一步地，s7中，對原始測序肽段數據進行數據清理，之后從測序肽段中提取k-mer，所述k-mer是對每一個測序肽段分割為以k為長度的連續子串，并將每一個k-mer分解為其前綴和后綴，其中每一個k-mer分解的前綴為k-mer的前k-1個氨基酸，后綴為k-mer的后k-1個氨基酸，即(k-1)-mer。

38、進一步地，構建debruijn圖的節點，以所有生成的(k-1)-mer為圖的節點，對于每一個(k-1)-mer，只生成唯一的節點，根據每個k-mer的前綴與后綴構建有向邊，連接前綴對應的節點和后綴對應的節點，每一條有向邊代表一個k-mer序列，即有向邊連接兩個(k-1)-mer節點，其中一個為k-mer的前綴，另一個為后綴。

39、進一步地，s9中，覆蓋率與準確率對n-gram模型行外部評價，具體為：

40、所述覆蓋率為組裝出的蛋白質序列與參考蛋白質序列相比，被正確覆蓋的序列的比例，公式為：

41、

42、準確率為組裝最長contig中正確的氨基酸的百分比，公式為：

43、

44、本專利技術具有如下有益效果：

45、本專利技術將debruijn圖結構技術與n-gram統計語言模型結合在一起，利用n-gram模型從標準數據庫尋找氨基酸序列規律來預測目標氨基酸，在測序肽段中重疊肽缺失和測序錯誤時本文檔來自技高網...

【技術保護點】

1.一種基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：包括以下步驟：

2.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：S1中，下載UniRef50蛋白質序列數據集，對所述數據集進行預處理，包括去除冗余序列、標準化序列格式和去除不常見的氨基酸。

3.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：S2中，對預處理過后的蛋白質序列數據集進行劃分，選擇N＝5的滑動窗口將序列分割為N-gram，窗口從序列的第一個位置開始，逐步向右移動一個單位，直到序列末尾。

4.如權利要求3所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：S4中，條件概率計算的方式為：

5.如權利要求4所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：Kneser-Ney平滑處理公式為：

6.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：S5中，使用N-gram模型計算目標氨基酸的概率，選擇其中概率最大的作為預測的目標氨基酸。>

7.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：S6中，使用困惑度作為內部評價指標對N-gram模型進行內部評價，困惑度越小，序列的概率越大，N-gram模型越好，公式為：

8.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：S7中，對原始測序肽段數據進行數據清理，之后從測序肽段中提取k-mer，所述k-mer是對每一個測序肽段分割為以k為長度的連續子串，并將每一個k-mer分解為其前綴和后綴，其中每一個k-mer分解的前綴為k-mer的前k-1個氨基酸，后綴為k-mer的后k-1個氨基酸，即(k-1)-mer。

9.如權利要求8所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：構建deBruijn圖的節點，以所有生成的(k-1)-mer為圖的節點，對于每一個(k-1)-mer，只生成唯一的節點，根據每個k-mer的前綴與后綴構建有向邊，連接前綴對應的節點和后綴對應的節點，每一條有向邊代表一個k-mer序列，即有向邊連接兩個(k-1)-mer節點，其中一個為k-mer的前綴，另一個為后綴。

10.如權利要求1所述的基于N-gram模型增強蛋白質肽段組裝的方法，其特征在于：S9中，覆蓋率與準確率對N-gram模型行外部評價，具體為：

...

【技術特征摘要】

1.一種基于n-gram模型增強蛋白質肽段組裝的方法，其特征在于：包括以下步驟：

2.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法，其特征在于：s1中，下載uniref50蛋白質序列數據集，對所述數據集進行預處理，包括去除冗余序列、標準化序列格式和去除不常見的氨基酸。

3.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法，其特征在于：s2中，對預處理過后的蛋白質序列數據集進行劃分，選擇n＝5的滑動窗口將序列分割為n-gram，窗口從序列的第一個位置開始，逐步向右移動一個單位，直到序列末尾。

4.如權利要求3所述的基于n-gram模型增強蛋白質肽段組裝的方法，其特征在于：s4中，條件概率計算的方式為：

5.如權利要求4所述的基于n-gram模型增強蛋白質肽段組裝的方法，其特征在于：kneser-ney平滑處理公式為：

6.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法，其特征在于：s5中，使用n-gram模型計算目標氨基酸的概率，選擇其中概率最大的作為預測的目標氨基酸。

7.如權利要求1所述的基于n-gram模型增強蛋白質肽段組裝的方法，其特征在于...

【專利技術屬性】
技術研發人員：常珊，邵赟，龐明威，倪申環，楊程琿，
申請(專利權)人：江蘇理工學院，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術