System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于生物信息學和蛋白組學領域,尤其涉及到一種功能蛋白質挖掘和篩選方法及裝置。
技術介紹
1、隨著人工智能技術的升級和高通量生物信息學的發展,人工智能與生命科學的融合給生物大分子分析帶來了巨大的創新。蛋白質作為生物系統中一種重要的大分子,是生命體中最基礎的組分,參與大量的生命活動,也在許多生化反應中發揮著巨大作用,可以說,蛋白質組學分析是了解生物功能和利用生物產物的第一步。作為一種由26種氨基酸組合排列而成了的生物大分子,蛋白質的序列,結構和功能是互相映射的。蛋白質的序列分析在基因組學、蛋白測序和計算機技術等多種技術的發展下已經日趨成熟。同時,在蛋白質結構方面,引入深度學習的蛋白質三維結構預測方法如alphafold、rosettafold和esmfold等,已經可以做到準確和精密得解析蛋白質的結構。大語言模型作為一種新興的人工智能分析的發展方向,能夠將多維度的數據信息融合,基于蛋白質組學的大語言模型(如esm,protbert,?prott5等)將蛋白質組學與蛋白質功能密切相關的信息(如二級和三級結構,理化性質,調控通路等)做參數化表征,給蛋白質功能注釋提供了多方位的參考信息。
2、傳統的基于序列分析的蛋白質功能挖掘方法依賴序列的保守性,比如序列對齊和基于功能域結構域等序列標志區域的比對都需要達到一定的序列相似性,因而在相似性更低的蛋白組(比如親緣關系較遠的物種)做蛋白質功能挖掘方面存在缺陷。其次,序列相似的蛋白質并非擁有一樣的功能,序列上少數位點的改變可能帶來巨大的結構變化甚至讓其失去活性,所以,僅僅基于
技術實現思路
1、本專利技術的目的在于針對現有技術的不足,提供一種功能蛋白質挖掘和篩選方法及裝置,從而解決功能蛋白的挖掘被序列保守性和物種親緣性所限制的問題。
2、本專利技術的目的是通過以下技術方案來實現的:一種功能蛋白質挖掘和篩選方法,包括:
3、整合若干個蛋白質數據庫,并獲取蛋白質的物種序列號信息映射文件,以構建蛋白質比對數據庫;將目標功能蛋白參考序列,與nr庫進行蛋白質-蛋白質之間序列的比對,輸出比對到nr庫的第一蛋白序列及其物種名稱和物種序列號;
4、基于蛋白質功能域結構域數據庫注釋參考序列的功能域和結構域片段,選擇參考序列上共有的目標功能相關并且其片段對序列覆蓋度大于第一預設閾值的功能域和結構域,從第一蛋白序列中篩選出覆蓋有所選擇的功能域和結構域片段的第二蛋白序列;
5、預測第二蛋白質和參考蛋白質的三級結構并進行聚類,從第二蛋白質選出能夠同參考蛋白質結構聚為一類的蛋白質作為第一候選蛋白質;
6、獲取物種序列號為索引的分類信息文件,基于該文件獲取參考蛋白質和第二蛋白質對應物種的分類序列號,基于蛋白質大語言模型對第二蛋白序列和參考序列進行向量化并合并為一個向量矩陣,將該向量矩陣映射到分類序列號上,去除向量矩陣中特征值大于等于第二預設閾值的特征,得到新的向量矩陣;
7、使用聚類模型對新的向量矩陣進行聚類,選出與參考蛋白質同標簽的蛋白質作為第二候選蛋白質;
8、從參考物種中挖掘出目標功能通路的蛋白簇,基于目標功能通路的蛋白簇對候選物種進行篩選,篩選后的候選物種對應的候選蛋白質即為目標蛋白質。
9、進一步地,使用隨機化決策樹算法將向量矩陣映射到分類序列號上。
10、進一步地,所述聚類模型經過挑選以及參數優化,包括:
11、聚類模型選用三種從頭聚類算法分別為:1)基于密度的噪聲應用空間聚類即dbscan,2)對點排序以確定簇結構的聚類即optics和?3)基于沃德連接的分層聚類即wardhierarchical?clustering,并分別對其聚類參數進行優化和評估,包括1)dbscan模型函數中的eps值和最小樣本數,2)optics模型函數中的最小樣本數和xi值,3)使用agglomerative?clustering算法的ward?hierarchical?clustering聚類模型中的類別數量和以及連接函數中距離閾值;將參考蛋白質和第二蛋白質作為類別1,其他作為類別0作為參考值矩陣,用于評估參考值和聚類結果之間的差異;通過參考值和聚類結果之間的同質性打分、完整性打分和v評價打分以及聚類結果的輪廓系數打分,對聚類效果和模型進行評估,選擇得到最好打分的參數組和模型。
12、進一步地,從參考物種中挖掘出目標功能通路的蛋白簇,包括:
13、首先在參考物種的蛋白組上獲取目標功能通路蛋白的序列并對其建比對數據庫,再使用核酸-蛋白質序列比對;將參考物種中的每個基因組序列依次比對到目標功能通路蛋白的數據庫上,比對輸出文件以outfmt6格式輸出,并包含查詢對象即基因組scaffold的起始位點和終止位點,對靶標即功能通路蛋白的覆蓋程度和翻譯后的基因組比對區域序列;將每個參考物種的比對結果按照優先基因組scaffold在起始位點的方式排序,選擇同一基因組scaffold上挖掘出相鄰的蛋白質序列最多的基因組scaffold,再將這些蛋白序列建庫,并與同一基因組scaffold上的cds做核酸-蛋白質序列比對的比對,選擇能完整覆蓋目標功能通路蛋白并且百分比pident為最高的比對結果,并輸出相應的cds的翻譯后序列;由包含這些cds的基因組片段即為目標功能通路的蛋白簇。
14、進一步地,基因組序列與蛋白組序列獲取,包括:物種序列號對應ncbi上基因組組裝數據庫的基因組組裝序列號,再通過基因組組裝序列號下載其基因組及其序列、編碼區序列和蛋白組及其序列。
15、進一步地,基于該功能通路的蛋白簇對候選物種進行篩選,包括:
16、依照以下任一種或者多種標準篩選候選物種:
17、包含所有必需的目標功能通路蛋白質,且其分布在一個蛋白簇上;
18、包含所有必需的目標功能通路蛋白質,但是分布在同一基因組scaffold不相鄰的位置;
19、包含所有必需的目標功能通路蛋白質,但是分布在基因組不同的位置。
20、進一步地,若基于該功能通路的蛋白簇對候選物種進行篩選時,沒有篩選出候選物種,則以nr?庫位數據庫以目標功能通路蛋白位查詢蛋白的序列比對,限制物種名單為候選物種,得到包含所有必需的目標功能通路蛋白質的物種。
21、本專利技術還提供了一種功能蛋白質挖掘和篩選裝置,包括:
22、nr庫比對模塊,用于整合若干個蛋白質數據庫,并獲取蛋白質的物種序列號信息映射文件,以構建蛋白質比本文檔來自技高網...
【技術保護點】
1.一種功能蛋白質挖掘和篩選方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,使用隨機化決策樹算法將向量矩陣映射到分類序列號上。
3.根據權利要求1所述的方法,其特征在于,所述聚類模型經過挑選以及參數優化,包括:
4.根據權利要求1所述的方法,其特征在于,從參考物種中挖掘出目標功能通路的蛋白簇,包括:
5.根據權利要求4所述的方法,其特征在于,基因組序列與蛋白組序列獲取,包括:物種序列號對應NCBI上基因組組裝數據庫的基因組組裝序列號,再通過基因組組裝序列號下載其基因組及其序列、編碼區序列和蛋白組及其序列。
6.根據權利要求1所述的方法,其特征在于,基于該功能通路的蛋白簇對候選物種進行篩選,包括:
7.根據權利要求1所述的方法,其特征在于,若基于該功能通路的蛋白簇對候選物種進行篩選時,沒有篩選出候選物種,則以NR?庫位數據庫以目標功能通路蛋白位查詢蛋白的序列比對,限制物種名單為候選物種,得到包含所有必需的目標功能通路蛋白質的物種。
8.一種功能蛋白質挖掘和篩選裝置,其特征在于,包
9.一種功能蛋白質挖掘和篩選裝置,其特征在于,包括一個或多個處理器,用于實現權利要求1-7中任一項所述的一種功能蛋白質挖掘和篩選方法。
10.一種計算機可讀存儲介質,其上存儲有程序,其特征在于,該程序被處理器執行時,用于實現權利要求1-7中任一項所述的一種功能蛋白質挖掘和篩選方法。
...【技術特征摘要】
1.一種功能蛋白質挖掘和篩選方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,使用隨機化決策樹算法將向量矩陣映射到分類序列號上。
3.根據權利要求1所述的方法,其特征在于,所述聚類模型經過挑選以及參數優化,包括:
4.根據權利要求1所述的方法,其特征在于,從參考物種中挖掘出目標功能通路的蛋白簇,包括:
5.根據權利要求4所述的方法,其特征在于,基因組序列與蛋白組序列獲取,包括:物種序列號對應ncbi上基因組組裝數據庫的基因組組裝序列號,再通過基因組組裝序列號下載其基因組及其序列、編碼區序列和蛋白組及其序列。
6.根據權利要求1所述的方法,其特征在于,基于該功能通路的蛋白...
【專利技術屬性】
技術研發人員:李茜,陳高祥,傅帥,黃銳,駱正陽,馮琳清,
申請(專利權)人:之江實驗室,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。