System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 久久精品?ⅴ无码中文字幕,狠狠久久精品中文字幕无码 ,国产精品无码一二区免费
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>之江實驗室專利>正文

    一種功能蛋白質挖掘和篩選方法及裝置制造方法及圖紙

    技術編號:44458576 閱讀:3 留言:0更新日期:2025-02-28 19:06
    本發明專利技術公開了一種功能蛋白質挖掘和篩選方法及裝置,將蛋白結構預測、蛋白質功能注釋、蛋白簇挖掘等多維度的生物信息學分析與基于蛋白質大語言的人工智能方法結合起來,構建了一個針對功能蛋白的挖掘和篩選的流程。引入蛋白質的結構分析,利用蛋白質結構與功能的關聯,通過構建結構相似性圖譜,發掘功能相近的蛋白。蛋白質大語言模型能夠包含蛋白結構,翻譯后修飾和生物物理學特性等與蛋白質功能相關的特征參數,并以向量矩陣的形式揭示蛋白內在的功能關聯性。通過引入這兩種分析手段,并結合傳統的基于序列的蛋白質功能注釋的方法,使得序列相似性和親緣度更低,但是擁有相應功能的蛋白被挖掘和篩選出來,從而能夠更加高效精準地利用生物大分子。

    【技術實現步驟摘要】

    本專利技術屬于生物信息學和蛋白組學領域,尤其涉及到一種功能蛋白質挖掘和篩選方法及裝置


    技術介紹

    1、隨著人工智能技術的升級和高通量生物信息學的發展,人工智能與生命科學的融合給生物大分子分析帶來了巨大的創新。蛋白質作為生物系統中一種重要的大分子,是生命體中最基礎的組分,參與大量的生命活動,也在許多生化反應中發揮著巨大作用,可以說,蛋白質組學分析是了解生物功能和利用生物產物的第一步。作為一種由26種氨基酸組合排列而成了的生物大分子,蛋白質的序列,結構和功能是互相映射的。蛋白質的序列分析在基因組學、蛋白測序和計算機技術等多種技術的發展下已經日趨成熟。同時,在蛋白質結構方面,引入深度學習的蛋白質三維結構預測方法如alphafold、rosettafold和esmfold等,已經可以做到準確和精密得解析蛋白質的結構。大語言模型作為一種新興的人工智能分析的發展方向,能夠將多維度的數據信息融合,基于蛋白質組學的大語言模型(如esm,protbert,?prott5等)將蛋白質組學與蛋白質功能密切相關的信息(如二級和三級結構,理化性質,調控通路等)做參數化表征,給蛋白質功能注釋提供了多方位的參考信息。

    2、傳統的基于序列分析的蛋白質功能挖掘方法依賴序列的保守性,比如序列對齊和基于功能域結構域等序列標志區域的比對都需要達到一定的序列相似性,因而在相似性更低的蛋白組(比如親緣關系較遠的物種)做蛋白質功能挖掘方面存在缺陷。其次,序列相似的蛋白質并非擁有一樣的功能,序列上少數位點的改變可能帶來巨大的結構變化甚至讓其失去活性,所以,僅僅基于序列信息挖掘的蛋白質也缺乏交叉驗證的結果。基于蛋白質結構和蛋白質大語言模型的蛋白質挖掘方法,在序列分析的基礎上,引入結構相似性等多維度蛋白質性質作為篩選和驗證的依據,再以基于基因組學分析驗證生化反應通路的完整性,從而達到多角度的分析結果相互驗證,也能讓蛋白組學分析不局限在相似性高的序列之中。該專利技術作為一種整合了多種蛋白組學分析和人工智能分析的計算流程,能夠多角度量化表征蛋白質功能,從而有效提高功能蛋白挖掘的準確性。


    技術實現思路

    1、本專利技術的目的在于針對現有技術的不足,提供一種功能蛋白質挖掘和篩選方法及裝置,從而解決功能蛋白的挖掘被序列保守性和物種親緣性所限制的問題。

    2、本專利技術的目的是通過以下技術方案來實現的:一種功能蛋白質挖掘和篩選方法,包括:

    3、整合若干個蛋白質數據庫,并獲取蛋白質的物種序列號信息映射文件,以構建蛋白質比對數據庫;將目標功能蛋白參考序列,與nr庫進行蛋白質-蛋白質之間序列的比對,輸出比對到nr庫的第一蛋白序列及其物種名稱和物種序列號;

    4、基于蛋白質功能域結構域數據庫注釋參考序列的功能域和結構域片段,選擇參考序列上共有的目標功能相關并且其片段對序列覆蓋度大于第一預設閾值的功能域和結構域,從第一蛋白序列中篩選出覆蓋有所選擇的功能域和結構域片段的第二蛋白序列;

    5、預測第二蛋白質和參考蛋白質的三級結構并進行聚類,從第二蛋白質選出能夠同參考蛋白質結構聚為一類的蛋白質作為第一候選蛋白質;

    6、獲取物種序列號為索引的分類信息文件,基于該文件獲取參考蛋白質和第二蛋白質對應物種的分類序列號,基于蛋白質大語言模型對第二蛋白序列和參考序列進行向量化并合并為一個向量矩陣,將該向量矩陣映射到分類序列號上,去除向量矩陣中特征值大于等于第二預設閾值的特征,得到新的向量矩陣;

    7、使用聚類模型對新的向量矩陣進行聚類,選出與參考蛋白質同標簽的蛋白質作為第二候選蛋白質;

    8、從參考物種中挖掘出目標功能通路的蛋白簇,基于目標功能通路的蛋白簇對候選物種進行篩選,篩選后的候選物種對應的候選蛋白質即為目標蛋白質。

    9、進一步地,使用隨機化決策樹算法將向量矩陣映射到分類序列號上。

    10、進一步地,所述聚類模型經過挑選以及參數優化,包括:

    11、聚類模型選用三種從頭聚類算法分別為:1)基于密度的噪聲應用空間聚類即dbscan,2)對點排序以確定簇結構的聚類即optics和?3)基于沃德連接的分層聚類即wardhierarchical?clustering,并分別對其聚類參數進行優化和評估,包括1)dbscan模型函數中的eps值和最小樣本數,2)optics模型函數中的最小樣本數和xi值,3)使用agglomerative?clustering算法的ward?hierarchical?clustering聚類模型中的類別數量和以及連接函數中距離閾值;將參考蛋白質和第二蛋白質作為類別1,其他作為類別0作為參考值矩陣,用于評估參考值和聚類結果之間的差異;通過參考值和聚類結果之間的同質性打分、完整性打分和v評價打分以及聚類結果的輪廓系數打分,對聚類效果和模型進行評估,選擇得到最好打分的參數組和模型。

    12、進一步地,從參考物種中挖掘出目標功能通路的蛋白簇,包括:

    13、首先在參考物種的蛋白組上獲取目標功能通路蛋白的序列并對其建比對數據庫,再使用核酸-蛋白質序列比對;將參考物種中的每個基因組序列依次比對到目標功能通路蛋白的數據庫上,比對輸出文件以outfmt6格式輸出,并包含查詢對象即基因組scaffold的起始位點和終止位點,對靶標即功能通路蛋白的覆蓋程度和翻譯后的基因組比對區域序列;將每個參考物種的比對結果按照優先基因組scaffold在起始位點的方式排序,選擇同一基因組scaffold上挖掘出相鄰的蛋白質序列最多的基因組scaffold,再將這些蛋白序列建庫,并與同一基因組scaffold上的cds做核酸-蛋白質序列比對的比對,選擇能完整覆蓋目標功能通路蛋白并且百分比pident為最高的比對結果,并輸出相應的cds的翻譯后序列;由包含這些cds的基因組片段即為目標功能通路的蛋白簇。

    14、進一步地,基因組序列與蛋白組序列獲取,包括:物種序列號對應ncbi上基因組組裝數據庫的基因組組裝序列號,再通過基因組組裝序列號下載其基因組及其序列、編碼區序列和蛋白組及其序列。

    15、進一步地,基于該功能通路的蛋白簇對候選物種進行篩選,包括:

    16、依照以下任一種或者多種標準篩選候選物種:

    17、包含所有必需的目標功能通路蛋白質,且其分布在一個蛋白簇上;

    18、包含所有必需的目標功能通路蛋白質,但是分布在同一基因組scaffold不相鄰的位置;

    19、包含所有必需的目標功能通路蛋白質,但是分布在基因組不同的位置。

    20、進一步地,若基于該功能通路的蛋白簇對候選物種進行篩選時,沒有篩選出候選物種,則以nr?庫位數據庫以目標功能通路蛋白位查詢蛋白的序列比對,限制物種名單為候選物種,得到包含所有必需的目標功能通路蛋白質的物種。

    21、本專利技術還提供了一種功能蛋白質挖掘和篩選裝置,包括:

    22、nr庫比對模塊,用于整合若干個蛋白質數據庫,并獲取蛋白質的物種序列號信息映射文件,以構建蛋白質比本文檔來自技高網...

    【技術保護點】

    1.一種功能蛋白質挖掘和篩選方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,使用隨機化決策樹算法將向量矩陣映射到分類序列號上。

    3.根據權利要求1所述的方法,其特征在于,所述聚類模型經過挑選以及參數優化,包括:

    4.根據權利要求1所述的方法,其特征在于,從參考物種中挖掘出目標功能通路的蛋白簇,包括:

    5.根據權利要求4所述的方法,其特征在于,基因組序列與蛋白組序列獲取,包括:物種序列號對應NCBI上基因組組裝數據庫的基因組組裝序列號,再通過基因組組裝序列號下載其基因組及其序列、編碼區序列和蛋白組及其序列。

    6.根據權利要求1所述的方法,其特征在于,基于該功能通路的蛋白簇對候選物種進行篩選,包括:

    7.根據權利要求1所述的方法,其特征在于,若基于該功能通路的蛋白簇對候選物種進行篩選時,沒有篩選出候選物種,則以NR?庫位數據庫以目標功能通路蛋白位查詢蛋白的序列比對,限制物種名單為候選物種,得到包含所有必需的目標功能通路蛋白質的物種。

    8.一種功能蛋白質挖掘和篩選裝置,其特征在于,包括:

    9.一種功能蛋白質挖掘和篩選裝置,其特征在于,包括一個或多個處理器,用于實現權利要求1-7中任一項所述的一種功能蛋白質挖掘和篩選方法。

    10.一種計算機可讀存儲介質,其上存儲有程序,其特征在于,該程序被處理器執行時,用于實現權利要求1-7中任一項所述的一種功能蛋白質挖掘和篩選方法。

    ...

    【技術特征摘要】

    1.一種功能蛋白質挖掘和篩選方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,使用隨機化決策樹算法將向量矩陣映射到分類序列號上。

    3.根據權利要求1所述的方法,其特征在于,所述聚類模型經過挑選以及參數優化,包括:

    4.根據權利要求1所述的方法,其特征在于,從參考物種中挖掘出目標功能通路的蛋白簇,包括:

    5.根據權利要求4所述的方法,其特征在于,基因組序列與蛋白組序列獲取,包括:物種序列號對應ncbi上基因組組裝數據庫的基因組組裝序列號,再通過基因組組裝序列號下載其基因組及其序列、編碼區序列和蛋白組及其序列。

    6.根據權利要求1所述的方法,其特征在于,基于該功能通路的蛋白...

    【專利技術屬性】
    技術研發人員:李茜陳高祥傅帥黃銳駱正陽馮琳清
    申請(專利權)人:之江實驗室
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕无码免费久久9一区9 | 人妻丰满熟妇AV无码区| 亚洲日韩v无码中文字幕| 中文字幕乱码无码人妻系列蜜桃| 无码国产精品一区二区免费vr| 亚洲最大无码中文字幕| 国产精品99精品无码视亚| 日韩A无码AV一区二区三区| 亚洲欧洲AV无码专区| 色窝窝无码一区二区三区| 亚洲精品无码日韩国产不卡?V| 亚洲Av无码一区二区二三区| 国产乱人无码伦av在线a| AV无码精品一区二区三区宅噜噜 | 高清无码v视频日本www| 丰满日韩放荡少妇无码视频| 无码av中文一二三区| 无码中文字幕一区二区三区| 亚洲综合无码一区二区三区| 国产精品无码无片在线观看| 国产午夜无码专区喷水| 久久精品无码免费不卡| 国产精品无码久久久久| 97在线视频人妻无码| 国产福利无码一区在线| 亚洲精品无码成人| 天堂一区人妻无码| 无码中文av有码中文av| 成人无码Av片在线观看| 老司机无码精品A| 亚洲av日韩av永久无码电影| 无码中文av有码中文a| 无遮掩无码h成人av动漫| 在线观看无码的免费网站| 无码国产精品一区二区免费I6 | 国产亚洲精久久久久久无码| 亚洲精品无码乱码成人| 人妻无码一区二区三区免费| av无码国产在线看免费网站| 直接看的成人无码视频网站| 人妻少妇看A偷人无码精品视频|