System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于毒素蛋白識別領域,具體涉及一種水生刺胞動物毒素蛋白識別方法、系統、終端及介質。
技術介紹
1、刺胞動物(又稱刺胞生物)是一類水生動物,包括水母、珊瑚、??退5?。它們的身體結構相對簡單,通常由一個中空的消化腔組成,周圍環繞著帶有毒性刺細胞的觸手或花瓣狀結構,用于捕捉獵物或防御。刺胞動物通常呈現輻射對稱性,缺乏明確的頭部或大腦。作為最原始的多細胞動物之一,刺胞動物生活在各種海洋環境中,從淺水區到深海,有些物種也出現在淡水棲息地。刺胞動物在生態系統中扮演著重要的角色,既是捕食者也是獵物,并且是珊瑚礁生態系統的重要組成部分。
2、刺胞動物通過注射刺絲囊毒液在被毒化的生物體內引發毒性和免疫反應。這些毒液含有酶、強效的孔形成毒素和神經毒素。酶包括脂解酶和蛋白水解酶,它們可以分解獵物的組織。因此,正確識別刺胞動物毒素蛋白對于理解它們在生態系統中的作用至關重要。
3、目前,一些嘗試性技術,如質譜、簡化表征的亞硫酸氫鹽測序和單分子實時測序,已被開發用于識別不同類型的毒素蛋白。盡管這些技術在水生刺胞動物毒素蛋白的識別中頗有幫助,但在大規模序列數據應用中成本較高。因此,急需開發一種用于識別水生刺胞動物毒素蛋白的生物信息學工具。
技術實現思路
1、為解決上述問題,本專利技術提供一種水生刺胞動物毒素蛋白識別方法、系統、終端及介質,通過基于隨機森林的模型對水生刺胞動物的毒素蛋白進行識別,有效提高水生刺胞動物毒素蛋白識別效率和準確性,且成本較低。
2、第一方
3、構建毒素蛋白識別模型,所述毒素蛋白識別模型包括特征編碼模塊和分類器模塊,特征編碼模塊使用氨基酸組成、word2vec技術、歸一化的moreau-broto自相關描述進行毒素蛋白編碼獲得編碼特征,分類器模塊對編碼特征進行分類以識別水生刺胞動物毒素蛋白;
4、對構建的毒素蛋白識別模型進行訓練;
5、使用訓練后的毒素蛋白識別模型對目標毒素蛋白進行識別,以判斷目標毒素蛋白是否為水生刺胞動物毒素蛋白。
6、在一個可選的實施方式中,對構建的毒素蛋白識別模型進行訓練,具體包括:
7、步驟1,獲取刺胞動物毒素蛋白數據集,并將其分為訓練數據集和測試數據集;
8、步驟2,通過以下公式對數據集的毒素蛋白進行氨基酸組成描述,
9、 f(x)?=?n(x)/n
10、式中, n(x)是蛋白質序列中 x氨基酸殘基的數量,總殘基數為 n;
11、步驟3,使用word2vec技術對數據集毒素蛋白序列進行向量描述;
12、步驟4,通過歸一化的moreau-broto自相關描述對數據集毒素蛋白的氨基酸值進行自相關描述,公式為
13、 m=?1,2,3,…,20;
14、式中, q(m)表示歸一化的moreau-broto自相關, m表示氨基酸殘基數量, pi表示氨基酸指數中的第 i個氨基酸值;
15、步驟5,將氨基酸組成描述、向量描述、自相關描述轉化為數值特征向量;
16、步驟6,將數值特征向量輸入基于隨機森林的分類器中進行訓練。
17、在一個可選的實施方式中,獲取毒素蛋白數據集,具體包括:
18、從開源數據庫中收集若干陽性樣本和陰性樣本;
19、通過使用?cd-hit?去除相似性閾值為?80%?的相似樣本,獲得最終的毒素蛋白數據集。
20、在一個可選的實施方式中,將氨基酸組成描述、向量描述、自相關描述轉化為數值特征向量之后,還包括以下步驟:
21、采用增量特征選擇和梯度提升決策樹的方差分析方法對數值特征向量進行優化,得到優化的數值特征向量。
22、在一個可選的實施方式中,將數值特征向量輸入基于隨機森林的分類器中進行訓練時,使用交叉驗證方法對毒素蛋白識別模型進行測試訓練。
23、在一個可選的實施方式中,對構建的毒素蛋白識別模型進行訓練之后,還包括以下步驟:
24、使用靈敏度、特異性、準確率和馬修斯相關系數對訓練后的毒素蛋白識別模型進行性能評估。
25、第二方面,本專利技術的技術方案提供一種水生刺胞動物毒素蛋白識別系統,包括:
26、模型構建單元:用于構建毒素蛋白識別模型,所述毒素蛋白識別模型包括特征編碼模塊和分類器模塊,特征編碼模塊使用氨基酸組成、word2vec技術、歸一化的moreau-broto自相關描述進行毒素蛋白編碼獲得編碼特征,分類器模塊對編碼特征進行分類以識別水生刺胞動物毒素蛋白;
27、模型訓練單元:用于對構建的毒素蛋白識別模型進行訓練;
28、毒素蛋白識別單元:用于使用訓練后的毒素蛋白識別模型對目標毒素蛋白進行識別,以判斷目標毒素蛋白是否為水生刺胞動物毒素蛋白。
29、在一個可選的實施方式中,還包括,
30、模型評估單元:用于使用靈敏度、特異性、準確率和馬修斯相關系數對訓練后的毒素蛋白識別模型進行性能評估。
31、第三方面,本專利技術的技術方案提供一種終端,包括:
32、存儲器,用于存儲水生刺胞動物毒素蛋白識別程序;
33、處理器,用于執行所述水生刺胞動物毒素蛋白識別程序時實現如上述任一項所述水生刺胞動物毒素蛋白識別方法的步驟。
34、第四方面,本專利技術的技術方案提供一種計算機可讀存儲介質,所述可讀存儲介質上存儲有水生刺胞動物毒素蛋白識別程序,所述水生刺胞動物毒素蛋白識別程序被處理器執行時實現如上述任一項所述水生刺胞動物毒素蛋白識別方法的步驟。
35、本專利技術提供的一種水生刺胞動物毒素蛋白識別方法、系統、終端及介質,相對于現有技術,具有以下有益效果:首先通過構建包含特征編碼模塊和分類器模塊的毒素蛋白識別模型,能夠高效地提取并利用毒素蛋白的關鍵特征信息,其次特征編碼模塊融合了氨基酸組成、word2vec技術和歸一化的moreau-broto自相關描述符,這些多維度的特征信息能夠更全面、準確地反映毒素蛋白的生物特性,從而提高識別水生刺胞動物毒素蛋白的精度,再者通過構建和訓練毒素蛋白識別模型,實現對目標毒素蛋白的快速、準確識別,簡化實驗流程,降低實驗成本,為毒素蛋白的研究和應用提供更加經濟、便捷的方法。
本文檔來自技高網...【技術保護點】
1.一種水生刺胞動物毒素蛋白識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的水生刺胞動物毒素蛋白識別方法,其特征在于,對構建的毒素蛋白識別模型進行訓練,具體包括:
3.根據權利要求2所述的水生刺胞動物毒素蛋白識別方法,其特征在于,獲取毒素蛋白數據集,具體包括:
4.根據權利要求2所述的水生刺胞動物毒素蛋白識別方法,其特征在于,將氨基酸組成描述、向量描述、自相關描述轉化為數值特征向量之后,還包括以下步驟:
5.根據權利要求2所述的水生刺胞動物毒素蛋白識別方法,其特征在于,將數值特征向量輸入基于隨機森林的分類器中進行訓練時,使用交叉驗證方法對毒素蛋白識別模型進行測試訓練。
6.根據權利要求1至5任一項所述的水生刺胞動物毒素蛋白識別方法,其特征在于,對構建的毒素蛋白識別模型進行訓練之后,還包括以下步驟:
7.一種水生刺胞動物毒素蛋白識別系統,其特征在于,包括:
8.根據權利要求7所述的水生刺胞動物毒素蛋白識別系統,其特征在于,還包括,
9.一種終端,其特征在于,包括:
< ...【技術特征摘要】
1.一種水生刺胞動物毒素蛋白識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的水生刺胞動物毒素蛋白識別方法,其特征在于,對構建的毒素蛋白識別模型進行訓練,具體包括:
3.根據權利要求2所述的水生刺胞動物毒素蛋白識別方法,其特征在于,獲取毒素蛋白數據集,具體包括:
4.根據權利要求2所述的水生刺胞動物毒素蛋白識別方法,其特征在于,將氨基酸組成描述、向量描述、自相關描述轉化為數值特征向量之后,還包括以下步驟:
5.根據權利要求2所述的水生刺胞動物毒素蛋白識別方法,其特征在于,將數值特征向量輸入基于隨機森林的分類器中進行訓練時,使用交叉驗證方法...
【專利技術屬性】
技術研發人員:哈桑祖勒菲卡爾,阿里拉扎,昊林,
申請(專利權)人:電子科技大學長三角研究院湖州,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。