基于機器學習的生物信息學數據處理方法、系統及介質技術方案

技術編號：41461725 閱讀：23 留言：0更新日期：2024-05-28 20:46

本發明專利技術提供基于機器學習的生物信息學數據處理方法、系統及介質，涉及數據處理技術領域，包括：創建樣品數據庫和已知數據庫；對樣品數據庫中的蛋白質分子進行編碼，得到樣品編碼庫，對已知數據庫中的蛋白質分子進行編碼，得到已知編碼庫；對樣品編碼庫中的蛋白質分子編碼進行識別分類，得到缺失數據集和正常數據集；對正常數據集進行特征提取，得到正常特征集；對缺失數據集進行預補全，得到估計值數據集；訓練隨機森林模型對正常特征集進行分類；基于訓練完成的隨機森林模型對估計值數據集進行特征補全，得到補全數據；本發明專利技術用于解決現有的識別方法不能有效地對缺失的生物信息學數據進行精準補全，因此在后續的分類上也會存在缺陷的問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及數據處理，尤其涉及基于機器學習的生物信息學數據處理方法、系統及介質。

技術介紹

1、生物信息學分類是一門涉及生命科學和計算科學的交叉學科。它致力于研究生物信息的組織、傳遞和表達，以解決生物信息數據的分類問題。生物信息學分類具有重要的科學意義和商業價值。它常用于蛋白質分子結構預測、生物疾病預測、生物習性預測、基因分析與表達等重要領域。因此，如何有效地解決生物信息數據的分類問題具有非常重要的研究價值。

2、現有的技術中，在對生物信息學數據進行處理時，會存在生物信息學數據的缺失，現有的識別方法不能有效地對缺失的生物信息學數據進行精準補全，因此在后續的分類上也會存在缺陷，例如在公開號為cn103810402a的申請文件中，公開了用于基因組的數據處理方法和裝置，該方法就是將目標基因組的信息與參考基因組的信息進行比對，從比對結果中獲取未比對上的基因組片段的信息；將未比對上的基因組片段的信息與參考基因組的信息進行二次比對，從比對結果中獲取目標基因組的特異序列的信息，該方法缺少對缺失的生物信息學數據進行補全的技術，不能及時準確地提供有效信息。

技術實現思路

1、針對現有技術存在的不足，本專利技術目的是提供基于機器學習的生物信息學數據處理方法、系統及介質，通過將樣品數據分類為正常數據集和缺失數據集，對正常數據集進行特征提取得到正常特征集，對缺失數據集進行預補全得到估計值數據集，再訓練隨機森林模型對正常特征集進行分類，對估計值數據集進行特征提取和分類，根據分類結果將正常數據集

2、為了實現上述目的，本專利技術是通過如下的技術方案來實現：第一方面，本申請提供基于機器學習的生物信息學數據處理方法，所述處理方法包括如下步驟：

3、步驟s1：創建樣品數據庫和已知數據庫；

4、步驟s2：對樣品數據庫中的蛋白質分子進行編碼，得到樣品編碼庫，對已知數據庫中的蛋白質分子進行編碼，得到已知編碼庫；

5、步驟s3：對樣品編碼庫中的蛋白質分子編碼進行識別分類，得到缺失數據集和正常數據集；

6、步驟s4：對正常數據集進行特征提取，得到正常特征集；

7、步驟s5：對缺失數據集進行預補全，得到估計值數據集；

8、步驟s6：訓練隨機森林模型對正常特征集進行分類；

9、步驟s7：基于訓練完成的隨機森林模型對估計值數據集進行特征補全，得到補全數據，將補全數據導入正常數據集，得到處理數據庫。

10、進一步地，所述步驟s1中所述樣品數據庫用于存儲未處理的蛋白質分子數據，所述已知數據庫用于存儲已知的蛋白質分子數據。

11、進一步地，步驟s2包括如下子步驟：

12、步驟s201：獲取待處理的蛋白質分子的蛋白序列；

13、步驟s202：對蛋白質分子的蛋白序列進行氨基酸序列編碼，得到蛋白質分子的蛋白編碼；

14、步驟s203：獲取所有蛋白質分子的蛋白編碼，將所有蛋白質分子的蛋白編碼設置為樣品，得到樣品編碼庫；

15、步驟s204：獲取已知蛋白質分子，對所有已知蛋白質分子進行氨基酸序列編碼，得到已知編碼庫。

16、進一步地，所述步驟s202中，氨基酸序列編碼包括：獲取蛋白質分子的蛋白序列中的氨基酸排序，將蛋白質分子中每個氨基酸用一個字母或數字表示，得到蛋白質分子的氨基酸序列編碼。

17、進一步地，所述步驟s3包括如下子步驟：

18、步驟s301：獲取樣品編碼庫中任一蛋白質分子的氨基酸序列編碼，對于該氨基酸序列編碼與已知編碼庫中的氨基酸序列編碼進行編碼比對，得到缺失相似編碼和已知比對編碼；

19、步驟s302：獲取所有缺失相似編碼，得到缺失數據集，獲取所有已知比對編碼，得到正常數據集。

20、進一步地，所述步驟s301中的編碼比對包括如下步驟：

21、步驟k1：獲取任一編碼x，對編碼x的第n位數據標記為xn，其中，n的取值為正整數；

22、步驟k2：從已知編碼庫中獲取任一編碼數大于等于編碼x的編碼數的編碼，記為已知編碼y，將已知編碼y的第n位數據標記為yn；

23、步驟k3：判斷yn是否與xn相同，當yn與xn全部相同時，標記編碼x為已知比對編碼；

24、步驟k4：當yn與xn不同時，跳過y1至yn，判斷yn+1與xn是否相同；當yn+1與xn完全相同時，標記編碼x為缺失相似編碼；

25、步驟k5：當yn+1與xn不同時，跳過y1至yn+1，判斷yn+2與xn是否相同；當yn+2與xn完全相同時，標記編碼x為缺失相似編碼；

26、步驟k6：當yn+2與xn不同時，重復步驟k4至步驟k5，直至對編碼y中的編碼全部進行判斷，當yn+i與xn依然不同時，標記編碼x為無關編碼，其中n+i等于編碼y的編碼數；

27、步驟k7：當判定編碼x為無關編碼時，從已知編碼庫中獲取另一編碼數大于等于n的已知編碼，重復步驟k2至k7，直至將編碼x判定為已知比對編碼或缺失相似編碼。

28、進一步地，步驟s4包括如下子步驟：

29、步驟s401：獲取正常數據集中的任一蛋白質分子，將所述蛋白質分子的多個殘基位置中的每個殘基位置設置為多個片段，所述多個片段包括該蛋白質分子的殘基的位置；

30、步驟s402：將蛋白質分子的多個片段設置為蛋白質分子的一級特征；

31、步驟s403：獲取蛋白質分子的二級結構，將蛋白質分子多肽鏈中主鏈原子的局部空間排布設置為蛋白質分子的二級特征；

32、步驟s404：獲取蛋白質分子的三級結構，從蛋白質分子的三級結構中提取出次級鍵的數量，將蛋白質分子中次級鍵的數量設置為蛋白質分子的三級特征；

33、步驟s405：對一個蛋白質分子的一級特征、二級特征和三級特征進行整合，得到該蛋白質分子的正常特征，將正常數據集中的所有蛋白質分子的正常特征整合后得到正常特征集。

34、進一步地，所述步驟s5包括如下子步驟：

35、步驟s501：獲取缺失數據集中的任一蛋白質分子編碼，將該蛋白質分子編碼與已知編碼庫中的蛋白質分子編碼進行編碼比對；

36、步驟s502：從步驟k2獲取第n位編碼與該蛋白質分子編碼的xn+1或者xn-1完全相同的編碼，設置為估計編碼；

37、步驟s503：獲取所有估計編碼，得到估計值數據集。

38、進一步地，所述步驟s6包括如下子步驟：

39、步驟s601：獲取正常特征集，通過隨機抽取的方式，將正常特征集平均分為兩份，得到訓練特征集和測試特征集，訓練特征集用于訓練隨機森林模型，測試特征集本文檔來自技高網...

【技術保護點】

1.基于機器學習的生物信息學數據處理方法，其特征在于，所述處理方法包括如下步驟：

2.根據權利要求1所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟S1中所述樣品數據庫用于存儲未處理的蛋白質分子數據，所述已知數據庫用于存儲已知的蛋白質分子數據。

3.根據權利要求2所述的基于機器學習的生物信息學數據處理方法，其特征在于，步驟S2包括如下子步驟：

4.根據權利要求3所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟S202中，氨基酸序列編碼包括：獲取蛋白質分子的蛋白序列中的氨基酸排序，將蛋白質分子中每個氨基酸用一個字母或數字表示，得到蛋白質分子的氨基酸序列編碼。

5.根據權利要求4所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟S3包括如下子步驟：

6.根據權利要求5所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟S301中的編碼比對包括如下步驟：

7.根據權利要求6所述的基于機器學習的生物信息學數據處理方法，其特征在于，步驟S4包括如下子步驟：>

8.根據權利要求7所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟S5包括如下子步驟：

9.根據權利要求8所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟S6包括如下子步驟：

10.根據權利要求9所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟S7包括如下子步驟：

11.基于機器學習的生物信息學數據處理系統，適用于權利要求1-10任意一項所述的基于機器學習的生物信息學數據處理方法，包括：樣品庫模塊、樣品處理模塊、數據分類模塊、模型訓練模塊、特征提取模塊和缺失補全模塊；

12.一種存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時，運行如權利要求1-10任一項所述方法中的步驟。

...

【技術特征摘要】

1.基于機器學習的生物信息學數據處理方法，其特征在于，所述處理方法包括如下步驟：

2.根據權利要求1所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟s1中所述樣品數據庫用于存儲未處理的蛋白質分子數據，所述已知數據庫用于存儲已知的蛋白質分子數據。

3.根據權利要求2所述的基于機器學習的生物信息學數據處理方法，其特征在于，步驟s2包括如下子步驟：

4.根據權利要求3所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟s202中，氨基酸序列編碼包括：獲取蛋白質分子的蛋白序列中的氨基酸排序，將蛋白質分子中每個氨基酸用一個字母或數字表示，得到蛋白質分子的氨基酸序列編碼。

5.根據權利要求4所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟s3包括如下子步驟：

6.根據權利要求5所述的基于機器學習的生物信息學數據處理方法，其特征在于，所述步驟s301中...

【專利技術屬性】
技術研發人員：何加銘，王欽文，吳東舒，單丹丹，江文玲，金錱，洪銳，鄭國俊，張濟鵬，雷宣龍，周林，
申請(專利權)人：寧波甬恒瑤瑤智能科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術