System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及智能預測,尤其涉及一種關鍵基因識別方法、裝置、計算機設備及存儲介質。
技術介紹
1、翅膀是昆蟲進化過程中的一項關鍵創新,它們在昆蟲的生存、繁衍以及生態系統的穩定和多樣性中起著至關重要的作用。然而,關于昆蟲翅膀的起源與演化還沒有一個權威的科學依據進行解釋。目前的主流觀點認為有翅昆蟲是由無翅昆蟲進化而來,這是一個“從無到有”的過程。關于這個過程有三種主要的假說來解釋,分別是胸部背板起源、胸部側葉起源和氣管鰓起源。這些假說都基于特定的幾個物種或特定的目進行研究,然而關于它們的進化起源仍然存在爭議。昆蟲的翅膀起源與演化涉及眾多關鍵基因的復雜協同作用,但由于這些基因在昆蟲的翅膀進化過程中的重要性難以評估,因此識別這些基因對翅膀的起源與進化的重要性分布是傳統分子生物學面臨的一大挑戰。
2、傳統分子生物信息學方法通過使用rna-seq等基因表達分析不同發育階段或組織中的基因表達,進而通過rna干擾、基因敲除、crispr-cas9等技術驗證基因的功能。
3、然而,申請人發現,傳統的分子生物信息學方法對非模式昆蟲物種的數據支持不足,難以全面捕捉多基因的復雜調控網絡,從而影響結果的準確性。
技術實現思路
1、本申請實施例的目的在于提出一種關鍵基因識別方法、裝置、計算機設備及存儲介質,以解決傳統的分子生物信息學方法存在準確性較低的問題。
2、為了解決上述技術問題,本申請實施例提供一種關鍵基因識別方法,采用了如下所述的技術方案:
3、獲取原始樣本
4、對所述原始樣本數據進行預處理操作,得到預處理樣本數據;
5、根據hfkmer對所述預處理樣本數據進行分詞操作,得到分詞數據;
6、對所述分詞數據進行向量轉化操作,得到分詞向量數據;
7、構建初始bgac模型,并根據所述分詞向量數據對所述初始bgac模型進行模型訓練操作,得到目標bgac模型;
8、獲取待識別的基因組蛋白序列;
9、將所述基因組蛋白序列輸入至所述目標bgac模型進行關鍵基因識別操作,得到關鍵基因識別結果。
10、進一步的,所述對所述原始樣本數據進行預處理操作,得到預處理樣本數據的步驟,具體包括下述步驟:
11、根據隨機采樣法對所述原始樣本數據進行擴充操作,得到所述預處理樣本數據。
12、進一步的,在所述根據隨機采樣法對所述原始樣本數據進行擴充操作,得到所述預處理樣本數據的步驟之前,還包括下述步驟:
13、根據busco技術對所述原始樣本數據進行完整性評估操作,得到完整性評估結果;
14、若所述完整性評估結果為完整,則執行所述擴充操作;
15、若所述完整性評估結果為不完整,則對所述原始樣本數據進行完整性修復操作。
16、進一步的,所述bgac模型由詞序列編碼器、句子編碼器、bigru網絡層和注意力層組成。
17、進一步的,所述根據hfkmer對所述預處理樣本數據進行分詞操作,得到分詞數據的步驟,具體包括下述步驟:
18、根據預設長度對所述預處理樣本數據進行滑動窗口分詞處理,得到分詞子序列;
19、對所述分詞子序列進行頻率統計操作,得到頻率統計數據;
20、根據pareto?principle對所述頻率統計數據進行篩選操作,得到高頻分詞標記;
21、根據所述高頻分詞標記對所述預處理樣本數據進行分詞操作,得到所述分詞數據。
22、為了解決上述技術問題,本申請實施例還提供一種關鍵基因識別裝置,采用了如下所述的技術方案:
23、原始樣本獲取模塊,用于獲取原始樣本數據;
24、預處理模塊,用于對所述原始樣本數據進行預處理操作,得到預處理樣本數據;
25、分詞模塊,用于根據hfkmer對所述預處理樣本數據進行分詞操作,得到分詞數據;
26、向量轉化模塊,用于對所述分詞數據進行向量轉化操作,得到分詞向量數據;
27、模型訓練模塊,用于構建初始bgac模型,并根據所述分詞向量數據對所述初始bgac模型進行模型訓練操作,得到目標bgac模型;
28、蛋白序列獲取模塊,用于獲取待識別的基因組蛋白序列;
29、關鍵基因識別模塊,用于將所述基因組蛋白序列輸入至所述目標bgac模型進行關鍵基因識別操作,得到關鍵基因識別結果。
30、進一步的,所述預處理模塊包括:
31、預處理子模塊,用于根據隨機采樣法對所述原始樣本數據進行擴充操作,得到所述預處理樣本數據。
32、進一步的,所述預處理模塊還包括:
33、完整性評估子模塊,用于根據busco技術對所述原始樣本數據進行完整性評估操作,得到完整性評估結果;
34、第一評估結果子模塊,用于若所述完整性評估結果為完整,則執行所述擴充操作;
35、第二評估結果子模塊,用于若所述完整性評估結果為不完整,則對所述原始樣本數據進行完整性修復操作。
36、為了解決上述技術問題,本申請實施例還提供一種計算機設備,采用了如下所述的技術方案:
37、包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如上所述的關鍵基因識別方法的步驟。
38、為了解決上述技術問題,本申請實施例還提供一種計算機可讀存儲介質,采用了如下所述的技術方案:
39、所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如上所述的關鍵基因識別方法的步驟。
40、本申請提供了一種關鍵基因識別方法,包括:獲取原始樣本數據;對所述原始樣本數據進行預處理操作,得到預處理樣本數據;根據hfkmer對所述預處理樣本數據進行分詞操作,得到分詞數據;對所述分詞數據進行向量轉化操作,得到分詞向量數據;構建初始bgac模型,并根據所述分詞向量數據對所述初始bgac模型進行模型訓練操作,得到目標bgac模型;獲取待識別的基因組蛋白序列;將所述基因組蛋白序列輸入至所述目標bgac模型進行關鍵基因識別操作,得到關鍵基因識別結果。與現有技術相比,本申請具有以下有益效果:(1)提高識別精度:利用深度學習模型,特別是注意力機制,能夠自動捕捉基因表達數據中的復雜模式和關鍵特征,有效提高了關鍵基因識別的精度;(2)自動化處理與高效性:本專利技術通過自動化的數據分析流程,減少了人工干預,顯著提高了分析效率,能夠快速處理大規?;蚪M數據;(3)增強復雜網絡解析能力:注意力機制能夠重點關注基因間的重要相互作用,解析出復雜的基因調控網絡,揭示出在昆蟲翅膀起源與演化中起關鍵作用的基因及其調控機制;(4)減少數據冗余與噪聲影響:深度學習模型具備良好的抗噪能力,能夠有效過濾掉基因表達數據中的噪聲和冗余信息,確保識別結果的準確性和穩定性;(5)適應多物種分析:本專利技術的模型具有良好的泛化能力,適本文檔來自技高網...
【技術保護點】
1.一種關鍵基因識別方法,其特征在于,包括下述步驟:
2.根據權利要求1所述的關鍵基因識別方法,其特征在于,所述對所述原始樣本數據進行預處理操作,得到預處理樣本數據的步驟,具體包括下述步驟:
3.根據權利要求2所述的關鍵基因識別方法,其特征在于,在所述根據隨機采樣法對所述原始樣本數據進行擴充操作,得到所述預處理樣本數據的步驟之前,還包括下述步驟:
4.根據權利要求1所述的關鍵基因識別方法,其特征在于,所述BGAC模型由詞序列編碼器、句子編碼器、Bi?GRU網絡層和注意力層組成。
5.根據權利要求1所述的關鍵基因識別方法,其特征在于,所述根據HFkmer對所述預處理樣本數據進行分詞操作,得到分詞數據的步驟,具體包括下述步驟:
6.一種關鍵基因識別裝置,其特征在于,包括:
7.根據權利要求6所述的關鍵基因識別裝置,其特征在于,所述預處理模塊包括:
8.根據權利要求7所述的關鍵基因識別裝置,其特征在于,所述預處理模塊還包括:
9.一種計算機設備,包括存儲器和處理器,其特征在于,所述存儲器中存
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如權利要求1至5中任一項所述的關鍵基因識別方法的步驟。
...【技術特征摘要】
1.一種關鍵基因識別方法,其特征在于,包括下述步驟:
2.根據權利要求1所述的關鍵基因識別方法,其特征在于,所述對所述原始樣本數據進行預處理操作,得到預處理樣本數據的步驟,具體包括下述步驟:
3.根據權利要求2所述的關鍵基因識別方法,其特征在于,在所述根據隨機采樣法對所述原始樣本數據進行擴充操作,得到所述預處理樣本數據的步驟之前,還包括下述步驟:
4.根據權利要求1所述的關鍵基因識別方法,其特征在于,所述bgac模型由詞序列編碼器、句子編碼器、bi?gru網絡層和注意力層組成。
5.根據權利要求1所述的關鍵基因識別方法,其特征在于,所述根據hfkmer對所述預處理樣本數據進行分詞操作,得到分詞數...
【專利技術屬性】
技術研發人員:趙友杰,劉方榮,曹涌,童星玉,劉峻輝,錢松平,
申請(專利權)人:西南林業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。