System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及生物信息學和植物表觀遺傳學?,尤其涉及一種多物種表觀遺傳修飾預測方法和裝置。
技術介紹
1、表觀遺傳修飾是指不涉及dna序列變化的基因表達調控機制,包括但不限于dna甲基化和組蛋白修飾。這些修飾在植物的生長發育以及對環境脅迫的響應中起著至關重要的作用。盡管高通量測序技術的發展極大推動了植物表觀遺傳學的研究,但實驗技術的局限性導致目前對多數植物物種的表觀遺傳修飾圖譜仍然了解有限。傳統的機器學習方法通常局限于單一物種,難以捕捉復雜的跨物種表觀遺傳調控網絡。因此,開發一種能夠整合多物種數據并具備跨物種預測能力的表觀遺傳修飾預測方法至關重要。
技術實現思路
1、本專利技術提供一種多物種表觀遺傳修飾預測方法和裝置,用以解決現有技術中局限于單一物種,難以捕捉復雜的跨物種表觀遺傳調控網絡的缺陷,實現跨物種的表觀遺傳修飾預測。?本專利技術提出的技術方案如下:
2、第一方面,本專利技術提供一種多物種表觀遺傳修飾預測方法,包括:
3、獲取基因組序列和預先建立的多物種表觀遺傳修飾預測模型;其中,所述多物種表觀遺傳修飾預測模型包括特征提取模塊和多任務學習模型;
4、基于特征提取模塊對所述基因組序列進行特征提取,得到特征表示;
5、將所述特征表示輸入所述多任務學習模型中,預測得到每種表觀遺傳修飾類型的修飾水平數據。
6、可選地,所述基于特征提取模塊對所述基因組序列進行特征提取,得到特征表示,包括:
7、對所述基因組序列進行
8、將正向序列和反向互補序列輸入所述特征提取模塊進行特征提取,得到所述特征表示。
9、可選地,所述特征提取模塊包括第一卷積模塊、多個殘差模塊、位置嵌入層以及多個transformer編碼模塊;所述將正向序列和反向互補序列輸入所述特征提取模塊進行特征提取,得到所述特征表示,包括:
10、將正向序列和反向互補序列分別輸入所述第一卷積模塊,得到第一特征圖;
11、將第一特征圖輸入所述多個殘差模塊中,每個殘差模塊通過跳躍連接機制捕捉局部和全局特征信息,得到第二特征圖;
12、將第二特征圖輸入所述位置嵌入層進行位置編碼得到第三特征圖;
13、將所述第三特征圖輸入所述transformer編碼模塊,通過位置編碼和多頭注意力機制提取全局上下文關系特征,得到第四特征圖;
14、將正向序列和反向互補序列各自對應的第四特征圖進行特征疊加,得到所述特征表示。
15、可選地,所述多物種表觀遺傳修飾預測模型通過下述方式訓練:
16、獲取多個物種的基因組序列和對應的表觀遺傳修飾數據,得到數據集;其中,表觀遺傳修飾數據為基因組序列的實際修飾水平;
17、將所述數據集劃分為訓練集、驗證集和測試集
18、基于所述訓練集對預先建立的深度神經網絡模型進行訓練,使用反向傳播算法更新模型參數,以最小化損失函數,得到訓練后模型;其中,損失函數用于衡量模型預測輸出與實際修飾水平的差異;
19、使用驗證集評估不同超參數組合下的所述訓練后模型,并通過預設優化方法對超參數進行優化,?得到優化后模型;
20、使用測試集評估所述優化后模型的模型性能,直至模型性能達到預設要求,得到所述多物種表觀遺傳修飾預測模型。
21、可選地,所述方法還包括:
22、將所有物種的基因組序列轉換為統一的概率編碼格式。
23、可選地,所述多任務學習模型包括第二卷積模塊、全局池化層和多個物種預測頭,每個物種預測頭對應一個表觀遺傳修飾類型的預測任務;
24、將所述特征表示輸入所述多任務學習模型中,預測得到每種表觀遺傳修飾類型的修飾水平數據,包括:
25、將所述特征表示輸入所述第二卷積模塊進行特征提取,得到卷積模塊輸出;
26、所述全局池化層對卷積模塊輸出進行全局池化,將全局池化層的輸出分別輸入各物種預測頭,得到對應表觀遺傳修飾類型的修飾水平數據。
27、第二方面,本專利技術還提供一種多物種表觀遺傳修飾預測裝置,包括如下模塊:
28、獲取模塊,用于獲取基因組序列和預先建立的多物種表觀遺傳修飾預測模型;其中,所述多物種表觀遺傳修飾預測模型包括特征提取模塊和多任務學習模型;
29、提取模塊,用于基于特征提取模塊對所述基因組序列進行特征提取,得到特征表示;
30、預測模塊,用于將所述特征表示輸入所述多任務學習模型中,預測得到每種表觀遺傳修飾類型的修飾水平數據。
31、第三方面,本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述第一方面所述多物種表觀遺傳修飾預測方法。
32、第四方面,本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述第一方面所述多物種表觀遺傳修飾預測方法。
33、第五方面,本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述第一方面所述多物種表觀遺傳修飾預測方法。
34、基于上述技術方案,本專利技術較現有技術而言的有益效果為:
35、本專利技術提供的多物種表觀遺傳修飾預測方法和裝置,通過使用特征提取模塊對基因組序列進行特征提取,從基因組序列中學習并提取出能夠代表表觀遺傳修飾信息的特征表示。由于預測模型是在多物種數據上訓練的,特征提取模塊能夠學習到跨物種的共性特征。這些共性特征在不同物種的基因組序列中都是存在的,因此可以用于跨物種的預測。將特征表示輸入多任務學習模型中,該模型能夠同時處理多種表觀遺傳修飾類型的預測任務。多任務學習模型會根據輸入的基因組序列的特征表示,同時預測多種表觀遺傳修飾類型,并給出每種修飾類型的修飾水平數據。本專利技術通過結合特征提取模塊和多任務學習模型,實現了跨物種的預測能力,能夠更準確地預測多種表觀遺傳修飾類型的修飾水平數據。可廣泛應用于植物表觀遺傳學研究、農業生產以及生物多樣性保護等領域。
36、本專利技術的其他特征和優點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本專利技術而了解。本專利技術的目的和其他優點在說明書、權利要求書以及附圖中所特別指出的結構來實現和獲得。
37、為使本專利技術的上述目的、特征和優點能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細說明如下。
本文檔來自技高網...【技術保護點】
1.一種多物種表觀遺傳修飾預測方法,其特征在于,包括:
2.根據權利要求1所述的多物種表觀遺傳修飾預測方法,其特征在于,所述基于特征提取模塊對所述基因組序列進行特征提取,得到特征表示,包括:
3.根據權利要求2所述的多物種表觀遺傳修飾預測方法,其特征在于,所述特征提取模塊包括第一卷積模塊、多個殘差模塊、位置嵌入層以及多個Transformer編碼模塊;所述將正向序列和反向互補序列輸入所述特征提取模塊進行特征提取,得到所述特征表示,包括:
4.根據權利要求1所述的多物種表觀遺傳修飾預測方法,其特征在于,所述多物種表觀遺傳修飾預測模型通過下述方式訓練:
5.根據權利要求4所述的多物種表觀遺傳修飾預測方法,其特征在于,所述方法還包括:
6.根據權利要求1所述的多物種表觀遺傳修飾預測方法,其特征在于,所述多任務學習模型包括第二卷積模塊、全局池化層和多個物種預測頭,每個物種預測頭對應一個表觀遺傳修飾類型的預測任務;
7.一種多物種表觀遺傳修飾預測方法,其特征在于,包括:
8.一種電子設備,包括存儲器、處理器
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述多物種表觀遺傳修飾預測方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述多物種表觀遺傳修飾預測方法。
...【技術特征摘要】
1.一種多物種表觀遺傳修飾預測方法,其特征在于,包括:
2.根據權利要求1所述的多物種表觀遺傳修飾預測方法,其特征在于,所述基于特征提取模塊對所述基因組序列進行特征提取,得到特征表示,包括:
3.根據權利要求2所述的多物種表觀遺傳修飾預測方法,其特征在于,所述特征提取模塊包括第一卷積模塊、多個殘差模塊、位置嵌入層以及多個transformer編碼模塊;所述將正向序列和反向互補序列輸入所述特征提取模塊進行特征提取,得到所述特征表示,包括:
4.根據權利要求1所述的多物種表觀遺傳修飾預測方法,其特征在于,所述多物種表觀遺傳修飾預測模型通過下述方式訓練:
5.根據權利要求4所述的多物種表觀遺傳修飾預測方法,其特征在于,所述方法還包括:
6.根據權利要求1所述的多物種表觀遺傳...
【專利技術屬性】
技術研發人員:谷曉峰,謝上,田健,李東維,毛益超,劉翰林,閆若楠,王文珊,
申請(專利權)人:中國農業科學院生物技術研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。