System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于基因組預測,具體涉及一種玉米基因型與環境跨模態特征融合的基因組預測方法和模型。
技術介紹
1、玉米作為全球最重要的糧食作物之一,在解決糧食安全問題和滿足世界人口溫飽需求方面具有不可替代的地位。然而,隨著全球氣候變化的加劇,糧食生產面臨著前所未有的挑戰,極端天氣和氣候不穩定性增加了糧食產量的不確定性,從而對全球糧食安全構成了重大威脅。因此,研究基因型與環境互作(g×e)的基因組預測方法在玉米育種和生產中的應用具有重要意義。
2、目前,關于g×e互作的基因組預測方法主要采用經典的統計學方法,該方法可以較好的解決g×e互作中的線性互作機制,但無法深入探討g×e互作背后復雜的非線性互作機制。現有的g×e基因組預測方法的環境數據主要采用全生育期ec協變量或分生育期ec協變量進行特征提取,該方法無法捕獲環境數據中全生育期或分生育期復雜的時序變換特征。因此現有方法對表型的最優生育期的探索有限以及預測準確率有待于進一步提高。
技術實現思路
1、本專利技術要解決的技術問題是:提供一種玉米基因型與環境跨模態特征融合的基因組預測方法和模型,用于預測玉米復雜農藝性狀的表型。
2、本專利技術為解決上述技術問題所采取的技術方案為:一種玉米基因型與環境跨模態特征融合的基因組預測方法,包括以下步驟:
3、s1:對玉米測序獲得全基因組snp數據,收集玉米種植地點的全生育期環境數據和田間農藝性狀;
4、s2:從包括高度、寬度和通道的不同維度提取和融合全基因
5、s3:捕獲和融合全生育期環境數據的多個環境因子的時序性特征,得到時序性環境特征,具體步驟為:
6、s31:采用k-means聚類方法將相似的環境因子歸為同一類別;
7、s32:通過自相關機制捕獲類內每個環境因子的全生育期時序特征;
8、s33:通過全連接神經網絡融合類內的多個環境因子的全生育期時序特征;
9、s34:通過cross-attention機制融合類間的環境因子特征;
10、s4:通過concat機制融合步驟s2得到的基因型特征和步驟s3得到的時序性環境特征;
11、s5:通過多層全連接神經網絡融合不同組學特征間的復雜關系;通過最后一層全連接神經網絡預測并輸出玉米特定材料特定性狀的表型值。
12、按上述方案,所述的步驟s1中,具體步驟為:
13、s11:對玉米群體測序得到的全基因組snp數據;對全基因組snp數據進行隨機篩選,得到全基因組中l個snp位點的基因型數據gl={g1,g2…gl},gi∈{0,1,2},i∈{1,2…l},篩選后的snp位點數據的密度與篩選前數據的密度分布保持一致;將篩選后的snp位點數據轉換為長度為l、通道數為c的矩陣x∈rl×c,r為實數域;
14、s12:收集玉米種植地點的全生育期內與光照、溫度、水分、空氣和土壤相關的環境因子;設第m天的第i個環境因子為xm,將m天內的第i個環境因子表示為數組fi={x1,x2…xm},則f個環境因子在m天內的數據是一個二維矩e∈rf×m;
15、s13:收集玉米種植地點的包括株高和產量的田間農藝性狀的表型值。
16、進一步的,所述的步驟s2中,具體步驟為:
17、s21:對全基因組snp數據構建的矩陣x∈rl×c進行patch操作,分塊得到小塊x(1)∈rh×c×p,l=h×p,每個小塊包含p個snp數據,每個小塊的高度為h;
18、設wembedding為embedding操作的權重,bembedding為embedding操作的偏置,d為embedding后的維度;對x(1)通過embedding操作進行高維特征的映射得到編碼后的塊嵌入特征yembedding∈rh×c×d:
19、yembedding=wembeddingx(1)+bembedding????(1);
20、s22:對編碼后的塊嵌入特征y提取包括高度、寬度和通道的多維塊內特征、捕獲塊的位置信息和塊間的特征關系;
21、s23:對步驟s22提取的特征向量y進行全局平均池化操作,設yc,h,d為輸入的特征向量的第c通道、第h行、第d列的元素,則全局特征融合輸出的基因型特征g為:
22、
23、進一步的,所述的步驟s22中,具體步驟為:
24、s221:設xi表示第i層神經元的輸入,σi2表示輸入的均值與方差,ε取默認值1e-5;對編碼后的塊嵌入特征進行層歸一化處理layernorm,用于加快模型訓練速度以及保持特征的平移和縮放不變:
25、
26、s222:對層歸一化處理后的特征通過froward?transpose操作進行通道維度變換,將對應的維度轉置到最后,輸出為x(2)∈rh×d×c;
27、s223:設w1和w2分別表示兩層線性映射的權重,b1和b2為兩層線性映射的偏置,σ表示激活函數gelu,將通道維度變換后的特征進行兩層通道維度mlp操作提取通道維度的重要特征x(3)為:
28、x(3)=σ(w2σ(w1x(2)+b1)+b2)????(3),
29、其中,激活函數gelu用于將捕獲到的線性特征非線性化:
30、gelu(x)=xp(x≤x)x~ν(0,1)????(4);
31、s224:通過back?transpose操作還原通道維度,將mlp操作輸出的x(3)∈rh×d×c調整為y(1)∈rh×c×d作為下一層的輸入;
32、s225:重復執行步驟s221至s224,依次提取包括高度、寬度和通道的不同維度的特征。
33、按上述方案,所述的步驟s31中,具體步驟為:
34、s311:設fj為第j個環境因子,μj為第j類的中心點,第j個數據點所屬的簇的索引cj為:
35、
36、ci為第i類環境因子的集合,隨機化類中心μi為:
37、
38、s312:設k為類別數,將環境因子分配給最近的類,求目標函數j:
39、
40、s313:定義新的類中心為屬于該類的環境因子的中心;
41、s314:重復步驟s312、s313以最小化目標函數j。
42、進一步的,所述的步驟s32中,具體步驟為:
43、通過自相關機制將環境因子序列fi線性映射為查詢向量q、鍵向量k、值向量v,設wq為查詢向量q的權重矩陣,wk為鍵向量k的權重矩陣,wv為值向量v的權重矩陣:
44、q=wqfi????(9),
45、k=wkfi????(10),
46、v=wvfi????(11);
47、基于wiener-khinchi理論,通過快速傅里葉變換fft將本文檔來自技高網...
【技術保護點】
1.一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟S1中,具體步驟為:
3.根據權利要求2所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟S2中,具體步驟為:
4.根據權利要求3所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟S22中,具體步驟為:
5.根據權利要求1所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟S31中,具體步驟為:
6.根據權利要求5所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟S32中,具體步驟為:
7.根據權利要求6所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟S34中,具體步驟為:
8.根據權利要求3或7所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的
9.根據權利要求8所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟S5中,具體步驟為:
10.一種玉米基因型與環境跨模態特征融合的基因組預測模型,其特征在于:基于權利要求1至9中任一項所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法構建;
...【技術特征摘要】
1.一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟s1中,具體步驟為:
3.根據權利要求2所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟s2中,具體步驟為:
4.根據權利要求3所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟s22中,具體步驟為:
5.根據權利要求1所述的一種玉米基因型與環境跨模態特征融合的基因組預測方法,其特征在于:所述的步驟s31中,具體步驟為:
6.根據權利要求5所述的一種玉米基...
【專利技術屬性】
技術研發人員:劉建曉,姚州,郭竣豪,卜夢佳,方文婕,王創,
申請(專利權)人:華中農業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。