System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于基因分析,具體涉及基于共進(jìn)化特征分析的基因預(yù)測(cè)方法。
技術(shù)介紹
1、準(zhǔn)確識(shí)別和預(yù)測(cè)基因的功能區(qū)域,特別是啟動(dòng)子、外顯子和終止子等編碼區(qū)域,對(duì)于理解基因的調(diào)控機(jī)制和功能具有重要意義,然而,傳統(tǒng)的基因預(yù)測(cè)方法主要依賴于序列保守性特征,未能充分利用序列之間的協(xié)同進(jìn)化信息,導(dǎo)致預(yù)測(cè)準(zhǔn)確性受限。
2、目前的基因預(yù)測(cè)方法多依賴于序列的一級(jí)結(jié)構(gòu)信息或簡單的保守性分析,忽視了序列位點(diǎn)之間的協(xié)同進(jìn)化關(guān)系,這些協(xié)同進(jìn)化關(guān)系往往蘊(yùn)含著重要的功能信息,在進(jìn)行多序列比對(duì)時(shí),傳統(tǒng)方法較少考慮序列比對(duì)的質(zhì)量差異,可能導(dǎo)致噪聲信息的引入,影響預(yù)測(cè)精度;采用現(xiàn)有方法對(duì)農(nóng)作物基因組進(jìn)行預(yù)測(cè)時(shí),往往不能呈現(xiàn)出很好的效果,例如,針對(duì)水稻基因組,水稻基因組結(jié)構(gòu)復(fù)雜,包含大量的重復(fù)序列和轉(zhuǎn)座子元件,水稻亞種間存在顯著的基因組差異,需要考慮種群遺傳多樣性對(duì)基因結(jié)構(gòu)的影響,水稻基因表達(dá)具有組織特異性和時(shí)空特異性,這些調(diào)控特征往往體現(xiàn)在序列的微妙變化上,增加了準(zhǔn)確預(yù)測(cè)的難度。
3、因此,亟需一種基因預(yù)測(cè)方法,能夠綜合利用序列共進(jìn)化特征和保守性特征的基因預(yù)測(cè)方法,以提基因預(yù)測(cè)的準(zhǔn)確性。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供基于基于共進(jìn)化特征分析的基因預(yù)測(cè)方法,結(jié)合網(wǎng)絡(luò)拓?fù)涮卣骱托蛄斜J匦蕴卣鳎褂蒙疃葘W(xué)習(xí)模型達(dá)到了進(jìn)行潛在編碼區(qū)域預(yù)測(cè)的目的。
2、本專利技術(shù)的方案如下:
3、基于共進(jìn)化特征分析的基因預(yù)測(cè)方法,所述方法包括以下步驟:
4、步驟s1,構(gòu)建多物種同源序列
5、步驟s2,計(jì)算序列位點(diǎn)間的互信息值,基于所述比對(duì)質(zhì)量得分得到加權(quán)互信息值,根據(jù)加權(quán)互信息值的顯著性分析結(jié)果構(gòu)建共進(jìn)化特征網(wǎng)絡(luò),并進(jìn)行網(wǎng)絡(luò)修剪。
6、步驟s3,基于修剪后的共進(jìn)化特征網(wǎng)絡(luò),提取網(wǎng)絡(luò)拓?fù)涮卣鳎瑫r(shí)計(jì)算序列保守性特征,并將兩類特征結(jié)合形成綜合特征向量。
7、步驟s4,采用深度學(xué)習(xí)模型構(gòu)建分類器,使用所述綜合特征向量訓(xùn)練分類器參數(shù)。
8、步驟s5,對(duì)待預(yù)測(cè)序列,提取其特征向量并輸入所述分類器,輸出潛在編碼區(qū)域的位置信息,所述編碼區(qū)域包括啟動(dòng)子區(qū)域、外顯子區(qū)域和終止子區(qū)域。
9、進(jìn)一步的,所述采用多序列比對(duì)算法對(duì)所述同源序列數(shù)據(jù)集進(jìn)行比對(duì),得到比對(duì)質(zhì)量得分的具體步驟為:
10、步驟s11,計(jì)算序列兩兩之間的距離矩陣,其中表示序列和的編輯距離,,為同源序列數(shù)據(jù)集中的序列總數(shù)。
11、步驟s12,基于距離矩陣,采用upgma聚類方法構(gòu)建引導(dǎo)樹。
12、步驟s13,按照引導(dǎo)樹的分支順序,依次對(duì)序列或序列組進(jìn)行比對(duì)。
13、步驟s14,使用加權(quán)求和公式計(jì)算比對(duì)質(zhì)量得分:,其中為第個(gè)序列的權(quán)重系數(shù),通過序列相似度歸一化得到,為第個(gè)序列的得分,取值范圍[0,1],由blosum62替換矩陣計(jì)算得到。
14、進(jìn)一步的,所述計(jì)算序列位點(diǎn)間的互信息值,基于所述比對(duì)質(zhì)量得分得到加權(quán)互信息值包括:
15、統(tǒng)計(jì)位點(diǎn)和的聯(lián)合頻率分布,記為位點(diǎn)和上堿基對(duì)的聯(lián)合出現(xiàn)頻率,其中,符號(hào)“”表示空位。
16、則邊緣頻率分布:,;為位點(diǎn)上堿基的邊緣概率分布,為位點(diǎn)上堿基的邊緣概率分布,是求和變量,表示遍歷所有可能的堿基類型。
17、位點(diǎn)和之間的互信息值:;結(jié)合比對(duì)質(zhì)量得分,計(jì)算加權(quán)互信息值:,其中為位點(diǎn)對(duì)對(duì)應(yīng)的比對(duì)質(zhì)量得分。
18、通過z-score標(biāo)準(zhǔn)化獲得標(biāo)準(zhǔn)化互信息值:
19、,其中,為加權(quán)互信息值的均值,為加權(quán)互信息值的標(biāo)準(zhǔn)差。
20、進(jìn)一步的,所述根據(jù)加權(quán)互信息值的顯著性分析結(jié)果構(gòu)建共進(jìn)化特征網(wǎng)絡(luò),并進(jìn)行網(wǎng)絡(luò)修剪包括:
21、將所述標(biāo)準(zhǔn)化互信息值作為共進(jìn)化特征網(wǎng)絡(luò)中位點(diǎn)和連接形成的邊的顯著性分?jǐn)?shù),設(shè)定自適應(yīng)閾值,當(dāng)時(shí)刪除該邊,其中為基準(zhǔn)閾值,取值范圍為[0.5,2],根據(jù)數(shù)據(jù)集特征自適應(yīng)調(diào)整。
22、進(jìn)一步的,所述網(wǎng)絡(luò)拓?fù)涮卣靼ǎ汗?jié)點(diǎn)的度中心性、節(jié)點(diǎn)的加權(quán)介數(shù)中心性、節(jié)點(diǎn)的加權(quán)接近中心性、考慮互信息權(quán)重的網(wǎng)絡(luò)聚類系數(shù)、考慮互信息權(quán)重的網(wǎng)絡(luò)平均最短路徑長度。
23、所述節(jié)點(diǎn)的度中心性,用于表征位點(diǎn)的共進(jìn)化重要性:,其中,為節(jié)點(diǎn)的度,n為網(wǎng)絡(luò)節(jié)點(diǎn)總數(shù)。
24、所述節(jié)點(diǎn)的加權(quán)介數(shù)中心性,用于表征位點(diǎn)在共進(jìn)化網(wǎng)絡(luò)中的中介作用:,其中,為經(jīng)過節(jié)點(diǎn)時(shí)節(jié)點(diǎn)和之間的最短路徑數(shù),為節(jié)點(diǎn)和之間的最短路徑總數(shù),且。
25、所述節(jié)點(diǎn)的加權(quán)接近中心性,用于表征位點(diǎn)與其他位點(diǎn)的共進(jìn)化緊密程度:,其中,為節(jié)點(diǎn)到節(jié)點(diǎn)的最短距離。
26、所述考慮互信息權(quán)重的網(wǎng)絡(luò)聚類系數(shù),用于表征局部共進(jìn)化模塊的緊密程度:
27、;其中,為節(jié)點(diǎn)的鄰居之間的實(shí)際連接數(shù),為節(jié)點(diǎn)相關(guān)的平均加權(quán)互信息值。
28、所述考慮互信息權(quán)重的網(wǎng)絡(luò)平均最短路徑長度,用于表征全局共進(jìn)化信號(hào)的傳播效率:
29、,其中,為節(jié)點(diǎn)和之間的最短距離。
30、進(jìn)一步的,所述序列保守性特征包括:考慮比對(duì)質(zhì)量的shannon熵、考慮比對(duì)質(zhì)量的核苷酸多樣性、考慮比對(duì)質(zhì)量的進(jìn)化速率。
31、所述考慮比對(duì)質(zhì)量的shannon熵:;所述考慮比對(duì)質(zhì)量的核苷酸多樣性:,所述考慮比對(duì)質(zhì)量的進(jìn)化速率:,其中,為非同義替換率,為同義替換率。
32、進(jìn)一步的,所述分類器采用深度學(xué)習(xí)模型,所述深度學(xué)習(xí)模型包括:輸入層、隱藏層和輸出層;
33、所述輸入層接收特征向量,其中包含網(wǎng)絡(luò)拓?fù)涮卣骱托蛄斜J匦蕴卣鳌?/p>
34、所述隱藏層包含3個(gè)全連接層,第層的計(jì)算式為:,其中,為權(quán)重矩陣,為偏置向量,,為輸入特征向量,各隱藏層的維度依次為,v為輸入特征維度,權(quán)重矩陣的初始化與輸入特征的量級(jí)相適應(yīng)。
35、所述輸出層使用softmax函數(shù)計(jì)算每個(gè)類別的概率:,其中,第類的權(quán)重向量;表示第類權(quán)重向量與最后一個(gè)隱藏層輸出的點(diǎn)積,的取值范圍是{1,2,3},表示編碼區(qū)域的類型,包括啟動(dòng)子、外顯子和終止子,。
36、進(jìn)一步的,所述基因預(yù)測(cè)結(jié)果的評(píng)估采用指標(biāo)包括:靈敏度、特異度、f1分?jǐn)?shù)和matthew相關(guān)系數(shù)。
37、靈敏度:;
38、特異度:;
39、f1分?jǐn)?shù):;
40、matthew相關(guān)系數(shù):;其中,;tp表示真陽性數(shù)量,tn表示真陰性數(shù)量,fp表示假陽性數(shù)量,fn表示假陰性數(shù)量。
41、本專利技術(shù)與現(xiàn)有技術(shù)相比,其有益效果是:
42、本專利技術(shù)通過構(gòu)建多物種同源序列數(shù)據(jù)集并引入比對(duì)質(zhì)量評(píng)分機(jī)制,結(jié)合加權(quán)互信息值計(jì)算和自適應(yīng)網(wǎng)絡(luò)修剪策略,建立了基于共進(jìn)化特征的預(yù)測(cè)模型,不僅提高了作物基因組中基因預(yù)測(cè)的準(zhǔn)確性,而且增強(qiáng)了預(yù)測(cè)方法對(duì)不同質(zhì)量序列數(shù)據(jù)的適應(yīng)能力;通過整合網(wǎng)絡(luò)拓?fù)涮卣骱托蛄斜J匦蕴卣餍纬傻木C合特征向量,結(jié)合專門設(shè)計(jì)的深度學(xué)習(xí)分類架構(gòu),使得該方法能夠同時(shí)捕獲序列的局部和全本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.基于共進(jìn)化特征分析的基因預(yù)測(cè)方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基因預(yù)測(cè)方法,其特征在于,所述采用多序列比對(duì)算法對(duì)所述同源序列數(shù)據(jù)集進(jìn)行比對(duì),得到比對(duì)質(zhì)量得分的具體步驟為:
3.根據(jù)權(quán)利要求2所述的基因預(yù)測(cè)方法,其特征在于,所述計(jì)算序列位點(diǎn)間的互信息值,基于所述比對(duì)質(zhì)量得分得到加權(quán)互信息值包括:
4.根據(jù)權(quán)利要求3所述的基因預(yù)測(cè)方法,其特征在于,所述根據(jù)加權(quán)互信息值的顯著性分析結(jié)果構(gòu)建共進(jìn)化特征網(wǎng)絡(luò),并進(jìn)行網(wǎng)絡(luò)修剪包括:
5.根據(jù)權(quán)利要求4所述的基因預(yù)測(cè)方法,其特征在于,所述網(wǎng)絡(luò)拓?fù)涮卣靼ǎ汗?jié)點(diǎn)的度中心性、節(jié)點(diǎn)的加權(quán)介數(shù)中心性、節(jié)點(diǎn)的加權(quán)接近中心性、考慮互信息權(quán)重的網(wǎng)絡(luò)聚類系數(shù)、考慮互信息權(quán)重的網(wǎng)絡(luò)平均最短路徑長度;
6.根據(jù)權(quán)利要求5所述的基因預(yù)測(cè)方法,其特征在于,所述序列保守性特征包括:考慮比對(duì)質(zhì)量的Shannon熵、考慮比對(duì)質(zhì)量的核苷酸多樣性、考慮比對(duì)質(zhì)量的進(jìn)化速率;
7.根據(jù)權(quán)利要求6所述的基因預(yù)測(cè)方法,其特征在于,所述分類器采用深度學(xué)習(xí)模型,所述深度學(xué)習(xí)模型包括:
8.根據(jù)權(quán)利要求7所述的基因預(yù)測(cè)方法,其特征在于,所述基因預(yù)測(cè)結(jié)果的評(píng)估采用指標(biāo)包括:靈敏度、特異度、F1分?jǐn)?shù)和Matthew相關(guān)系數(shù);
...【技術(shù)特征摘要】
1.基于共進(jìn)化特征分析的基因預(yù)測(cè)方法,其特征在于,所述方法包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基因預(yù)測(cè)方法,其特征在于,所述采用多序列比對(duì)算法對(duì)所述同源序列數(shù)據(jù)集進(jìn)行比對(duì),得到比對(duì)質(zhì)量得分的具體步驟為:
3.根據(jù)權(quán)利要求2所述的基因預(yù)測(cè)方法,其特征在于,所述計(jì)算序列位點(diǎn)間的互信息值,基于所述比對(duì)質(zhì)量得分得到加權(quán)互信息值包括:
4.根據(jù)權(quán)利要求3所述的基因預(yù)測(cè)方法,其特征在于,所述根據(jù)加權(quán)互信息值的顯著性分析結(jié)果構(gòu)建共進(jìn)化特征網(wǎng)絡(luò),并進(jìn)行網(wǎng)絡(luò)修剪包括:
5.根據(jù)權(quán)利要求4所述的基因預(yù)測(cè)方法,其特征在于,所述網(wǎng)絡(luò)拓?fù)涮卣靼ǎ汗?jié)點(diǎn)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李慧慧,高尚,何坤輝,馮英偉,
申請(qǐng)(專利權(quán))人:中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。