System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及生物信息學(xué)技術(shù),具體來說,涉及生物信息學(xué)中的基因調(diào)控組學(xué)領(lǐng)域,更具體地說,涉及一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法。
技術(shù)介紹
1、真核細(xì)胞基因表達(dá)由編碼基因序列的編碼區(qū)以及調(diào)控基因表達(dá)的非編碼區(qū)共同決定。其中,順式作用元件是非編碼區(qū)中存在于基因鄰近序列中能影響基因表達(dá)的序列。順式作用元件包括啟動子、增強(qiáng)子等,它們的作用是參與基因表達(dá)的調(diào)控。精確識別基因組元件之間的相互作用是破譯轉(zhuǎn)錄調(diào)控和人類疾病風(fēng)險的核心任務(wù)。
2、現(xiàn)有技術(shù)下,已有研究者提出多種方案來計算和預(yù)測候選順式調(diào)控元件之間的相互作用,按照不同方案采用的技術(shù)手段可將現(xiàn)有的技術(shù)分為三類:
3、第一類,基于增強(qiáng)子和啟動子的序列構(gòu)建特征來訓(xùn)練預(yù)測模型,對實(shí)驗(yàn)數(shù)據(jù)沒有要求,例如參考文獻(xiàn)[1]、[2]、[3]中采用的方案,這些方案中的預(yù)測模型均利用提取的增強(qiáng)子和啟動子的序列特征來推斷增強(qiáng)子和啟動子之間的相互作用。其中,參考文獻(xiàn)[1]、[2]中的方案通過卷積神經(jīng)網(wǎng)絡(luò)分別提取增強(qiáng)子和啟動子的序列特征,然后將二者拼接后輸入循環(huán)神經(jīng)網(wǎng)絡(luò)來預(yù)測是否存在相互作用;參考文獻(xiàn)[3]中的方案則是將序列特征轉(zhuǎn)換為步長為1的k-mer語句,然后將這些句子通過段落矢量將每個句子嵌入到一個矢量中,拼接所有矢量后通過歸一化指數(shù)函數(shù)進(jìn)行分類。需要說明的是,基于序列預(yù)測的內(nèi)在機(jī)制是增強(qiáng)子和啟動子間的相互作用取決于具有明確序列偏好的轉(zhuǎn)錄因子的結(jié)合。第一類方案雖然基于序列,對用戶友好,因?yàn)橹恍枰斎胄蛄袛?shù)據(jù),但是這類方法忽略了如染色質(zhì)開放性等與基因調(diào)控密切相關(guān)的信息,使得增
4、第二類,利用增強(qiáng)子和啟動子的序列特征以及多種類型的實(shí)驗(yàn)數(shù)據(jù)作為特征,如增強(qiáng)子和啟動子的序列、蛋白質(zhì)測序、染色質(zhì)開放區(qū)域測序甲基化測序和轉(zhuǎn)錄組測序等,例如參考0和0中的方案。其中,參考文獻(xiàn)[4]中的方案采用梯度提升樹分類器基于特征對增強(qiáng)子和啟動子是否有相互作用進(jìn)行分類,參考文獻(xiàn)[5]中的方案采用隨機(jī)森林算法基于特征預(yù)測增強(qiáng)子和啟動子是否有相互作用。第二類方案需要利用多種類型的實(shí)驗(yàn)數(shù)據(jù)作為特征,需要輸入多種組學(xué)數(shù)據(jù),需要通過實(shí)驗(yàn)獲得多種組學(xué)數(shù)據(jù),對數(shù)據(jù)要求較高,而且容易遇到過擬合問題。
5、第三類,使用增強(qiáng)子和啟動子的序列和染色質(zhì)開放區(qū)域測序的組合特征進(jìn)行預(yù)測,可以降低對實(shí)驗(yàn)數(shù)據(jù)的要求,兼顧方便性,例如參考文獻(xiàn)[6]中的方案。其中,參考文獻(xiàn)0中的方案使用染色質(zhì)開放區(qū)域數(shù)據(jù)的組學(xué)數(shù)據(jù)信號、增強(qiáng)子和啟動子的序列特征進(jìn)行學(xué)習(xí),共同推斷增強(qiáng)子-啟動子對的相互作用。在參考文獻(xiàn)[6]的方案中,通過卷積神經(jīng)網(wǎng)絡(luò)分別提取增強(qiáng)子和啟動子的序列特征和染色質(zhì)開放區(qū)域特征,然后拼接這些特征并輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后預(yù)測是否存在相互作用。第三類方案雖然綜合考慮了序列和染色質(zhì)開放區(qū)域信息,在序列數(shù)據(jù)的基礎(chǔ)上值增加了染色質(zhì)開放區(qū)域測序的需求,增加了與調(diào)控有關(guān)的信息,但對實(shí)驗(yàn)測序種類要求相對不高,既降低對數(shù)據(jù)的要求,又兼顧方便性。
6、這些算法都在增強(qiáng)子-啟動子相互作用預(yù)測問題上取得了進(jìn)展,幫助破譯了基因調(diào)控網(wǎng)絡(luò)和疾病機(jī)制。其中,最典型的序列特征被表示為k-mers,即包含在生物序列中的長度為k的子串,k-mers頻次特征已被證明在預(yù)測多種生物相互作用方面非常有效,例如參考文獻(xiàn)0中的lncrna分類預(yù)測、參考文獻(xiàn)0中的rbp結(jié)合預(yù)測等,能夠有效地表征序列特征。但是,這些方案仍然存在一些問題。例如,既往的這些算法,都受到了不適當(dāng)?shù)慕徊骝?yàn)證方案的影響,即當(dāng)訓(xùn)練集和測試集包含相同的增強(qiáng)子,啟動子基因組位點(diǎn)時,通過有效記住訓(xùn)練過程中與每個位點(diǎn)相關(guān)的平均活動,生成的模型可能會錯誤地表現(xiàn)良好,使得增強(qiáng)子-啟動子對信息在驗(yàn)證和測試集中存在信息泄露,導(dǎo)致測試時出現(xiàn)有缺陷的數(shù)據(jù)和錯誤的高精度。
7、需要說明的是:本
技術(shù)介紹
僅用于介紹本專利技術(shù)的相關(guān)信息,以便于幫助理解本專利技術(shù)的技術(shù)方案,但并不意味著相關(guān)信息必然是現(xiàn)有技術(shù)。在沒有證據(jù)表明相關(guān)信息已在本專利技術(shù)的申請日以前公開的情況下,相關(guān)信息不應(yīng)被視為現(xiàn)有技術(shù)。
8、參考文獻(xiàn):
9、[1]singh?s,yang?y,póczos?b,et?al.predicting?enhancer-promoterinteraction?from?genomic?sequence?with?deep?neural?networks[j].quantitativebiology,2019,7(2):122-137.
10、[2]hong?z,zeng?x,wei?l,et?al.identifying?enhancer–promoterinteractions?with?neural?network?based?on?pre-trained?dna?vectors?andattention?mechanism[j].bioinformatics,2020,36(4):1037-1043.
11、[3]zeng?w,wu?m,iang?r.prediction?of?enhancer-promoter?interactionsvia?natural?language?processing[j].bmc?genomics,2018,19:13-22.
12、[4]whalen?s,truty?r?m,pollard?k?s.enhancer–promoter?interactions?areencoded?by?complex?genomic?signatures?on?looping?chromatin[j].naturegenetics,2016,48(5):488-496.
13、[5]cao?q,anyansi?c,hu?x,et?al.reconstruction?of?enhancer–targetnetworks?in?935samples?of?human?primary?cells,tissues?and?cell?lines[j].nature?genetics,2017,49(10):1428-1436.
14、[6]li?w,wong?w?h,jiang?r.deeptact:predicting?3d?chromatin?contactsvia?bootstrapping?deep?learning[j].nucleic?acids?research,2019,47(10):e60-e60.
15、[7]kirk?j?m,kim?s?o,inoue?k,et?al.functional?classification?of?longnon-coding?rnas?by?k-mer?content[j].nature?genetics,2018,50(10):1474-1482.
16、[8]bressin?a,schulte-sasse?r,figini?d,et?al.tripepsvm:de?novoprediction?of?rna-binding本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法,預(yù)測模型用于預(yù)測增強(qiáng)子啟動子之間是否有相互作用,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S1中,按照如下方式劃分子集:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟S2中,按照如下方式對每一個子集中的每個增強(qiáng)子啟動子對進(jìn)行預(yù)處理:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S22中,通過如下方式提取增強(qiáng)子序列及啟動子序列:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,第一預(yù)設(shè)長度為3000bp,第二預(yù)設(shè)長度為2000bp。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S23中,通過如下方式獲取增強(qiáng)子序列及啟動子序列的k-mer序列特征:
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S25中,通過如下方式計算增強(qiáng)子的染色質(zhì)開放性特征:
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S3中,采用CatBoost方法訓(xùn)練對稱決策樹。
9.根據(jù)權(quán)利要求8所述的方法,其特征
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,其上存儲有計算機(jī)程序,所述計算機(jī)程序可被處理器執(zhí)行以實(shí)現(xiàn)權(quán)利要求1至9中任一項(xiàng)所述方法的步驟。
11.一種電子設(shè)備,其特征在于,包括:
...【技術(shù)特征摘要】
1.一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法,預(yù)測模型用于預(yù)測增強(qiáng)子啟動子之間是否有相互作用,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟s1中,按照如下方式劃分子集:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟s2中,按照如下方式對每一個子集中的每個增強(qiáng)子啟動子對進(jìn)行預(yù)處理:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟s22中,通過如下方式提取增強(qiáng)子序列及啟動子序列:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,第一預(yù)設(shè)長度為3000bp,第二預(yù)設(shè)長度為2000bp。
6.根據(jù)權(quán)利要求3所述的方法,其特征...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:吳楊,齊曉寧,趙屹,
申請(專利權(quán))人:中國科學(xué)院計算技術(shù)研究所,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。