System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲国产成人精品无码区花野真一,亚洲午夜无码久久久久小说,超清无码无卡中文字幕
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法技術(shù)

    技術(shù)編號:44330070 閱讀:2 留言:0更新日期:2025-02-18 20:37
    本發(fā)明專利技術(shù)提供一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法,包括:S1、獲取原始數(shù)據(jù)集,原始數(shù)據(jù)集中包含多個生物樣本的多個增強(qiáng)子?啟動子對數(shù)據(jù),并將原始數(shù)據(jù)集劃分為多個子集,其中,同一染色體對上的所有增強(qiáng)子啟動子對劃分到同一個子集;S2、子集進(jìn)行預(yù)處理,每個子集均包含多個數(shù)據(jù)樣本,每個數(shù)據(jù)樣本為一個增強(qiáng)子啟動子對,每個數(shù)據(jù)樣本的特征向量為對應(yīng)增強(qiáng)子啟動子對的序列特征、該增強(qiáng)子啟動子對之間的距離特征、該增強(qiáng)子啟動子對對應(yīng)的染色質(zhì)開放性特征拼接形成的特征向量,每個數(shù)據(jù)樣本的標(biāo)簽為對應(yīng)增強(qiáng)子啟動子對之間是否有相互作用;S3、基于預(yù)處理后的所有子集采用類別型特征梯度提升的方式,迭代構(gòu)建多棵對稱決策樹組成預(yù)測模型。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及生物信息學(xué)技術(shù),具體來說,涉及生物信息學(xué)中的基因調(diào)控組學(xué)領(lǐng)域,更具體地說,涉及一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法


    技術(shù)介紹

    1、真核細(xì)胞基因表達(dá)由編碼基因序列的編碼區(qū)以及調(diào)控基因表達(dá)的非編碼區(qū)共同決定。其中,順式作用元件是非編碼區(qū)中存在于基因鄰近序列中能影響基因表達(dá)的序列。順式作用元件包括啟動子、增強(qiáng)子等,它們的作用是參與基因表達(dá)的調(diào)控。精確識別基因組元件之間的相互作用是破譯轉(zhuǎn)錄調(diào)控和人類疾病風(fēng)險的核心任務(wù)。

    2、現(xiàn)有技術(shù)下,已有研究者提出多種方案來計算和預(yù)測候選順式調(diào)控元件之間的相互作用,按照不同方案采用的技術(shù)手段可將現(xiàn)有的技術(shù)分為三類:

    3、第一類,基于增強(qiáng)子和啟動子的序列構(gòu)建特征來訓(xùn)練預(yù)測模型,對實(shí)驗(yàn)數(shù)據(jù)沒有要求,例如參考文獻(xiàn)[1]、[2]、[3]中采用的方案,這些方案中的預(yù)測模型均利用提取的增強(qiáng)子和啟動子的序列特征來推斷增強(qiáng)子和啟動子之間的相互作用。其中,參考文獻(xiàn)[1]、[2]中的方案通過卷積神經(jīng)網(wǎng)絡(luò)分別提取增強(qiáng)子和啟動子的序列特征,然后將二者拼接后輸入循環(huán)神經(jīng)網(wǎng)絡(luò)來預(yù)測是否存在相互作用;參考文獻(xiàn)[3]中的方案則是將序列特征轉(zhuǎn)換為步長為1的k-mer語句,然后將這些句子通過段落矢量將每個句子嵌入到一個矢量中,拼接所有矢量后通過歸一化指數(shù)函數(shù)進(jìn)行分類。需要說明的是,基于序列預(yù)測的內(nèi)在機(jī)制是增強(qiáng)子和啟動子間的相互作用取決于具有明確序列偏好的轉(zhuǎn)錄因子的結(jié)合。第一類方案雖然基于序列,對用戶友好,因?yàn)橹恍枰斎胄蛄袛?shù)據(jù),但是這類方法忽略了如染色質(zhì)開放性等與基因調(diào)控密切相關(guān)的信息,使得增強(qiáng)子和啟動子相互作用的預(yù)測具有局限性。

    4、第二類,利用增強(qiáng)子和啟動子的序列特征以及多種類型的實(shí)驗(yàn)數(shù)據(jù)作為特征,如增強(qiáng)子和啟動子的序列、蛋白質(zhì)測序、染色質(zhì)開放區(qū)域測序甲基化測序和轉(zhuǎn)錄組測序等,例如參考0和0中的方案。其中,參考文獻(xiàn)[4]中的方案采用梯度提升樹分類器基于特征對增強(qiáng)子和啟動子是否有相互作用進(jìn)行分類,參考文獻(xiàn)[5]中的方案采用隨機(jī)森林算法基于特征預(yù)測增強(qiáng)子和啟動子是否有相互作用。第二類方案需要利用多種類型的實(shí)驗(yàn)數(shù)據(jù)作為特征,需要輸入多種組學(xué)數(shù)據(jù),需要通過實(shí)驗(yàn)獲得多種組學(xué)數(shù)據(jù),對數(shù)據(jù)要求較高,而且容易遇到過擬合問題。

    5、第三類,使用增強(qiáng)子和啟動子的序列和染色質(zhì)開放區(qū)域測序的組合特征進(jìn)行預(yù)測,可以降低對實(shí)驗(yàn)數(shù)據(jù)的要求,兼顧方便性,例如參考文獻(xiàn)[6]中的方案。其中,參考文獻(xiàn)0中的方案使用染色質(zhì)開放區(qū)域數(shù)據(jù)的組學(xué)數(shù)據(jù)信號、增強(qiáng)子和啟動子的序列特征進(jìn)行學(xué)習(xí),共同推斷增強(qiáng)子-啟動子對的相互作用。在參考文獻(xiàn)[6]的方案中,通過卷積神經(jīng)網(wǎng)絡(luò)分別提取增強(qiáng)子和啟動子的序列特征和染色質(zhì)開放區(qū)域特征,然后拼接這些特征并輸入循環(huán)神經(jīng)網(wǎng)絡(luò)后預(yù)測是否存在相互作用。第三類方案雖然綜合考慮了序列和染色質(zhì)開放區(qū)域信息,在序列數(shù)據(jù)的基礎(chǔ)上值增加了染色質(zhì)開放區(qū)域測序的需求,增加了與調(diào)控有關(guān)的信息,但對實(shí)驗(yàn)測序種類要求相對不高,既降低對數(shù)據(jù)的要求,又兼顧方便性。

    6、這些算法都在增強(qiáng)子-啟動子相互作用預(yù)測問題上取得了進(jìn)展,幫助破譯了基因調(diào)控網(wǎng)絡(luò)和疾病機(jī)制。其中,最典型的序列特征被表示為k-mers,即包含在生物序列中的長度為k的子串,k-mers頻次特征已被證明在預(yù)測多種生物相互作用方面非常有效,例如參考文獻(xiàn)0中的lncrna分類預(yù)測、參考文獻(xiàn)0中的rbp結(jié)合預(yù)測等,能夠有效地表征序列特征。但是,這些方案仍然存在一些問題。例如,既往的這些算法,都受到了不適當(dāng)?shù)慕徊骝?yàn)證方案的影響,即當(dāng)訓(xùn)練集和測試集包含相同的增強(qiáng)子,啟動子基因組位點(diǎn)時,通過有效記住訓(xùn)練過程中與每個位點(diǎn)相關(guān)的平均活動,生成的模型可能會錯誤地表現(xiàn)良好,使得增強(qiáng)子-啟動子對信息在驗(yàn)證和測試集中存在信息泄露,導(dǎo)致測試時出現(xiàn)有缺陷的數(shù)據(jù)和錯誤的高精度。

    7、需要說明的是:本
    技術(shù)介紹
    僅用于介紹本專利技術(shù)的相關(guān)信息,以便于幫助理解本專利技術(shù)的技術(shù)方案,但并不意味著相關(guān)信息必然是現(xiàn)有技術(shù)。在沒有證據(jù)表明相關(guān)信息已在本專利技術(shù)的申請日以前公開的情況下,相關(guān)信息不應(yīng)被視為現(xiàn)有技術(shù)。

    8、參考文獻(xiàn):

    9、[1]singh?s,yang?y,póczos?b,et?al.predicting?enhancer-promoterinteraction?from?genomic?sequence?with?deep?neural?networks[j].quantitativebiology,2019,7(2):122-137.

    10、[2]hong?z,zeng?x,wei?l,et?al.identifying?enhancer–promoterinteractions?with?neural?network?based?on?pre-trained?dna?vectors?andattention?mechanism[j].bioinformatics,2020,36(4):1037-1043.

    11、[3]zeng?w,wu?m,iang?r.prediction?of?enhancer-promoter?interactionsvia?natural?language?processing[j].bmc?genomics,2018,19:13-22.

    12、[4]whalen?s,truty?r?m,pollard?k?s.enhancer–promoter?interactions?areencoded?by?complex?genomic?signatures?on?looping?chromatin[j].naturegenetics,2016,48(5):488-496.

    13、[5]cao?q,anyansi?c,hu?x,et?al.reconstruction?of?enhancer–targetnetworks?in?935samples?of?human?primary?cells,tissues?and?cell?lines[j].nature?genetics,2017,49(10):1428-1436.

    14、[6]li?w,wong?w?h,jiang?r.deeptact:predicting?3d?chromatin?contactsvia?bootstrapping?deep?learning[j].nucleic?acids?research,2019,47(10):e60-e60.

    15、[7]kirk?j?m,kim?s?o,inoue?k,et?al.functional?classification?of?longnon-coding?rnas?by?k-mer?content[j].nature?genetics,2018,50(10):1474-1482.

    16、[8]bressin?a,schulte-sasse?r,figini?d,et?al.tripepsvm:de?novoprediction?of?rna-binding本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法,預(yù)測模型用于預(yù)測增強(qiáng)子啟動子之間是否有相互作用,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S1中,按照如下方式劃分子集:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟S2中,按照如下方式對每一個子集中的每個增強(qiáng)子啟動子對進(jìn)行預(yù)處理:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S22中,通過如下方式提取增強(qiáng)子序列及啟動子序列:

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,第一預(yù)設(shè)長度為3000bp,第二預(yù)設(shè)長度為2000bp。

    6.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S23中,通過如下方式獲取增強(qiáng)子序列及啟動子序列的k-mer序列特征:

    7.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S25中,通過如下方式計算增強(qiáng)子的染色質(zhì)開放性特征:

    8.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟S3中,采用CatBoost方法訓(xùn)練對稱決策樹。

    9.根據(jù)權(quán)利要求8所述的方法,其特征在于,在所述步驟S3中,采用如下?lián)p失更新決策樹的參數(shù):

    10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,其上存儲有計算機(jī)程序,所述計算機(jī)程序可被處理器執(zhí)行以實(shí)現(xiàn)權(quán)利要求1至9中任一項(xiàng)所述方法的步驟。

    11.一種電子設(shè)備,其特征在于,包括:

    ...

    【技術(shù)特征摘要】

    1.一種增強(qiáng)子啟動子調(diào)控網(wǎng)絡(luò)預(yù)測模型構(gòu)建方法,預(yù)測模型用于預(yù)測增強(qiáng)子啟動子之間是否有相互作用,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟s1中,按照如下方式劃分子集:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述步驟s2中,按照如下方式對每一個子集中的每個增強(qiáng)子啟動子對進(jìn)行預(yù)處理:

    4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述步驟s22中,通過如下方式提取增強(qiáng)子序列及啟動子序列:

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,第一預(yù)設(shè)長度為3000bp,第二預(yù)設(shè)長度為2000bp。

    6.根據(jù)權(quán)利要求3所述的方法,其特征...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:吳楊齊曉寧趙屹
    申請(專利權(quán))人:中國科學(xué)院計算技術(shù)研究所
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久久久亚洲AV无码专区| 日韩精品专区AV无码| 无码免费午夜福利片在线 | 亚洲国产精品无码久久98 | 一本一道AV无码中文字幕| 亚洲av无码精品网站| 韩国无码AV片在线观看网站| 亚洲AV无码一区东京热| 国产久热精品无码激情| 色偷偷一区二区无码视频| 潮喷失禁大喷水aⅴ无码| 亚洲最大中文字幕无码网站| 亚洲成AV人片在线播放无码| 人妻无码久久精品| 国产成人无码A区精油按摩| 亚洲AV永久无码精品| 一本一道AV无码中文字幕| 久久久无码精品亚洲日韩软件| 少妇久久久久久人妻无码| 日韩av无码一区二区三区| 亚洲av永久无码精品网站 | 中文字幕AV无码一区二区三区| 暴力强奷在线播放无码| 国产品无码一区二区三区在线 | 亚洲午夜福利精品无码| 免费无码黄十八禁网站在线观看| 亚洲av午夜精品无码专区 | 亚洲日韩看片无码电影| 日韩免费无码一区二区三区 | 成人免费无码大片A毛片抽搐| 无码人妻精品中文字幕免费东京热| 亚洲精品无码Av人在线观看国产| 国产成人无码一二三区视频| 亚洲AV蜜桃永久无码精品| 狠狠精品久久久无码中文字幕| 国产精品亚洲专区无码WEB| 无码熟熟妇丰满人妻啪啪软件| 亚洲AV无码国产一区二区三区| 国产成人无码AV片在线观看 | av无码精品一区二区三区四区 | 一本一道av中文字幕无码|