• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種啟動子識別系統(tǒng)的構(gòu)建方法和裝置制造方法及圖紙

    技術(shù)編號:11869380 閱讀:130 留言:0更新日期:2015-08-12 19:03
    本發(fā)明專利技術(shù)的啟動子識別系統(tǒng)的構(gòu)建方法和裝置,將包含多條基因序列的數(shù)據(jù)集劃分為具有預(yù)設(shè)屬性的第一數(shù)據(jù)子集和不具有預(yù)設(shè)屬性的第二數(shù)據(jù)子集;并分別提取第一、第二數(shù)據(jù)子集的多種預(yù)設(shè)特征,所述預(yù)設(shè)特征包括基因剛性特征;之后,對特征提取所得的多個特征數(shù)據(jù)集合進(jìn)行建模,得到構(gòu)成啟動子識別系統(tǒng)所需的各個子分類器模型??梢?,本發(fā)明專利技術(shù)在構(gòu)建人類基因啟動子識別系統(tǒng)時,考慮了基因結(jié)構(gòu)特征(如基因剛性特征),通過提取基因數(shù)據(jù)的基因剛性特征,并將提取的基因剛性特征作為訓(xùn)練數(shù)據(jù)進(jìn)行建模,使最終的識別系統(tǒng)具備了結(jié)合基因結(jié)構(gòu)特征識別啟動子的能力,提升了系統(tǒng)的識別性能。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)屬于基因啟動子的預(yù)測與識別
    ,尤其涉及一種啟動子識別系統(tǒng)的 構(gòu)建方法和裝置。
    技術(shù)介紹
    當(dāng)前,人類基因表達(dá)調(diào)控已成為一個極具挑戰(zhàn)性的研宄方向,而啟動子識別對整 個基因組功能的詮釋具有重要作用,因此如何又好又快地識別人類啟動子,成為本領(lǐng)域的 一個研宄熱點。 現(xiàn)有的啟動子識別系統(tǒng)不具備基于基因結(jié)構(gòu)特征識別啟動子的能力,即無法 利用基因的結(jié)構(gòu)特征來識別啟動子。譬如,梅麗等人在《Human Promoter Recognition Algorithm》中設(shè)計的基于SVM(支持向量機(jī),Support Vector Machine)的啟動子分類 識別算法,共包含兩級分類系統(tǒng),分別基于基因的CpG島特征及KL (Kul lback - LeibIer divergence,相對j:商)詞頻統(tǒng)計特征來識別啟動子,不具備結(jié)合基因結(jié)構(gòu)特征識別啟動子 的能力,導(dǎo)致系統(tǒng)的識別性能較差。
    技術(shù)實現(xiàn)思路
    有鑒于此,本專利技術(shù)的目的在于提供一種啟動子識別系統(tǒng)的構(gòu)建方法和裝置,旨在 解決現(xiàn)有識別系統(tǒng)因不具備利用基因結(jié)構(gòu)特征識別啟動子的能力,而導(dǎo)致識別性能較差這 一問題。 為此,本專利技術(shù)公開如下技術(shù)方案: -種啟動子識別系統(tǒng)的構(gòu)建方法,包括: 將包含N條基因序列的數(shù)據(jù)集劃分為第一數(shù)據(jù)子集和第二數(shù)據(jù)子集,所述第一數(shù) 據(jù)子集具有預(yù)設(shè)屬性; 分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基因序列的P種預(yù)設(shè)特 征,相應(yīng)得到P個第一訓(xùn)練特征子集及P個第二訓(xùn)練特征子集;所述預(yù)設(shè)特征包括基因剛性 特征,N、P為大于1的自然數(shù); 分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練特征子集進(jìn)行分類建模, 得到P個第一子分類器模型及P個第二分類器模型,各個所述子分類器模型構(gòu)成啟動子識 別系統(tǒng)的分類識別模型。 上述方法,優(yōu)選的,所述預(yù)設(shè)屬性為基因的CG堿基偏好。 上述方法,優(yōu)選的,所述預(yù)設(shè)特征還包括CpG島特征及相對j:商KL詞頻統(tǒng)計特征。 上述方法,優(yōu)選的,所述分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基 因序列的P種預(yù)設(shè)特征,相應(yīng)得到P個第一訓(xùn)練特征子集及P個第二訓(xùn)練特征子集,包括: 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的基因剛性特征,得到第一 剛性特征子集及第二剛性特征子集; 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的CpG島特征,得到第一 CpG島特征子集及第二CpG島特征特征子集; 分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的KL詞頻統(tǒng)計特征,得到 第一 KL詞頻統(tǒng)計特征子集及第二KL詞頻統(tǒng)計特征子集。 上述方法,優(yōu)選的,所述分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練特 征子集進(jìn)行分類建模為: 使用支持向量機(jī)SVM模型分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練 特征子集進(jìn)行分類建模。 上述方法,優(yōu)選的,還包括: 利用構(gòu)建的所述分類識別模型對待測數(shù)據(jù)進(jìn)行類別判決,以識別所述待測數(shù)據(jù)是 否為啟動子。 一種啟動子識別系統(tǒng)的構(gòu)建裝置,包括: 劃分模塊,用于將包含N條基因序列的數(shù)據(jù)集劃分為第一數(shù)據(jù)子集和第二數(shù)據(jù)子 集,所述第一數(shù)據(jù)子集具有預(yù)設(shè)屬性; 特征提取模塊,用于分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基因序 列的P種預(yù)設(shè)特征,相應(yīng)得到P個第一訓(xùn)練特征子集及P個第二訓(xùn)練特征子集;所述預(yù)設(shè)特 征包括基因剛性特征,N、P為大于1的自然數(shù); 建模模塊,用于分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練特征子集 進(jìn)行分類建模,得到P個第一子分類器模型及P個第二分類器模型,各個所述子分類器模型 構(gòu)成啟動子識別系統(tǒng)的分類識別模型。 上述裝置,優(yōu)選的,所述特征提取模塊包括: 第一特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 基因剛性特征,得到第一剛性特征子集及第二剛性特征子集; 第二特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 CpG島特征,得到第一 CpG島特征子集及第二CpG島特征特征子集; 第三特征提取單元,用于分別提取第一數(shù)據(jù)子集及第二數(shù)據(jù)子集中各基因序列的 KL詞頻統(tǒng)計特征,得到第一 KL詞頻統(tǒng)計特征子集及第二KL詞頻統(tǒng)計特征子集。 上述裝置,優(yōu)選的,所述建模模塊為: 建模單元,用于使用支持向量機(jī)SVM模型分別對所述P個第一訓(xùn)練特征子集及所 述P個第二訓(xùn)練特征子集進(jìn)行分類建模。 上述裝置,優(yōu)選的,還包括: 識別模塊,用于利用構(gòu)建的所述分類識別模型對待測數(shù)據(jù)進(jìn)行類別判決,以識別 所述待測數(shù)據(jù)是否為啟動子。 由以上方案可知,本專利技術(shù)將包含多條基因序列的數(shù)據(jù)集劃分為具有預(yù)設(shè)屬性的第 一數(shù)據(jù)子集和不具有預(yù)設(shè)屬性的第二數(shù)據(jù)子集;并分別提取第一、第二數(shù)據(jù)子集的多種預(yù) 設(shè)特征,所述預(yù)設(shè)特征包括基因剛性特征;之后,對特征提取所得的多個特征數(shù)據(jù)集合進(jìn)行 建模,得到構(gòu)成啟動子識別系統(tǒng)所需的各個子分類器模型??梢?,本專利技術(shù)在構(gòu)建人類基因啟 動子識別系統(tǒng)時,考慮了基因結(jié)構(gòu)特征(如基因剛性特征),通過提取基因數(shù)據(jù)的基因剛性 特征,并將提取的基因剛性特征作為訓(xùn)練數(shù)據(jù)進(jìn)行建模,使最終的識別系統(tǒng)具備了結(jié)合基 因結(jié)構(gòu)特征識別啟動子的能力,提升了系統(tǒng)的識別性能?!靖綀D說明】 為了更清楚地說明本專利技術(shù)實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 專利技術(shù)的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。 圖1是本專利技術(shù)實施例一提供的啟動子識別系統(tǒng)構(gòu)建方法的一種流程圖; 圖2是本專利技術(shù)實施例二提供的啟動子識別系統(tǒng)構(gòu)建當(dāng)前第1頁1 2 本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】
    一種啟動子識別系統(tǒng)的構(gòu)建方法,其特征在于,包括:將包含N條基因序列的數(shù)據(jù)集劃分為第一數(shù)據(jù)子集和第二數(shù)據(jù)子集,所述第一數(shù)據(jù)子集具有預(yù)設(shè)屬性;分別提取所述第一數(shù)據(jù)子集及所述第二數(shù)據(jù)子集中各基因序列的P種預(yù)設(shè)特征,相應(yīng)得到P個第一訓(xùn)練特征子集及P個第二訓(xùn)練特征子集;所述預(yù)設(shè)特征包括基因剛性特征,N、P為大于1的自然數(shù);分別對所述P個第一訓(xùn)練特征子集及所述P個第二訓(xùn)練特征子集進(jìn)行分類建模,得到P個第一子分類器模型及P個第二分類器模型,各個所述子分類器模型構(gòu)成啟動子識別系統(tǒng)的分類識別模型。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:張莉,徐文軒,張召王邦軍,李凡長,楊季文,
    申請(專利權(quán))人:蘇州大學(xué)張家港工業(yè)技術(shù)研究院
    類型:發(fā)明
    國別省市:江蘇;32

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲真人无码永久在线| 国产精品无码一本二本三本色| 野花在线无码视频在线播放| 日韩精品无码一区二区三区免费| 无码人妻aⅴ一区二区三区有奶水| 无码A级毛片日韩精品| 无码人妻久久一区二区三区免费| 无码办公室丝袜OL中文字幕| 亚洲av中文无码乱人伦在线咪咕 | 亚洲综合av永久无码精品一区二区 | 黄桃AV无码免费一区二区三区| 无码国内精品久久人妻蜜桃| 免费无码午夜福利片69| 成人免费a级毛片无码网站入口| 亚洲午夜AV无码专区在线播放| 2021无码最新国产在线观看| 国产AV无码专区亚洲AV男同 | 在线播放无码高潮的视频| AV大片在线无码永久免费| 成人午夜精品无码区久久| 日韩精品无码人妻一区二区三区| 92午夜少妇极品福利无码电影| 亚洲爆乳精品无码一区二区三区| 无码人妻一区二区三区免费视频| 亚洲AV无码AV日韩AV网站| 精品亚洲成在人线AV无码| 午夜人性色福利无码视频在线观看 | 亚洲av无码乱码国产精品fc2| 免费无码国产V片在线观看| 无码精品不卡一区二区三区 | 国产AV天堂无码一区二区三区| 亚洲AV无码成人精品区日韩| 精品国产v无码大片在线观看| 日韩av无码一区二区三区| 无码人妻精品一区二区三区久久| 无码日韩精品一区二区三区免费 | 亚洲AV无码专区电影在线观看| 国产成人无码精品一区二区三区| 国产精品一级毛片无码视频 | 久久午夜伦鲁片免费无码| 亚洲精品~无码抽插|