• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>東北大學專利>正文

    一種限定性模體的發(fā)現(xiàn)方法技術

    技術編號:12294824 閱讀:93 留言:0更新日期:2015-11-11 06:54
    本發(fā)明專利技術公開了一種限定性模體的發(fā)現(xiàn)方法,涉及生物信息領域,包括以下步驟:1)構(gòu)建字典表,所構(gòu)述字典表用于存儲指定模式P的模式實例;2)在字典表中以字典順序列出指定模式P的所有實例集合I={I1…IN},其中,Ii為模體實例;3)對每個模體實例Ii與待檢測的核苷酸序列進行比較驗證,若第i個實例滿足只出現(xiàn)在待檢測的核苷酸正例序列集合中,而不出現(xiàn)在反例序列集合中,則該實例作為最終滿足條件的模體輸出。本發(fā)明專利技術以簡單的方法解決了限定性模體發(fā)現(xiàn)問題,最后的實驗證明,在合理的時間內(nèi),倒排索引算法總是可以找到所有滿足條件的模體,從而保證了算法的有效性。

    【技術實現(xiàn)步驟摘要】

    本專利技術涉及生物信息
    ,尤其涉及。
    技術介紹
    模體(Motif)是指一組序列中局部的保守區(qū)域,或者是一組序列中共有的一小段 序列模式。更多的時候是指有可能具有與分子功能、結(jié)構(gòu)性質(zhì)或家族成員相關的任何序列 模式,其主要存在于蛋白質(zhì)、DNA、RNA等序列中。模體的發(fā)現(xiàn)對研究基因表達意義重大,是后 基因時代生物信息學中的一個主要研究方向。目前模體發(fā)現(xiàn)問題研究主要集中于轉(zhuǎn)錄因子 結(jié)合位點,即在DNA序列中具有特定功能并且保守的序列片段。而對限制性內(nèi)切酶結(jié)合位 點的發(fā)現(xiàn)問題同樣是模體發(fā)現(xiàn)研究領域中的一個重要研究點。與前者不同,后者則是加入 了一些限定條件。限制性內(nèi)切酶結(jié)合位點挖掘問題是指給定正例和反例核苷酸序列集合, 并指定模式P,要求找到符合模式P的模體m,且只在正例序列集合中有模體實例存在,而在 反例序列集合中不能出現(xiàn)模體m的實例。在這個過程中核苷酸序列的反向互補序列也要考 慮進去,因此這類問題可以看作是一種帶有限定性條件的模體發(fā)現(xiàn)問題。此類帶限定性條 件的模體的發(fā)現(xiàn)可以推斷出新的限制性內(nèi)切酶,進而可以針對不同外源DNA使用相應的內(nèi) 切酶破壞其DNA結(jié)構(gòu)以限制其侵入,從而起到了保護細胞原有的遺傳信息的作用。 雖然目前在轉(zhuǎn)錄因子結(jié)合位點研究領域已經(jīng)出現(xiàn)了很多算法和相應的軟件,如 MEME、AlignACE、Gibbs Sampler、PMS系列等。這些算法中,多數(shù)算法及其改進算法可以很 好地解決模體發(fā)現(xiàn)問題,但這些算法并不能直接用于尋找?guī)в邢薅ㄐ缘哪sw發(fā)現(xiàn)問題。
    技術實現(xiàn)思路
    針對上述缺陷或不足,本專利技術的目的在于提供,能夠 獲取帶有限定性的模體。 為達到以上目的,本專利技術的技術方案為: -種限定性模體的發(fā)現(xiàn)方法,包括以下步驟: 1)構(gòu)建字典表,所述字典表用以存儲指定模式P的所有模式實例; 2)在字典列中以字典順序列出指定模式P的所有實例集合I = U1-InI,其中,I1 為模體實例; 3)對每個模體實例I1Q彡i彡N)與待檢測的核苷酸序列進行比較驗證,若第i 個實例滿足只出現(xiàn)在待檢測的核苷酸正例序列集合中,而不出現(xiàn)在反例序列集合中,則該 實例作為最終所要得到的模體輸出。 所述對每個模體實例^與待檢測的正例和反例核苷酸序列進行比較驗證時,分別 設置針對正例和反例不同的比例閾值,以使得在正例序列集合中有大于或等于正例比例閾 值的序列包含符合實例1的Ι-mer,而在反例序列集合中有小于或等于反例比例閾值的序 列包含該實例1的Ι-mer,則I #卩為符合條件的模體。 所述步驟1)的具體過程為: I. I、構(gòu)建字典表,字典表的每行對應指定模式P的一個模式實例; 1.2、對字典表中每一個模式實例設置一個指針,所述指針指向一個倒排索引表, 所述倒排索引表存儲了所有符合項該模式實例的序列。 所述步驟3)具體包括: 3. 1、設核苷酸的序列的長度為m,指定模式P的長度為1,所述核苷酸序列中正 向序列包含m-1+l個Ι-mer,考慮到給定核苷酸序列的雙鏈結(jié)構(gòu),所述核苷酸序列包含的 1-mer 數(shù)為 2*(m_l+l)個; 3. 2、設序列集合 Sp= {SP1~SPn},其中一條序列 Spi對應 2*(mi-l+l)個 l-mer,MPl =(I11,…}為Spi包含的模式P的實例集合,且反例序列集合S N= {S N1~SNn},序列SNj包 含的1-mer數(shù)為2*( mj-l+l)個,其中MNj= {I η,···}為SNj中包含的模式P的實例集合; 3. 3、設給定序列集合Sp= {SP1···SPn}和Sn= {S νΓ·· SNn},運行后找到符合模式P的 模體集合為M = (ΜΡ1 η…n M J - (MniU…UMJ。 所述步驟3)后還包括步驟4): 應用打分函數(shù)對所獲得的模體進行評分,找到得分最高的模體,并將其輸出。 所述評分過程中設置highestscore和motif兩個參數(shù),分別表示進程得到的最優(yōu) 模體及其相對熵分數(shù),在最后的輸出過程中輸出所有結(jié)果中得分最高的模體。 與現(xiàn)有技術比較,本專利技術的有益效果為: 本專利技術提供了,針對正反例問題和指定模式P問題, 采用倒排索引算法。首先構(gòu)造字典列表,并針對字典中的每一項列出其在輸入序列中的位 置信,以簡單的方法解決了限定性模體發(fā)現(xiàn)問題。最后的實驗證明,在合理的時間內(nèi),倒排 索引算法總是可以找到所有滿足條件的模體,從而保證了算法的有效性。該方法計算方便, 準確性高,從所得到的具有限定性的模體可以推斷出新的限制性內(nèi)切酶,進而可以針對不 同外源DNA使用相應的內(nèi)切酶破壞其DNA結(jié)構(gòu)以限制其侵入,從而起到了保護細胞原有的 遺傳信息的作用。【附圖說明】 圖1是本專利技術的限定性模體的發(fā)現(xiàn)方法流程框圖; 圖2是本專利技術的模式NNN :5 :NNNXN的倒排索引列結(jié)構(gòu)圖; 圖3是本專利技術的不同植入實例下的三種算法正確率圖; 圖4是本專利技術的不同植入實例情況下的三種算法運行時間圖。【具體實施方式】: 下面結(jié)合附圖對本專利技術做詳細描述。 實施例一 限制性內(nèi)切酶在DNA序列的酶切位點通常包含三部分,即頭部(3-4個核苷酸),主 體部分(4-8個核苷酸),尾部(3-5個核苷酸)。一般輸入模式為NNN :4 :NNXNNN,NNNN :3 : XNNNN等。輸入的模式P統(tǒng)一表示表示如下: PATTERN := HEAD' : ' BODY' : ' TAIL HEAD := *r Nr BODY : = TAIL := *Γ Ν' I ' X') 模式P對應的模式實例如下:個基本類型核苷酸,I ? TAIL-INSTANCE 包含長度為|P. TAI」個IUPAC類型核苷酸,并且Ι._γ ^?_部分核苷酸數(shù)等于?.《^聲明的核苷酸數(shù),則有實例"是指定模式?的實例。其 中'、' C、' 、' Iw四個字符代表基本類型字符,其他的IUPAC通配符則包 括,R,、,Υ,、,S,、,r、,r、,Μ,、,Β,、,D,、,Η,、,V,等, 也稱為退化的基本類型字符,其中^ N'為不確定的基本類型核苷酸代碼。IUPAC通配符表 如表1所示。 表1 IUPAC通配符 識別出來的模體可以分為三部分,即頭部,主體部分,尾部。頭部為包含3-4個基 礎核苷酸字符,主體部分可以是任何核苷酸,長度為4-8,尾部包括3-5個IUPAC核苷酸字 符,字符X對應于一個IUPAC核苷酸字符。例如,識別模式NNN :4 :XNNNN代表此模式頭部長 度為3,主體長度為4,尾部長度為5,且尾部的第一個字符為IUPAC核苷酸字符。 如圖1所示,本專利技術提供了,包括以下步驟: 1)構(gòu)建字典表,所述字典表中以字典順序存儲指定模式P的所有模式實例; 所述步驟1)的具體過程為: 1. 1、構(gòu)建字典表,字典表的每行對應指定模式P的一個模式實例; 1.2、對字典表中每一個模式實例設置一個指針,所述指針指向一個倒排索引表, 所述倒排索引表存儲了所有符合該項模式實例的序列。 為了提高算法的運行效率,首先構(gòu)建一個字典表,里面以字典順序存儲了模式P 的所有模式實例,字典表的每行對應模式P的一個模式實例。例如,圖2中字典表顯示了指 定模式"NNN:5 :NNNXN" 的其中兩個實例:"CCANNNNNTTTAA" 和"TTGNN本文檔來自技高網(wǎng)...
    一種限定性模體的發(fā)現(xiàn)方法

    【技術保護點】
    一種限定性模體的發(fā)現(xiàn)方法,其特征在于,包括以下步驟:1)構(gòu)建字典表,所述字典表用以存儲指定模式P的所有模式實例;2)在字典列中以字典順序列出指定模式P的所有實例集合I={I1…IN),其中,Ii為模體實例;3)對每個模體實例Ii(1≤i≤N)與待檢測的核苷酸序列進行比較驗證,若第i個實例滿足只出現(xiàn)在待檢測的核苷酸正例序列集合中,而不出現(xiàn)在反例序列集合中,則該實例作為最終所要得到的模體輸出。

    【技術特征摘要】

    【專利技術屬性】
    技術研發(fā)人員:吳剛王國仁林克青李梁劉洪偉
    申請(專利權(quán))人:東北大學
    類型:發(fā)明
    國別省市:遼寧;21

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 内射人妻少妇无码一本一道| 国产精品ⅴ无码大片在线看| 无码人妻精品一区二区三区久久 | 国产精品无码久久综合| 精品久久久久久久无码| 无码的免费不卡毛片视频| 亚洲无码高清在线观看| 无码任你躁久久久久久| 国产成人精品无码片区在线观看 | 亚洲国产精品无码成人片久久| 亚洲av成本人无码网站| 国精无码欧精品亚洲一区| 曰韩无码二三区中文字幕| 亚洲欧洲无码一区二区三区| 精品无码一区在线观看| 日日摸日日踫夜夜爽无码| 熟妇人妻系列av无码一区二区| 亚洲成av人片天堂网无码】| 无码午夜成人1000部免费视频| 亚洲精品无码永久在线观看你懂的| 亚洲国产精品无码观看久久| 无码囯产精品一区二区免费 | 亚洲AV人无码激艳猛片| 日日日日做夜夜夜夜无码| 国模无码视频一区| 日韩AV无码不卡网站| 亚洲另类无码一区二区三区| 精品多人p群无码| 92午夜少妇极品福利无码电影| 中文字幕无码不卡一区二区三区| 国产精品三级在线观看无码| 亚洲一区二区三区AV无码| 久久无码人妻精品一区二区三区 | 无码人妻精品一区二区三区99性| 亚洲精品无码不卡在线播HE| 国产精品无码国模私拍视频| 亚洲精品一级无码中文字幕| 亚洲无码日韩精品第一页| 国产免费久久久久久无码| 中文字幕av无码不卡| 亚洲中文字幕无码一区二区三区|