本發(fā)明專利技術公開了一種限定性模體的發(fā)現(xiàn)方法,涉及生物信息領域,包括以下步驟:1)構(gòu)建字典表,所構(gòu)述字典表用于存儲指定模式P的模式實例;2)在字典表中以字典順序列出指定模式P的所有實例集合I={I1…IN},其中,Ii為模體實例;3)對每個模體實例Ii與待檢測的核苷酸序列進行比較驗證,若第i個實例滿足只出現(xiàn)在待檢測的核苷酸正例序列集合中,而不出現(xiàn)在反例序列集合中,則該實例作為最終滿足條件的模體輸出。本發(fā)明專利技術以簡單的方法解決了限定性模體發(fā)現(xiàn)問題,最后的實驗證明,在合理的時間內(nèi),倒排索引算法總是可以找到所有滿足條件的模體,從而保證了算法的有效性。
【技術實現(xiàn)步驟摘要】
本專利技術涉及生物信息
,尤其涉及。
技術介紹
模體(Motif)是指一組序列中局部的保守區(qū)域,或者是一組序列中共有的一小段 序列模式。更多的時候是指有可能具有與分子功能、結(jié)構(gòu)性質(zhì)或家族成員相關的任何序列 模式,其主要存在于蛋白質(zhì)、DNA、RNA等序列中。模體的發(fā)現(xiàn)對研究基因表達意義重大,是后 基因時代生物信息學中的一個主要研究方向。目前模體發(fā)現(xiàn)問題研究主要集中于轉(zhuǎn)錄因子 結(jié)合位點,即在DNA序列中具有特定功能并且保守的序列片段。而對限制性內(nèi)切酶結(jié)合位 點的發(fā)現(xiàn)問題同樣是模體發(fā)現(xiàn)研究領域中的一個重要研究點。與前者不同,后者則是加入 了一些限定條件。限制性內(nèi)切酶結(jié)合位點挖掘問題是指給定正例和反例核苷酸序列集合, 并指定模式P,要求找到符合模式P的模體m,且只在正例序列集合中有模體實例存在,而在 反例序列集合中不能出現(xiàn)模體m的實例。在這個過程中核苷酸序列的反向互補序列也要考 慮進去,因此這類問題可以看作是一種帶有限定性條件的模體發(fā)現(xiàn)問題。此類帶限定性條 件的模體的發(fā)現(xiàn)可以推斷出新的限制性內(nèi)切酶,進而可以針對不同外源DNA使用相應的內(nèi) 切酶破壞其DNA結(jié)構(gòu)以限制其侵入,從而起到了保護細胞原有的遺傳信息的作用。 雖然目前在轉(zhuǎn)錄因子結(jié)合位點研究領域已經(jīng)出現(xiàn)了很多算法和相應的軟件,如 MEME、AlignACE、Gibbs Sampler、PMS系列等。這些算法中,多數(shù)算法及其改進算法可以很 好地解決模體發(fā)現(xiàn)問題,但這些算法并不能直接用于尋找?guī)в邢薅ㄐ缘哪sw發(fā)現(xiàn)問題。
技術實現(xiàn)思路
針對上述缺陷或不足,本專利技術的目的在于提供,能夠 獲取帶有限定性的模體。 為達到以上目的,本專利技術的技術方案為: -種限定性模體的發(fā)現(xiàn)方法,包括以下步驟: 1)構(gòu)建字典表,所述字典表用以存儲指定模式P的所有模式實例; 2)在字典列中以字典順序列出指定模式P的所有實例集合I = U1-InI,其中,I1 為模體實例; 3)對每個模體實例I1Q彡i彡N)與待檢測的核苷酸序列進行比較驗證,若第i 個實例滿足只出現(xiàn)在待檢測的核苷酸正例序列集合中,而不出現(xiàn)在反例序列集合中,則該 實例作為最終所要得到的模體輸出。 所述對每個模體實例^與待檢測的正例和反例核苷酸序列進行比較驗證時,分別 設置針對正例和反例不同的比例閾值,以使得在正例序列集合中有大于或等于正例比例閾 值的序列包含符合實例1的Ι-mer,而在反例序列集合中有小于或等于反例比例閾值的序 列包含該實例1的Ι-mer,則I #卩為符合條件的模體。 所述步驟1)的具體過程為: I. I、構(gòu)建字典表,字典表的每行對應指定模式P的一個模式實例; 1.2、對字典表中每一個模式實例設置一個指針,所述指針指向一個倒排索引表, 所述倒排索引表存儲了所有符合項該模式實例的序列。 所述步驟3)具體包括: 3. 1、設核苷酸的序列的長度為m,指定模式P的長度為1,所述核苷酸序列中正 向序列包含m-1+l個Ι-mer,考慮到給定核苷酸序列的雙鏈結(jié)構(gòu),所述核苷酸序列包含的 1-mer 數(shù)為 2*(m_l+l)個; 3. 2、設序列集合 Sp= {SP1~SPn},其中一條序列 Spi對應 2*(mi-l+l)個 l-mer,MPl =(I11,…}為Spi包含的模式P的實例集合,且反例序列集合S N= {S N1~SNn},序列SNj包 含的1-mer數(shù)為2*( mj-l+l)個,其中MNj= {I η,···}為SNj中包含的模式P的實例集合; 3. 3、設給定序列集合Sp= {SP1···SPn}和Sn= {S νΓ·· SNn},運行后找到符合模式P的 模體集合為M = (ΜΡ1 η…n M J - (MniU…UMJ。 所述步驟3)后還包括步驟4): 應用打分函數(shù)對所獲得的模體進行評分,找到得分最高的模體,并將其輸出。 所述評分過程中設置highestscore和motif兩個參數(shù),分別表示進程得到的最優(yōu) 模體及其相對熵分數(shù),在最后的輸出過程中輸出所有結(jié)果中得分最高的模體。 與現(xiàn)有技術比較,本專利技術的有益效果為: 本專利技術提供了,針對正反例問題和指定模式P問題, 采用倒排索引算法。首先構(gòu)造字典列表,并針對字典中的每一項列出其在輸入序列中的位 置信,以簡單的方法解決了限定性模體發(fā)現(xiàn)問題。最后的實驗證明,在合理的時間內(nèi),倒排 索引算法總是可以找到所有滿足條件的模體,從而保證了算法的有效性。該方法計算方便, 準確性高,從所得到的具有限定性的模體可以推斷出新的限制性內(nèi)切酶,進而可以針對不 同外源DNA使用相應的內(nèi)切酶破壞其DNA結(jié)構(gòu)以限制其侵入,從而起到了保護細胞原有的 遺傳信息的作用。【附圖說明】 圖1是本專利技術的限定性模體的發(fā)現(xiàn)方法流程框圖; 圖2是本專利技術的模式NNN :5 :NNNXN的倒排索引列結(jié)構(gòu)圖; 圖3是本專利技術的不同植入實例下的三種算法正確率圖; 圖4是本專利技術的不同植入實例情況下的三種算法運行時間圖。【具體實施方式】: 下面結(jié)合附圖對本專利技術做詳細描述。 實施例一 限制性內(nèi)切酶在DNA序列的酶切位點通常包含三部分,即頭部(3-4個核苷酸),主 體部分(4-8個核苷酸),尾部(3-5個核苷酸)。一般輸入模式為NNN :4 :NNXNNN,NNNN :3 : XNNNN等。輸入的模式P統(tǒng)一表示表示如下: PATTERN := HEAD' : ' BODY' : ' TAIL HEAD := *r Nr BODY : = TAIL := *Γ Ν' I ' X') 模式P對應的模式實例如下:個基本類型核苷酸,I ? TAIL-INSTANCE 包含長度為|P. TAI」個IUPAC類型核苷酸,并且Ι._γ ^?_部分核苷酸數(shù)等于?.《^聲明的核苷酸數(shù),則有實例"是指定模式?的實例。其 中'、' C、' 、' Iw四個字符代表基本類型字符,其他的IUPAC通配符則包 括,R,、,Υ,、,S,、,r、,r、,Μ,、,Β,、,D,、,Η,、,V,等, 也稱為退化的基本類型字符,其中^ N'為不確定的基本類型核苷酸代碼。IUPAC通配符表 如表1所示。 表1 IUPAC通配符 識別出來的模體可以分為三部分,即頭部,主體部分,尾部。頭部為包含3-4個基 礎核苷酸字符,主體部分可以是任何核苷酸,長度為4-8,尾部包括3-5個IUPAC核苷酸字 符,字符X對應于一個IUPAC核苷酸字符。例如,識別模式NNN :4 :XNNNN代表此模式頭部長 度為3,主體長度為4,尾部長度為5,且尾部的第一個字符為IUPAC核苷酸字符。 如圖1所示,本專利技術提供了,包括以下步驟: 1)構(gòu)建字典表,所述字典表中以字典順序存儲指定模式P的所有模式實例; 所述步驟1)的具體過程為: 1. 1、構(gòu)建字典表,字典表的每行對應指定模式P的一個模式實例; 1.2、對字典表中每一個模式實例設置一個指針,所述指針指向一個倒排索引表, 所述倒排索引表存儲了所有符合該項模式實例的序列。 為了提高算法的運行效率,首先構(gòu)建一個字典表,里面以字典順序存儲了模式P 的所有模式實例,字典表的每行對應模式P的一個模式實例。例如,圖2中字典表顯示了指 定模式"NNN:5 :NNNXN" 的其中兩個實例:"CCANNNNNTTTAA" 和"TTGNN本文檔來自技高網(wǎng)...

【技術保護點】
一種限定性模體的發(fā)現(xiàn)方法,其特征在于,包括以下步驟:1)構(gòu)建字典表,所述字典表用以存儲指定模式P的所有模式實例;2)在字典列中以字典順序列出指定模式P的所有實例集合I={I1…IN),其中,Ii為模體實例;3)對每個模體實例Ii(1≤i≤N)與待檢測的核苷酸序列進行比較驗證,若第i個實例滿足只出現(xiàn)在待檢測的核苷酸正例序列集合中,而不出現(xiàn)在反例序列集合中,則該實例作為最終所要得到的模體輸出。
【技術特征摘要】
【專利技術屬性】
技術研發(fā)人員:吳剛,王國仁,林克青,李梁,劉洪偉,
申請(專利權(quán))人:東北大學,
類型:發(fā)明
國別省市:遼寧;21
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。