本發明專利技術涉及信息處理領域,提供了一種對核酸序列信息進行匹配的方法,所述方法包括以下步驟:A、對數據庫中的參考序列進行BWT變換,得匹配參考序列,并將匹配參考序列存儲在數據庫中;B、對數據庫中的匹配參考序列進行間隔標記;C、將核酸序列片段依次分別與數據庫中的匹配參考序列進行一致性匹配,得匹配核酸序列。本發明專利技術的對核酸序列信息進行匹配的方法能實現核酸序列信息與參考序列的快速匹配。
【技術實現步驟摘要】
【專利說明】 本案為2012年07月08日申請的,申請號為201210263634. 7,專利技術名稱為《一種 對核酸序列信息進行匹配的系統和方法》的分案申請。
本專利技術涉及信息處理領域,更具體地說,涉及一種對核酸序列信息進行匹配的系 統和方法。
技術介紹
美國科學家于1985年提出人類基因組計劃,經過美國、英國、法蘭西共和國、德 意志聯邦共和國、日本和中國科學家的共同努力,于2000年完成了人類基因組"工作框架 圖"。并于2001年公布了人類基因組圖譜及初步分析結果。其研究內容還包括創建計算機 分析管理系統(也即通過計算機分析系統對測序的結果進行處理,得到核酸序列信息),檢 驗相關的倫理、法律及社會問題。在人類基因組圖譜公布后,國內外開始積極投入到各個生 物種族的基因圖譜繪制的工作中。利用核酸序列信息與已有的基因組圖譜(參考序列)進行 比較,通過轉錄物組學和蛋白質組學等相關技術對基因表達譜、基因突變等進行匹配分析, 可獲得與疾病相關基因的信息。通過核酸序列信息與基因組圖譜進行匹配、分析,并揭秘患 病的根源,已成為生化醫療領域高度關注的問題,全球的基因測序技術也因此發展的如火 如荼,但要準確快速的從浩瀚的測序結果數據中得到基因信息,卻成了當前基因測序技術 發展的瓶頸。 對核酸序列信息進行匹配的系統是利用計算機對測序所得的核酸序列片段在已 知的參考序列上進行匹配,也即一一比對,根據匹配的結果進行后續的分析。對核酸序列信 息進行匹配的方法是基于對核酸序列信息進行匹配的系統對核酸序列信息進行匹配的過 程。 現有技術中,,所述方法包括步驟:A、根據允 許錯配的個數n,將每條核酸序列片段分成至少n+1條參與匹配的短片段,得短片段的數據 庫;B、根據參與匹配的短片段的長度建立并存儲參考序列索引,得數據庫;C、把每條核酸 序列片段分段建立的短片段分別單獨在數據庫中進行匹配,得匹配結果。因為參考序列索 引是等長的,根據概率的原理,存在完全相同的多個參考序列索引。該技術方案中,每條參 與匹配的短片段依次與參考序列索引進行匹配,短片段需要與所有的參考序列索引分別進 行匹配(短片段需要分別與多個相同的參考序列索引進行匹配),這將大大降低信息處理的 速度。并且參考序列和核酸序列均需要進行分段處理,這將進一步增加了信息處理的工作 量,從而進一步降低了信息處理的速度。另外,參考序列建立的參考序列索引和核酸序列分 段建立的短片段,將產生大量的信息,這將增加信息處理裝置的存儲空間。 因此需要一種新的對核酸序列信息進行匹配的系統和方法,能夠實現核酸序列與 參考序列快速匹配。
技術實現思路
本專利技術的目的在于提供一種對核酸序列信息進行匹配的系統和方法,旨在解決現 有技術核酸序列信息與參考序列進行匹配時,速度慢的問題。 為了實現專利技術目的,一種對核酸序列信息進行匹配的系統包括數據庫、參考序列 變化單元、標記單元和匹配單元。所述數據庫,用于存儲參考序列;所述參考序列變換單元, 用于對數據庫中的參考序列進行BWT變換,得匹配參考序列;所述標記單元,用于對數據庫 中的匹配參考序列進行間隔標記;所述匹配單元,用于將核酸序列片段依次與數據庫中的 匹配參考序列進行一致性匹配,得匹配核酸序列。 -致性匹配包括允許錯配和不允許錯配的情況。在允許N個錯配的情況下,核酸 序列片段至多有N個堿基與數據庫中的匹配參考序列不一致稱為一致性匹配;在不允許錯 配的情況下,核酸序列片段與數據庫中的匹配參考序列完全一致稱為一致性匹配。N為正整 數。 其中,所述參考序列變換單元包括參考序列矩陣模塊和BWT矩陣模塊。所述參考 序列矩陣模塊,用于對在數據庫中的參考序列末端或前端加上標識符,并將該參考序列循 環移動,得參考序列矩陣;所述BWT矩陣模塊,用于將參考序列矩陣按照字典順序排序,得 BWT參考序列矩陣。所述參考序列變換單元還可包括匹配參考序列模塊,所述匹配參考序 列模塊,用于獲取BWT參考序列矩陣第一列與最后一列,得匹配參考序列,并儲存在數據庫 中。 其中,所述標記單元,用于對數據庫中的匹配參考序列按照等差數列進行間隔標 記。 進一步的,所述標記單元,還用于在每個等差數列間隔中再利用等差數列對數據 庫中的匹配參考序列進行進一步標記。 上述任一技術方案中,所述匹配單元,用于將核酸序列片段反向互補形成反向互 補核酸序列片段,并將反向互補核酸序列片段與數據庫中的匹配參考序列進行一致性匹 配,得匹配核酸序列。 其中,所述匹配單元,利用回溯法依次在反向互補核酸序列片段不能匹配的位置 之前的位置上進行堿基替換,并從替換位置開始繼續在數據庫中進行匹配。 上述任一技術方案中,所述對核酸序列信息進行匹配的系統還包括信息接收單 元;所述信息接收單元,用于通過USB接口或光盤驅動接口或INTERNET獲取核酸序列片段 和參考序列。 為了更好的實現本專利技術,本專利技術還包括。 所述方法包括步驟:A、對數據庫中的參考序列進行BWT變換,得匹配參考序列,并 將匹配參考序列存儲在數據庫中;B、對將數據庫中的匹配參考序列進行間隔標記;C、將核 酸序列片段依次分別與數據庫中的匹配參考序列進行一致性匹配,得匹配核酸序列。其中, 數據庫中存儲有參考序列,步驟A和步驟B分別數據庫中的參考序列進行變換。 -致性匹配包括允許錯配和不允許錯配的情況。在允許N個錯配的情況下,核酸 序列片段至多有N個堿基與數據庫中的匹配參考序列不一致稱為一致性匹配;在不允許錯 配的情況下,核酸序列片段與數據庫中的匹配參考序列完全一致稱為一致性匹配。N為正整 數。 其中,所述步驟A包括:AU對數據庫中的參考序列末端或前端加上標識符,并將 該參考序列經過循環移動,得參考序列矩陣;A2、將參考序列矩陣按照字典順序排序,得 BWT參考序列矩陣,并存儲在數據庫中。在步驟A2之后還可包括步驟A3、獲取BWT參考序 列矩陣第一列與最后一列,得匹配參考序列,并存儲在數據庫中。 其中,所述步驟B中,對數據庫中的匹配參考序列按照等差數列進行間隔標記。 其中,所述步驟B中,在每個等差數列間隔中再利用等差數列對數據庫中的匹配 參考序列進行進一步標記。 上述任一技術方案中,所述步驟C為,將核酸序列片段反向互補形成反向互補核 酸序列片段,然后將反向互補核酸序列片段與數據庫中的匹配參考序列中進行一致性匹 配,得匹配核酸序列。 其中,所述步驟C中,在允許錯配的情況下,利用回溯法依次在反向互補核酸序列 片段不能匹配的位置之前的位置上進行堿基替換,并從替換位置繼續在數據庫上進行匹 配。 由上可知,本專利技術通過核酸序列片段無需分段,直接與在數據庫中進行匹配,同 時,核酸序列片段無需與所有相同的匹配參考序列一一匹配,只需與所有相同的序列進行 一次匹配即可,從而從整體上提高了信息處理的速度;另外,數據庫中的參考序列無需建立 參考序列索引,且數據庫中的匹配參考序列無需一一標記,從而大大降低了對系統的存儲 空間的要求。【附圖說明】 圖1是本專利技術一個實施例中對核酸序列信息進行匹配的系統的結構示意圖。 圖2是本專利技術另一個實施例中對核酸序列信息進行匹配的系統的結構示意圖。 圖3是本專利技術一個實施例中參考序列變換單元的結構示意圖。 圖4是本專利技術另一個實施例中參考序列變換單元的結構示意圖本文檔來自技高網...
【技術保護點】
一種對核酸序列信息進行匹配的方法,其特征在于,所述方法包括以下步驟:A、對數據庫中的參考序列進行BWT變換,得匹配參考序列,并將匹配參考序列存儲在數據庫中;B、對數據庫中的匹配參考序列進行間隔標記;C、將核酸序列片段依次分別與數據庫中的匹配參考序列進行一致性匹配,得匹配核酸序列。
【技術特征摘要】
【專利技術屬性】
技術研發人員:盛司潼,
申請(專利權)人:盛司潼,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。