核酸序列裝配的方法和系統(tǒng)技術方案

技術編號：15190797 閱讀：120 留言：0更新日期：2017-04-19 23:49

提供了用于分析遺傳序列數據的方法、過程、且特別是計算機執(zhí)行的過程和計算機程序產品。所述過程和產品用于將較短的核酸序列數據裝配成較長連接的并且優(yōu)選連續(xù)的遺傳構建體，包括大的重疊群、染色體和整個基因組。

全部詳細技術資料下載

【技術實現步驟摘要】
【國外來華專利技術】相關申請的交叉引用本申請要求2014年6月26日提交的名稱為“ProcessesandSystemsforNucleicAcidsSequenceAssembly”的美國專利申請?zhí)?2/017,589的優(yōu)先權，其通過引用的方式并入本文。
技術介紹
與高通量下一代測序技術相關的重要挑戰(zhàn)之一在于將相對短的序列讀段裝配成較長的連續(xù)序列。基因組序列裝配過程通常類推為具有切割成小段的小說，然后必須將其重新裝配成完整的小說。在序列裝配中，這通常通過將要裝配的整個序列的重疊子區(qū)段拼接在一起來實現。如將理解的，當各段為較大且不太模糊時，該裝配過程變得較容易。例如，根據完整的段落，頁或章節(jié)比從單個句子，句子片段或隨機詞或詞的部分裝配小說更容易。同樣，使用核酸測序，單獨的序列讀段越短，將多個讀段裝配成較長的連續(xù)序列變得越困難。雖然下一代測序技術能夠產生大量的序列數據，例如在單次運行中產生1兆兆堿基(terabase)序列數據，但是它們困擾于僅產生短的序列讀段長度的困難。具體地，這些測序技術通常獲得100個連續(xù)堿基或更少(或當作為配對末端測序來測序時，高達約200個堿基)的讀段中的序列數據。這些讀段然后必須裝配成更長的連續(xù)序列。盡管某些測序技術提供長度為800、1000、5000或甚至20,000個堿基的更長序列讀段，但這通常以系統(tǒng)通量為代價而來到，每次運行僅產生數百兆堿基序列數據。已經采用了許多過程和算法將相對短的序列讀段裝配成更長的連續(xù)序列。通常，這些短序列讀段通常與許多其它短序列讀段重疊，以在整個較長序列的不同部分上提供冗余覆蓋(稱為“覆蓋”或“倍數覆蓋”)。在高水平，來自多個...
<a title="核酸序列裝配的方法和系統(tǒng)原文來自X技術">核酸序列裝配的方法和系統(tǒng)</a>

【技術保護點】
一種裝配核酸序列讀段的測序方法，所述測序方法包括：在計算機系統(tǒng)上，所述計算機系統(tǒng)具有一個或多個處理器，以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器：獲得源自較大的連續(xù)核酸的多個序列讀段，其中源自所述較大的連續(xù)核酸的共同片段的兩個或更多個序列讀段包括共同條形碼序列，鑒定所述多個序列讀段中包含重疊序列和共同條形碼序列兩者的序列讀段的第一子集；并且比對序列讀段的所述第一子集以提供連續(xù)的線性核酸序列。

【技術特征摘要】
【國外來華專利技術】2014.06.26 US 62/017,5891.一種裝配核酸序列讀段的測序方法，所述測序方法包括：在計算機系統(tǒng)上，所述計算機系統(tǒng)具有一個或多個處理器，以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器：獲得源自較大的連續(xù)核酸的多個序列讀段，其中源自所述較大的連續(xù)核酸的共同片段的兩個或更多個序列讀段包括共同條形碼序列，鑒定所述多個序列讀段中包含重疊序列和共同條形碼序列兩者的序列讀段的第一子集；并且比對序列讀段的所述第一子集以提供連續(xù)的線性核酸序列。2.根據權利要求1所述的方法，所述方法還包括用序列讀段的多個不同子集重復所述鑒定和比對步驟，以提供多個連續(xù)的線性核酸序列。3.根據權利要求2所述的方法，所述方法還包括在所述較大的連續(xù)核酸內的序列背景中將所述多個不同的連續(xù)線性核酸序列排序。4.根據權利要求3所述的方法，其中所述排序包括相對于參考序列定位所述多個不同的連續(xù)線性核酸序列。5.根據權利要求3所述的方法，其中所述排序包括：鑒定一個或多個序列讀段，所述序列讀段包含與第一連續(xù)線性核酸序列共同的條形碼序列，但是包括與第二連續(xù)線性核酸序列的重疊序列；并且將所述第一和第二連續(xù)線性核酸鑒定為結構連接的。6.一種將核酸序列讀段裝配成較大的連續(xù)序列的方法，所述方法包括：在計算機系統(tǒng)上，所述計算機系統(tǒng)具有一個或多個處理器，以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器：獲得源自較大的連續(xù)核酸的多個序列讀段，從所述多個序列讀段中的重疊序列讀段集合中鑒定第一子序列；基于在相鄰序列上與所述第一子序列共同的條形碼序列的存在，將所述第一子序列延伸至一個或多個相鄰或重疊序列；并且提供包含所述第一子序列和所述一個或多個相鄰序列的線性核酸序列。7.一種測序方法，所述測序方法包括在計算機系統(tǒng)上，所述計算機系統(tǒng)具有一個或多個處理器，以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器：(A)獲得多個序列讀段，其中所述多個序列讀段包括序列讀段的多個集合，在序列讀段集合中的每個相應的序列讀段包含(i)對應于較大的連續(xù)核酸的子集的第一部分和(ii)形成標識符的共同第二部分，所述標識符不依賴于所述較大的連續(xù)核酸的序列，并且鑒定多個分區(qū)中形成所述相應的序列讀段的分區(qū)，并且在所述多個分區(qū)中的分區(qū)中形成所述序列讀段的多個集合中的序列讀段的每個相應集合，并且每個分區(qū)包含所述較大的連續(xù)核酸的一個或多個片段，所述較大的連續(xù)核酸用作所述分區(qū)中的每個相應序列讀段的模板；(B)為在所述多個序列讀段中的每個序列讀段創(chuàng)建相應的k聚體集合，其中所述k聚體集合共同包含多個k聚體，保留所述多個k聚體中的每個k聚體的所述序列讀段的所述標識符，k小于所述多個序列讀段中的所述序列讀段的平均長度，并且每個相應的k聚體集合包括所述對應序列讀段的第一部分的長度k的可能k聚體的至少80％；(C)對于所述多個k聚體中的每個相應的k聚體，追蹤含有所述相應k聚體的所述多個序列讀段中的每個序列讀段的身份和含有所述序列讀段的所述序列讀段集合的所述標識符；(D)將所述多個k聚體繪制為包括通過多個有向弧連接的多個節(jié)點的圖，其中，每個節(jié)點包含長度k的多個k聚體中具有k-1重疊的k聚體的不間斷集合，每個弧在所述多個節(jié)點中將源節(jié)點連接到目標節(jié)點，源節(jié)點的最終k聚體與目標節(jié)點的初始k聚體具有k-1重疊，并且第一源節(jié)點具有在所述多個節(jié)點中的第一目標節(jié)點和第二目標節(jié)點二者的第一有向弧；并且(E)測定是否將所述源節(jié)點與所述第一目標節(jié)點或所述第二目標節(jié)點合并，以便得到更可能代表所述較大的連續(xù)核酸的一部分的重疊群序列，其中所述重疊群序列包含(i)所述源節(jié)點和(ii)所述第一目標節(jié)點...

【專利技術屬性】
技術研發(fā)人員：M·史諾萊文，I·麥克卡倫，
申請(專利權)人：一零X基因組學有限公司，
類型：發(fā)明
國別省市：美國;US

全部詳細技術資料下載我是這個專利的主人

相關技術