• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    核酸序列裝配的方法和系統(tǒng)技術方案

    技術編號:15190797 閱讀:120 留言:0更新日期:2017-04-19 23:49
    提供了用于分析遺傳序列數據的方法、過程、且特別是計算機執(zhí)行的過程和計算機程序產品。所述過程和產品用于將較短的核酸序列數據裝配成較長連接的并且優(yōu)選連續(xù)的遺傳構建體,包括大的重疊群、染色體和整個基因組。

    【技術實現步驟摘要】
    【國外來華專利技術】相關申請的交叉引用本申請要求2014年6月26日提交的名稱為“ProcessesandSystemsforNucleicAcidsSequenceAssembly”的美國專利申請?zhí)?2/017,589的優(yōu)先權,其通過引用的方式并入本文。
    技術介紹
    與高通量下一代測序技術相關的重要挑戰(zhàn)之一在于將相對短的序列讀段裝配成較長的連續(xù)序列。基因組序列裝配過程通常類推為具有切割成小段的小說,然后必須將其重新裝配成完整的小說。在序列裝配中,這通常通過將要裝配的整個序列的重疊子區(qū)段拼接在一起來實現。如將理解的,當各段為較大且不太模糊時,該裝配過程變得較容易。例如,根據完整的段落,頁或章節(jié)比從單個句子,句子片段或隨機詞或詞的部分裝配小說更容易。同樣,使用核酸測序,單獨的序列讀段越短,將多個讀段裝配成較長的連續(xù)序列變得越困難。雖然下一代測序技術能夠產生大量的序列數據,例如在單次運行中產生1兆兆堿基(terabase)序列數據,但是它們困擾于僅產生短的序列讀段長度的困難。具體地,這些測序技術通常獲得100個連續(xù)堿基或更少(或當作為配對末端測序來測序時,高達約200個堿基)的讀段中的序列數據。這些讀段然后必須裝配成更長的連續(xù)序列。盡管某些測序技術提供長度為800、1000、5000或甚至20,000個堿基的更長序列讀段,但這通常以系統(tǒng)通量為代價而來到,每次運行僅產生數百兆堿基序列數據。已經采用了許多過程和算法將相對短的序列讀段裝配成更長的連續(xù)序列。通常,這些短序列讀段通常與許多其它短序列讀段重疊,以在整個較長序列的不同部分上提供冗余覆蓋(稱為“覆蓋”或“倍數覆蓋”)。在高水平,來自多個讀段的重疊序列用于將較長序列信息拼湊在一起。在許多情況下,例如來自相同物種的現有已知參考序列是可獲得的。這些參考序列可以用作將較短序列讀段定位到較大基因組或基因組片段上的支架上。然后在支架上層疊多倍序列覆蓋以提供相對高的置信序列。然而,在許多情況下,參考序列可能不可用,需要被測序的基因組或基因組片段的從頭裝配。此外,在許多情況下,此類參考序列是沒有幫助的,因為測序的目標實現它以檢測靶序列中的突變。例如,在靶序列來自癌癥的情況下,它是輸入以確定靶序列中存在哪些突變,插入和缺失作為診斷癌癥階段或癌癥的一些其它屬性的方式。因此,利用參考序列在測序努力中并不總是有用的。因此,本文描述了用于將序列讀段裝配成更大基因組或基因組片段序列,特別是將序列信息從頭裝配成更大序列背景的改進的方法,過程和系統(tǒng),所述序列背景包括例如全染色體或甚至全基因組背景。概要本文中描述了用于裝配來自多種不同測序系統(tǒng)的序列讀段(包括例如短讀段和長讀段序列系統(tǒng))的改進的遺傳序列裝配方法。本文中所述的方法可用于從頭裝配過程和再測序裝配過程或針對已知參考序列的裝配過程兩者。本文所述的方法,過程和系統(tǒng)采用具有相關聯(lián)的條形碼序列的序列讀段,以在一個或多個不同的裝配步驟幫助整體裝配過程。在某些方面,提供了將核酸序列讀段裝配成較大連續(xù)序列的方法。所述方法包括在包括第一數據結構的計算機執(zhí)行的系統(tǒng)中鑒定包含重疊序列和共同條形碼序列二者的序列讀段的第一子集,所述第一數據結構包含源自較大的連續(xù)核酸的多個序列讀段。源自較大的連續(xù)核酸的共同片段的序列讀段包括共同的條形碼序列。比對序列讀段的第一子集以提供連續(xù)的線性核酸序列。還提供了將核酸序列讀段裝配成較大的連續(xù)序列的方法。此類方法在包括第一數據結構的計算機實施系統(tǒng)中從重疊序列讀段集合中鑒定第一子序列,所述第一數據結構包含源自較大的連續(xù)核酸的多個序列讀段。然后,基于與第一子序列共同的相鄰序列上條形碼序列的存在,將第一子序列延伸至一個或多個相鄰或重疊的序列。然后提供包含第一子序列和一個或多個相鄰序列的線性核酸序列。本公開的一個方面提供了一種測序方法,所述測序方法包括在計算機系統(tǒng)上執(zhí)行獲得多個序列讀段的方法,所述計算機系統(tǒng)具有一個或多個處理器,以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器。多個序列讀段包含多個序列讀段的集合。在序列讀段集合中的每個相應序列讀段包括(i)對應于較大的連續(xù)核酸的子集的第一部分和(ii)形成標識符的共同第二部分,所述標識符不依賴于所述較大的連續(xù)核酸的序列,并且鑒定多個分區(qū)中的分區(qū),其中形成所述相應的序列讀段。在多個分區(qū)中的分區(qū)中形成序列讀段的多個集合中的序列讀段的每個相應集合,并且每個分區(qū)包括較大的連續(xù)核酸的一個或多個片段(例如,2個或更多個,3個或更多個,10個或更多個),所述較大的連續(xù)核酸用作分區(qū)中每個相應序列讀段的模板。在該方法中,對于在多個序列讀段中的每個序列讀段創(chuàng)建相應的k聚體集合。k聚體集合共同包含多個k聚體。保留多個k聚體中的每個k聚體的序列讀段的標識符。在許多情況下,對于k聚體中的至少一些,存在多個此類測序讀段標識符。k值小于多個序列讀段中的序列讀段的平均長度。每個相應的k聚體集合包括對應序列讀段的第一部分的長度k的可能k聚體中的一些(例如,至少80%)。在該方法中,對于多個k聚體中的每個相應k聚體,追蹤含有相應k聚體的多個序列讀段中的每個序列讀段的身份和含有序列讀段的序列讀段集合的標識符。在該方法中,將多個k聚體的全部或一部分(例如,至少1%,至少5%,至少50%)繪制為包括通過多個有向弧連接的多個節(jié)點的圖。每個節(jié)點包含長度k的多個k聚體中具有k-1重疊的k聚體的不間斷集合。每個弧將源節(jié)點連接到多個節(jié)點中的目標節(jié)點。源節(jié)點的最終k聚體與目標節(jié)點的初始k聚體具有k-1重疊。第一源節(jié)點具有在所述多個節(jié)點中的第一目標節(jié)點和第二目標節(jié)點二者的第一有向弧。在該方法中,測定是否將源節(jié)點與第一目標節(jié)點或第二目標節(jié)點合并,以便得到更可能代表較大的連續(xù)核酸的一部分的重疊群序列。重疊群序列包含(i)源節(jié)點和(ii)第一目標節(jié)點和第二目標節(jié)點中的一個。所述測定至少使用所述第一源節(jié)點、所述第一目標節(jié)點和所述第二目標節(jié)點中的k聚體的序列讀段的標識符。另一方面提供了計算系統(tǒng),所述計算系統(tǒng)包括一個或多個處理器,存儲要由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器,所述一個或多個程序包括用于執(zhí)行上述方法的指令。本公開的另一方面提供了測序方法,所述測序方法包括在計算機系統(tǒng)上獲得多個序列讀段,所述計算機系統(tǒng)具有一個或多個處理器以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器中。多個序列讀段包括多個序列讀段集合。在序列讀段集合中的每個相應序列讀段包括(i)對應于較大的連續(xù)核酸的子集的獨特第一部分和(ii)形成標識符的共同第二部分,所述標識符不依賴于所述較大的連續(xù)核酸的序列,并且鑒定多個分區(qū)中的分區(qū),其中形成所述相應的序列讀段。在所述多個分區(qū)中的分區(qū)中形成所述序列讀段的多個集合中的序列讀段的每個相應集合。每個此類分區(qū)包括較大的連續(xù)核酸的一個或多個片段,所述較大的連續(xù)核酸用作分區(qū)中每個相應序列讀段的模板。在該方法中,對于在多個序列讀段中每個序列讀段創(chuàng)建相應的k聚體集合。k聚體集合共同包含多個k聚體。保留多個k聚體中的每個k聚體的序列讀段的標識符。k值小于多個序列讀段中的序列讀段的平均長度。每個相應的k聚體集合包括對應序列讀段的第一部分的可能k聚體中的至少一些(例如,至少80%)。在該方法中,對于多個k聚體中的每個相本文檔來自技高網...
    <a  title="核酸序列裝配的方法和系統(tǒng)原文來自X技術">核酸序列裝配的方法和系統(tǒng)</a>

    【技術保護點】
    一種裝配核酸序列讀段的測序方法,所述測序方法包括:在計算機系統(tǒng)上,所述計算機系統(tǒng)具有一個或多個處理器,以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器:獲得源自較大的連續(xù)核酸的多個序列讀段,其中源自所述較大的連續(xù)核酸的共同片段的兩個或更多個序列讀段包括共同條形碼序列,鑒定所述多個序列讀段中包含重疊序列和共同條形碼序列兩者的序列讀段的第一子集;并且比對序列讀段的所述第一子集以提供連續(xù)的線性核酸序列。

    【技術特征摘要】
    【國外來華專利技術】2014.06.26 US 62/017,5891.一種裝配核酸序列讀段的測序方法,所述測序方法包括:在計算機系統(tǒng)上,所述計算機系統(tǒng)具有一個或多個處理器,以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器:獲得源自較大的連續(xù)核酸的多個序列讀段,其中源自所述較大的連續(xù)核酸的共同片段的兩個或更多個序列讀段包括共同條形碼序列,鑒定所述多個序列讀段中包含重疊序列和共同條形碼序列兩者的序列讀段的第一子集;并且比對序列讀段的所述第一子集以提供連續(xù)的線性核酸序列。2.根據權利要求1所述的方法,所述方法還包括用序列讀段的多個不同子集重復所述鑒定和比對步驟,以提供多個連續(xù)的線性核酸序列。3.根據權利要求2所述的方法,所述方法還包括在所述較大的連續(xù)核酸內的序列背景中將所述多個不同的連續(xù)線性核酸序列排序。4.根據權利要求3所述的方法,其中所述排序包括相對于參考序列定位所述多個不同的連續(xù)線性核酸序列。5.根據權利要求3所述的方法,其中所述排序包括:鑒定一個或多個序列讀段,所述序列讀段包含與第一連續(xù)線性核酸序列共同的條形碼序列,但是包括與第二連續(xù)線性核酸序列的重疊序列;并且將所述第一和第二連續(xù)線性核酸鑒定為結構連接的。6.一種將核酸序列讀段裝配成較大的連續(xù)序列的方法,所述方法包括:在計算機系統(tǒng)上,所述計算機系統(tǒng)具有一個或多個處理器,以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器:獲得源自較大的連續(xù)核酸的多個序列讀段,從所述多個序列讀段中的重疊序列讀段集合中鑒定第一子序列;基于在相鄰序列上與所述第一子序列共同的條形碼序列的存在,將所述第一子序列延伸至一個或多個相鄰或重疊序列;并且提供包含所述第一子序列和所述一個或多個相鄰序列的線性核酸序列。7.一種測序方法,所述測序方法包括在計算機系統(tǒng)上,所述計算機系統(tǒng)具有一個或多個處理器,以及存儲用于由所述一個或多個處理器執(zhí)行的一個或多個程序的存儲器:(A)獲得多個序列讀段,其中所述多個序列讀段包括序列讀段的多個集合,在序列讀段集合中的每個相應的序列讀段包含(i)對應于較大的連續(xù)核酸的子集的第一部分和(ii)形成標識符的共同第二部分,所述標識符不依賴于所述較大的連續(xù)核酸的序列,并且鑒定多個分區(qū)中形成所述相應的序列讀段的分區(qū),并且在所述多個分區(qū)中的分區(qū)中形成所述序列讀段的多個集合中的序列讀段的每個相應集合,并且每個分區(qū)包含所述較大的連續(xù)核酸的一個或多個片段,所述較大的連續(xù)核酸用作所述分區(qū)中的每個相應序列讀段的模板;(B)為在所述多個序列讀段中的每個序列讀段創(chuàng)建相應的k聚體集合,其中所述k聚體集合共同包含多個k聚體,保留所述多個k聚體中的每個k聚體的所述序列讀段的所述標識符,k小于所述多個序列讀段中的所述序列讀段的平均長度,并且每個相應的k聚體集合包括所述對應序列讀段的第一部分的長度k的可能k聚體的至少80%;(C)對于所述多個k聚體中的每個相應的k聚體,追蹤含有所述相應k聚體的所述多個序列讀段中的每個序列讀段的身份和含有所述序列讀段的所述序列讀段集合的所述標識符;(D)將所述多個k聚體繪制為包括通過多個有向弧連接的多個節(jié)點的圖,其中,每個節(jié)點包含長度k的多個k聚體中具有k-1重疊的k聚體的不間斷集合,每個弧在所述多個節(jié)點中將源節(jié)點連接到目標節(jié)點,源節(jié)點的最終k聚體與目標節(jié)點的初始k聚體具有k-1重疊,并且第一源節(jié)點具有在所述多個節(jié)點中的第一目標節(jié)點和第二目標節(jié)點二者的第一有向弧;并且(E)測定是否將所述源節(jié)點與所述第一目標節(jié)點或所述第二目標節(jié)點合并,以便得到更可能代表所述較大的連續(xù)核酸的一部分的重疊群序列,其中所述重疊群序列包含(i)所述源節(jié)點和(ii)所述第一目標節(jié)點...

    【專利技術屬性】
    技術研發(fā)人員:M·史諾萊文I·麥克卡倫
    申請(專利權)人:一零X基因組學有限公司
    類型:發(fā)明
    國別省市:美國;US

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 最新国产AV无码专区亚洲| 亚洲AV无码1区2区久久| 无码日韩AV一区二区三区| 日韩激情无码免费毛片| 无码国产精品一区二区免费3p| 日本精品无码一区二区三区久久久| 久久精品无码av| 亚洲日韩精品无码专区| 超清无码熟妇人妻AV在线电影| 日本精品人妻无码免费大全 | 亚欧无码精品无码有性视频| 亚洲AV无码专区国产乱码4SE| 无码毛片一区二区三区视频免费播放| 无码人妻AV一二区二区三区| 国产亚洲精久久久久久无码77777| 亚洲Av永久无码精品一区二区| 亚洲情XO亚洲色XO无码| 亚洲午夜AV无码专区在线播放| 丰满爆乳无码一区二区三区| AV无码人妻中文字幕| 免费无码VA一区二区三区| 国产乱人无码伦av在线a| 国产成人无码AⅤ片在线观看| 永久免费AV无码网站在线观看| 无码精品A∨在线观看免费| 无码人妻久久久一区二区三区| 国产成人亚洲综合无码精品 | 日韩精品人妻系列无码专区 | 无码尹人久久相蕉无码| 亚洲中文字幕无码亚洲成A人片 | 亚洲国产精品无码中文lv| 亚洲av永久无码嘿嘿嘿| av大片在线无码免费| 亚洲av无码一区二区三区人妖| 精品国产性色无码AV网站 | 人妻丰满熟妇av无码区不卡| 久热中文字幕无码视频| 无码精品人妻一区二区三区漫画| 无码A级毛片免费视频内谢| 久久久久无码精品亚洲日韩| 久久精品无码专区免费东京热 |