System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術設計生物信息領域,具體涉及一種基于高通量測序技術的宿主外源核酸鑒定方法。
技術介紹
1、隨著高通量測序技術的發展和成本的下降,通過測序進行臨床疾病篩查、鑒定不同物種序列以及探索宿主外源核酸序列的來源成為可能。對不同的宿主樣本進行測序,例如肺細胞灌洗液、組織樣本、尿液等進行外源核酸序列的鑒定,可以有效的輔助臨床進行感染的診斷,包括細菌、病毒、真菌和寄生蟲(包蟲病和肝吸蟲病等)的感染,同時相比于傳統的pcr方法能檢測更多的病原體。然而由于這些來自宿主的樣本,宿主序列背景值大,例如在血漿樣本中人的序列在其中占據了超過98%的序列,在進行血液感染疾病的診斷上會受到宿主序列的影響,顯著降低檢測的準確性。除了微生物序列外,植物和動物同屬于真核生物更容易受到同源序列、低復雜度序列以及其他近緣物種序列的影響。目前的分析方法在去除宿主本身序列以及同源序列時,仍然存在殘留,在較高的宿主背景下以及較低豐度的外源物種序列情況下,很容易產生不準確的結果。除此之外,目前的分析方法,在處理多個物種的混合序列(人和寄生蟲、人和微生物以及人和植物的混合樣本),特別是存在動物和植物序列的樣本,很難區分出各個物種的準確的動物序列和植物序列。因此,基于高通量測序技術鑒定宿主外源核酸來源的生物信息分析方法還需要進一步完善。
2、目前在利用高通量測序技術檢測宿主的外源核酸序列時,主要研究人體感染細菌和病毒存留在人體不同樣本(血液、痰液和體液等)中的外源核酸序列。如檢測血液中微生物的方法及裝置(cn105525033a)、對宿主樣本進行微生物分析的方法
技術實現思路
1、本專利技術旨在一定程度上解決相關技術中的技術問題之一。為此,本專利技術的目的在于提出一種基于高通量測序技術,能夠對高宿主背景的樣本進行微生物、動物、植物序列物種進行快速準確鑒定的生物信息分析方法,提高檢測非宿主物種序列的可信度。本專利技術通過結合多種序列比對策略算法,有效的提高了分類物種的可信度和準確性,可以輔助進行不同類型宿主樣本,例如病原微生物等外源物種序列的廣泛鑒定。
2、本專利技術的目的至少通過如下技術方案之一實現。
3、一種基于高通量測序技術的宿主外源核酸序列鑒定方法,包括如下步驟:
4、s1、獲取宿主樣本的全基因組測序數據、靶向測序數據或者宏基因組測序數據,對測序數據進行常規質控;
5、s2、去除測序數據中的宿主的序列:獲取最新的宿主參考基因組,將測序數據中與宿主參考基因組核酸序列相同的核酸序列過濾,完成第一次過濾;
6、s3、將經過第一次過濾后的測序數據中與宿主參考基因組核酸序列相同的核酸序列過濾,完成第二次過濾;
7、s4、指定需要分析的物種,包括寄生蟲、微生物等不來自于宿主的物種,獲取指定分析物種的參考基因組序列,構建物種分類數據庫;將經過第二次過濾后的測序數據利用宏基因組分析軟件比對到物種分類數據庫,獲取指定分析物種的準確核酸序列;
8、s5、將指定分析物種的準確分類核酸序列重新比對到指定分析物種的參考基因組序列上,保留成功比對到指定分析物種的參考基因組的雙端序列,過濾無法比對上以及單端比對的結果,獲得準確物種核酸序列;
9、s6、將準確物種核酸序列中低復雜度的核酸序列去除;
10、s7、利用blast比對算法,將去除低復雜度核酸序列后的準確物種核酸序列比對到指定分析物種的參考基因組序列,保留blast比對中可信度大于90和覆蓋度大于90%的雙端序列比對結果,獲得可信度高的核酸序列;
11、s8、將可信度高的核酸序列比對到ncbi的nt庫上,保留blast比對中可信度大于90和覆蓋度大于90%的雙端序列比對結果,進一步的過濾遠緣物種的核酸序列,最終獲得真實來自于指定分析物種的核酸序列;
12、s9、若步驟s8中獲得的真實來自于指定分析物種的核酸序列和指定分析物種的準確序列相同,則表示宿主樣本存在指定分析物種的核酸序列,否則說明宿主樣本不存在指定分析物種的核酸序列。
13、進一步地,所述宿主樣本包括體液樣本或組織樣本。
14、該方法可以準確的鑒定宿主中存在的外源核酸序列是否存在,如在人體內的一些寄生蟲、細菌、病毒和潛在來源的非宿主核酸序列。該方法可以有效的區分動物與植物、動物與微生物、植物與微生物等組合的混合核酸序列,將其細分到指定物種。在此,該方法的宿主一般指混合序列中序列比例占比最大的物種,其余均可稱為外源核酸序列,具體的劃定可以按照實際樣本分析的需求。
15、進一步地,所述核酸序列包括dna序列以及rna序列。
16、進一步地,步驟s1中,所述常規質控指去除測序殘留的接頭序列以及低質量的測序讀長reads;所述低質量的測序讀長reads包括n占比大于5%的測序讀長reads以及長度小于30的測序讀長reads。
17、進一步地,第二次過濾時,需要采用與第一次過濾時不同的比對算法進行核酸序列過濾。
18、進一步地,步驟s4中,如果存在可能在分析過程中與指定分析物種的序列存在同源而影響分析結果的物種,獲取影響分析物種的參考基因組序列,將指定分析物種和影響分析物種的基因組混合構建物種分類數據庫。
19、進一步地,步驟s6中,所述低復雜度的核酸序列指測序讀長reads具有連續2個以上的相同的堿基長度超過5%的區間的核酸序列。
20、進一步地,步驟s6中,需要使用與步驟s5中,比對到物種參考基因組時不同的軟件,將準確物種核酸序列中低復雜度的核酸序列去除;從而能夠再一次驗證序列的準確性,有效的減少不同軟件造成的系統誤差和偏好性。
21、本文檔來自技高網...
【技術保護點】
1.一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸鑒定方法,其特征在于,所述宿主樣本包括體液樣本或組織樣本。
3.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,所述核酸序列包括DNA序列以及RNA序列。
4.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,步驟S1中,所述常規質控指去除測序殘留的接頭序列以及低質量的測序讀長reads;所述低質量的測序讀長reads包括N占比大于5%的測序讀長reads以及長度小于30的測序讀長reads。
5.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,第二次過濾時,需要采用與第一次過濾時不同的比對算法進行核酸序列過濾。
6.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,步驟S4中,如果存在可能在分析過程中與指定分析物種的序列存在同源而影響分析結果的物種,
7.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸鑒定方法,其特征在于,步驟S6中,所述低復雜度的核酸序列指測序讀長reads具有連續2個以上的相同的堿基長度超過5%的區間的核酸序列。
8.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸鑒定方法,其特征在于,步驟S6中,需要使用與步驟S5中,比對到物種參考基因組時不同的軟件,將準確物種核酸序列中低復雜度的核酸序列去除。
9.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸鑒定方法,其特征在于,步驟S8中,所述遠緣物種指在進行利用NT庫進行物種注釋時,雙端的序列注釋到的物種在科水平上不同的物種。
10.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸鑒定方法,其特征在于,若NCBI的NT庫上沒有收錄指定分析物種的參考基因組序列,會無法產生有效的結果,此時不考慮進行NT庫的比對,即不執行步驟S8,直接將步驟S7中獲得的可信度高的序列作為指定分析物種的準確序列,然后執行步驟S9,此時沒有去除遠緣物種序列的干擾。
...【技術特征摘要】
1.一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸鑒定方法,其特征在于,所述宿主樣本包括體液樣本或組織樣本。
3.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,所述核酸序列包括dna序列以及rna序列。
4.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,步驟s1中,所述常規質控指去除測序殘留的接頭序列以及低質量的測序讀長reads;所述低質量的測序讀長reads包括n占比大于5%的測序讀長reads以及長度小于30的測序讀長reads。
5.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,第二次過濾時,需要采用與第一次過濾時不同的比對算法進行核酸序列過濾。
6.根據權利要求1所述的一種基于高通量測序技術的宿主外源核酸序列鑒定方法,其特征在于,步驟s4中,如果存在可能在分析過程中與指定分析物種的序列存在同源而影響分析結果的物種,獲取影響分析物種的參考基因...
【專利技術屬性】
技術研發人員:龐文定,張艷,金鑫,王菊芳,王斌,
申請(專利權)人:華南理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。