System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及宏基因組測序,特別是涉及一種宏基因組測序數據篩選方法、裝置、計算機設備和計算機可讀存儲介質。
技術介紹
1、宏基因組測序技術是一種直接從環境樣本中提取所有基因組信息進行分析的技術,其憑借著全面性、高通量以及高靈敏度等特點,廣泛應用于對復雜微生物群落的組成和功能的研究中,而在處理人源宿主樣本的宏基因組測序數據過程中,人源序列的篩選及去除是宏基因組測序分析中非常重要的一環,此步驟的準確性直接影響到后續對微生物群落結構和功能分析的準確性和可靠性。
2、目前,在對宏基因組測序數據進行篩選的過程中,通常依賴于宏基因組測序數據和參考人源基因組序列之間的比對結果進行,即,篩選出宏基因組測序數據中比對上參考人源基因組序列的數據序列并進行去除,但是,由于人源基因組序列和非人源基因組序列之間具有相似性,導致難以判定比對上參考人源基因組序列的數據序列的類型,進而使得易出現將非人源基因組序列錯誤篩選為需要去除的人源基因組序列的情況發生,所以,當前宏基因組測序數據篩選準確性能進一步提高。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種提升宏基因組測序數據篩選準確性的宏基因組測序數據篩選方法、裝置、計算機設備和計算機可讀存儲介質。
2、第一方面,本申請提供了一種宏基因組測序數據篩選方法,包括:
3、獲取多個非人源基因組相似序列共同對應的相似序列比對信息,其中,所述非人源基因組相似序列為所有非人源基因組片段中與參考人源基因組序列具有相似關系的非人源基因組
4、根據所述相似序列比對信息和所述參考人源基因組序列,在原始宏基因組測序數據中檢測原始非人源基因組相似序列和原始非人源基因組序列,并將檢測到的原始非人源基因組相似序列和原始非人源基因組序列共同作為潛在非人源基因組序列;
5、根據所述潛在非人源基因組序列和參考非人源基因組序列之間的比對關系,對所述原始宏基因組測序數據進行篩選,得到數據篩選結果。
6、在其中一個實施例中,所述獲取多個非人源基因組相似序列共同對應的相似序列比對信息,包括:
7、在所述所有非人源基因組片段中確定多個候選非人源基因組相似序列,并獲取每一所述候選非人源基因組相似序列的初始序列比對信息,其中,所述候選非人源基因組相似序列為比對上所述參考人源基因組序列的非人源基因組序列;
8、根據所述候選非人源基因組相似序列和所述參考人源基因組序列之間的第一序列篩選條件,在所有的初始序列比對信息中篩選所述相似序列比對信息。
9、在其中一個實施例中,所述第一序列篩選條件包括參考序列篩選條件和額外序列篩選條件;所述根據所述候選非人源基因組相似序列和所述參考人源基因組序列之間的序列篩選條件,在所有的初始序列比對信息中篩選相似序列比對信息,包括:
10、在所述多個候選非人源基因組相似序列中存在額外人源基因組序列的情況下,獲取所述參考序列篩選條件和所述額外序列篩選條件,其中,所述額外人源基因組序列為多個候選非人源基因組相似序列中區別于所述參考人源基因組序列的基因組序列,所述參考序列篩選條件是指任一所述候選非人源基因組相似序列和所述參考人源基因組序列之間的第一序列篩選條件,所述額外序列篩選條件是指任一所述候選非人源基因組相似序列和所述額外人源基因組序列之間的第一序列篩選條件;
11、根據所述參考序列篩選條件和所述額外序列篩選條件,在所有的初始序列比對信息中篩選所述相似序列比對信息。
12、在其中一個實施例中,所述初始序列比對信息包括序列區域比對指標、第一序列堿基比對指標和第二序列堿基比對指標,所述參考序列篩選條件包括以下各項之一:
13、所述序列區域比對指標大于預設序列區域比對指標閾值,且所述第一序列堿基比對指標小于或者等于第一預設序列堿基比對閾值;
14、所述序列區域比對指標等于所述預設序列區域比對指標閾值,所述第一序列堿基比對指標小于或者等于第二預設序列堿基比對閾值,且所述第二序列堿基比對指標大于第二預設序列堿基比對閾值;
15、其中,所述第二預設序列堿基比對閾值小于所述第一預設序列堿基比對閾值。
16、在其中一個實施例中,在所述所有非人源基因組片段中確定多個候選非人源基因組相似序列之前,所述方法還包括:
17、將所有非人源基因組片段劃分為預設測序長度下的多個非人源基因組測試序列,并為所述多個非人源基因組測試序列各自生成待比對序列信息;
18、根據各所述待比對序列信息和所述參考人源基因組序列對應的參考序列信息之間的并行比對結果,在所述多個非人源基因組測試序列中檢測所述候選非人源基因組相似序列。
19、在其中一個實施例中,所述根據所述相似序列比對信息和所述參考人源基因組序列,在原始宏基因組測序數據中檢測原始非人源基因組相似序列和原始非人源基因組序列,包括:
20、根據所述參考人源基因組序列,在所述原始宏基因組測序數據中檢測多個潛在人源基因組序列和原始非人源基因組序列,其中,所述潛在人源基因組序列為比對上所述參考人源基因組序列的原始基因組序列,所述原始非人源基因組序列為未比對上所述參考人源基因組序列的原始基因組序列;
21、在所述多個潛在人源基因組序列中選取滿足序列截取條件的多個目標潛在人源基因組序列;
22、根據所述多個目標潛在人源基因組序列和所述相似序列比對信息,生成第二序列篩選條件;
23、根據所述第二序列篩選條件,在所述多個目標潛在人源基因組序列篩選所述原始非人源基因組相似序列。
24、在其中一個實施例中,所述相似序列比對信息包括序列區域比對指標、第一序列堿基比對指標和第三序列堿基比對指標,所述第二序列篩選條件包括以下各項之一:
25、所述序列區域比對指標等于預設序列區域比對指標閾值,且所述第一序列堿基比對指標和所述第三序列堿基比對指標之間的第一指標差值小于第一預設指標差值閾值;
26、所述序列區域比對指標大于所述預設序列區域比對指標閾值,且所述第一序列堿基比對指標和所述第三序列堿基比對指標之間的第二指標差值第二預設指標差值閾值;
27、其中,所述第二預設指標差值閾值小于所述第一預設指標差值閾值。
28、在其中一個實施例中,所述相似序列比對信息包括第二序列堿基比對指標;所述根據所述潛在非人源基因組序列和參考非人源基因組序列之間的比對關系,對所述原始宏基因組測序數據進行篩選,得到數據篩選結果,包括:
29、若所述潛在非人源基因組序列比對上所述參考非人源基因組序列,則在檢測到所述潛在非人源基因組序列攜帶序列標簽的情況下,獲取所述潛在非人源基因組序列的第二序列堿基比對指標和第三序列堿基比對指標之間的指標和值;
30、根據所述指標和值和預設指標和值閾值之間的大小關系,檢測所述潛在非人源基因組序列的基因組序列類型;
31、根據所述基因組序列類型,對所述原始宏本文檔來自技高網...
【技術保護點】
1.一種宏基因組測序數據篩選方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述獲取多個非人源基因組相似序列共同對應的相似序列比對信息,包括:
3.根據權利要求2所述的方法,其特征在于,所述第一序列篩選條件包括參考序列篩選條件和額外序列篩選條件;所述根據所述候選非人源基因組相似序列和所述參考人源基因組序列之間的序列篩選條件,在所有的初始序列比對信息中篩選相似序列比對信息,包括:
4.根據權利要求3所述的方法,其特征在于,所述初始序列比對信息包括序列區域比對指標、第一序列堿基比對指標和第二序列堿基比對指標,所述參考序列篩選條件包括以下各項之一:
5.根據權利要求2所述的方法,其特征在于,在所述在所述所有非人源基因組片段中確定多個候選非人源基因組相似序列之前,所述方法還包括:
6.根據權利要求1所述的方法,其特征在于,所述根據所述相似序列比對信息和所述參考人源基因組序列,在原始宏基因組測序數據中檢測原始非人源基因組相似序列和原始非人源基因組序列,包括:
7.根據權利要求6所述的方法,其
8.根據權利要求7所述的方法,其特征在于,所述相似序列比對信息包括第二序列堿基比對指標;所述根據所述潛在非人源基因組序列和參考非人源基因組序列之間的比對關系,對所述原始宏基因組測序數據進行篩選,得到數據篩選結果,包括:
9.根據權利要求1至8中任意一項所述的方法,其特征在于,所述方法還包括:
10.一種宏基因組測序數據篩選裝置,其特征在于,所述裝置包括:
11.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至9中任一項所述的方法的步驟。
12.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至9中任一項所述的方法的步驟。
...【技術特征摘要】
1.一種宏基因組測序數據篩選方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述獲取多個非人源基因組相似序列共同對應的相似序列比對信息,包括:
3.根據權利要求2所述的方法,其特征在于,所述第一序列篩選條件包括參考序列篩選條件和額外序列篩選條件;所述根據所述候選非人源基因組相似序列和所述參考人源基因組序列之間的序列篩選條件,在所有的初始序列比對信息中篩選相似序列比對信息,包括:
4.根據權利要求3所述的方法,其特征在于,所述初始序列比對信息包括序列區域比對指標、第一序列堿基比對指標和第二序列堿基比對指標,所述參考序列篩選條件包括以下各項之一:
5.根據權利要求2所述的方法,其特征在于,在所述在所述所有非人源基因組片段中確定多個候選非人源基因組相似序列之前,所述方法還包括:
6.根據權利要求1所述的方法,其特征在于,所述根據所述相似序列比對信息和所述參考人源基因組序列,在原始宏基因組測序數據中檢測原始非人源基因組相似序列和原...
【專利技術屬性】
技術研發人員:石淞元,鄧小龍,楊麗,吳康,戴立忠,
申請(專利權)人:圣湘生物科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。