System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及物種鑒定領域,特別是涉及一種基于全長16s?rrna三代測序數據的物種鑒定方法、裝置及應用。
技術介紹
1、16s?rrna基因是細菌上編碼rrna相對應的dna序列,存在于所有細菌的基因組中,其具有高度的保守性和特異性以及該基因序列足夠長(包含約50個功能域)的特點,隨著pcr技術的出現及核酸研究技術的不斷完善,16s?rrna基因檢測技術已成為病原菌檢測和鑒定的一種強有力工具。
2、目前在進行16s?rrna基因的物種鑒定時常用二代測序數據和三代測序數據,其中二代測序技術通常產生較短的讀段,研究者能夠利用這些短讀段分析微生物樣本中的物種多樣性,然而這些短讀段通常只覆蓋16s?rrna基因的小部分區域,限制了物種鑒定的分辨率,針對二代測序數據的常用分析工具是qiime(quantitative?insights?into?microbialecology)和mothur,該工具可用于分析基于二代測序技術的微生物群落,它提供了從原始dna測序數據到物種鑒定和生態統計分析的一整套工作流程,但是這些方法依賴于短讀段對特定的16s?rrna區域(例如v3-v4區域)進行比對,雖然適合處理大量樣本,但可能無法區分高度相似的物種;其中三代測序技術,特別是納米孔測序技術,可以在單個分子水平上實時讀取長dna序列,這種技術通過一個微小的納米孔來檢測通過孔的dna分子,從而能夠產生比二代測序技術更長的讀段,由于三代測序數據的讀長長的特點,現有的三代全長16s測序數據的鑒定方法主要有兩種:1.基于全局比對的方法,常用軟件為m
3、另外,當前市面上的生物信息學工具往往專注于解決特定的問題,如數據質控、比對、物種鑒定等,而缺乏一個一體化的流程,從測序數據的輸入到物種鑒定的輸出就需要用戶學習和操作多個軟件工具,增加了操作復雜性和時間成本,對于非生物信息學背景的研究人員和技術人員來說,不僅需要理解各個分散的工具的功能和操作方法,還需要具備將它們有效結合使用的知識和技能。這一點在實際應用中成為了一個重要的障礙,限制了先進測序技術和物種鑒定方法的普及和應用。
技術實現思路
1、本申請實施例提供了一種基于全長16s?rrna三代測序數據的物種鑒定方法、裝置及應用,提供了一種一鍵式解決方案采用降維聚類技術降低了三代測序數據的固有隨機錯誤帶來的鑒定錯誤,采用相似度評估技術合并高度相似的物種提高了鑒定結果的可靠性。
2、第一方面,本申請實施例提供了一種對全長16s?rrna納米孔測序數據進行物種鑒定的方法,包括以下步驟:
3、獲取待鑒定細菌的16s區域的原始納米孔測序數據;
4、預處理原始納米孔測序數據得到fastq格式的預處理序列,去除預處理序列兩端的接頭和barcode序列后保留序列長度在1300-1900bp之間的高質量序列;
5、基于高質量序列構建歸一化kmer矩陣,其中歸一化kmer矩陣的行為為一條序列,列為每類型的kmer,矩陣值為kmer在序列中出現的次數的歸一化值;
6、對歸一化kmer矩陣降維后進行二次聚類得到聚類簇,將同一聚類簇內的序列合并得到聚類序列;
7、將每一聚類序列同全長16s序列數據庫內的序列進行比對得到每一聚類簇的最優物種并保留聚類簇內同最優物種的同屬序列,若聚類簇內不同物種無法區分,則將不同物種的序列合并得到當前聚類簇的物種序列;
8、合并同一物種的物種序列生成一致性序列。
9、第二方面,本申請實施例提供了一種對全長16s?rrna納米孔測序數據進行物種鑒定裝置,包括:
10、納米孔測序數據獲取單元,用于獲取待鑒定細菌的16s區域的原始納米孔測序數據;
11、納米孔測序數據處理單元,用于預處理原始納米孔測序數據得到fastq格式的預處理序列,去除預處理序列兩端的接頭和barcode序列后保留序列長度在1300-1900bp之間的高質量序列;
12、kmer矩陣處理單元,用于基于高質量序列構建歸一化kmer矩陣,其中歸一化kmer矩陣的行為為一條序列,列為每類型的kmer,矩陣值為kmer在序列中出現的次數的歸一化值;
13、降維聚類單元,用于對歸一化kmer矩陣降維后進行二次聚類得到聚類簇,將同一聚類簇內的序列合并得到聚類序列;
14、比對單元,用于將每一聚類序列同全長16s序列數據庫內的序列進行比對得到每一聚類簇的最優物種并保留聚類簇內同最優物種的同屬序列,若聚類簇內不同物種無法區分,則將不同物種的序列合并得到當前聚類簇的物種序列;
15、一致性序列生成單元,用于合并同一物種的物種序列生成一致性序列。
16、第三方面,本申請實施例提供了一種電子裝置,包括存儲器和處理器,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行任一所述的對全長16s?rrna納米孔測序數據進行物種鑒定的方法。
17、第四方面,本申請實施例提供了一種可讀存儲介質,所述可讀存儲介質中存儲有計算機程序,所述計算機程序包括用于控制過程以執行過程的程序代碼,所述過程包括根據任一所述的對全長16s?rrna納米孔測序數據進行物種鑒定的方法。
18、本專利技術的主要貢獻和創新點如下:
19、本申請實施例提出的方案提供了一種一鍵式的解決方案,極大簡化了整個物種鑒定過程,使研究人員能夠輕松地處理和分析三代16s納米孔測序數據,其次通過采用降維聚類技術識別相同物種中的不同16s?rrna拷貝,有效地降低了三代測序中固有的隨機錯誤對物種鑒定的影響以提高了鑒定的準確度,且在降維時允許用戶手動剔除數據中的噪音,進一步優化和精確化鑒定結果;此外,該方法還包括對參考數據庫中不同物種進行物種間相似度評估的步驟,通過將鑒定結果中高度相似的物種合并,進一步提升了鑒定結果的可靠性和實用性。該方案提供了一個強大、精確且用戶友好的工具,用于三代測序數據的物種鑒定可用于理解微生物多樣性和演化這種綜合性的方法,具有重要的科研和應用價值
20、本申請的一個或多個實施例的細節在以下附圖和描述中提出,以使本申請的其他特征、目的和優點更加簡明易懂。
本文檔來自技高網...【技術保護點】
1.一種對全長16S?rRNA納米孔測序數據進行物種鑒定的方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的對全長16S?rRNA納米孔測序數據進行物種鑒定的方法,其特征在于,在“預處理原始納米孔測序數據得到fastq格式的預處理序列”步驟中,使用數據轉換工具將原始納米孔測序數據轉換為fastq格式數據,查找fastq格式數據上的barcode并過濾掉交聯序列,對過濾后的序列根據barcode進行拆分得到fastq格式的預處理序列。
3.根據權利要求1所述的對全長16S?rRNA納米孔測序數據進行物種鑒定的方法,其特征在于,在“查找fastq格式數據上的barcode并過濾掉交聯序列”步驟中,以允許一個堿基容錯的條件查找fastq格式數據上的barcode,且去除一條測序序列上包含不同的barcode的交聯序列、barcode的序列不在測序序列兩端的交聯序列、不包含barcode的交聯序列。
4.根據權利要求1所述的對全長16S?rRNA納米孔測序數據進行物種鑒定的方法,其特征在于,在“去除預處理序列兩端的接頭和barcode序列后保留
5.根據權利要求1所述的對全長16S?rRNA納米孔測序數據進行物種鑒定的方法,其特征在于,在“對歸一化kmer矩陣降維后進行二次聚類得到聚類簇”步驟中,對歸一化kmer矩陣降維后產生的降維結果進行一次聚類得到初步簇,以初步簇的質心為中心去除簇離群點得到聚類簇。
6.根據權利要求1所述的對全長16S?rRNA納米孔測序數據進行物種鑒定的方法,其特征在于,全長16s序列數據庫內的全長的16s序列為MirrorDB的16s-23s擴增數據同ncbi上的16s?blast比對后的得分高的16s位置對應的序列。
7.根據權利要求1所述的對全長16S?rRNA納米孔測序數據進行物種鑒定的方法,其特征在于,在“若聚類簇內不同物種無法區分,則將不同物種的序列合并得到當前聚類簇的物種序列”步驟中,計算同一聚類簇內的不同物種的種間相似度以及物種內的種內相似度,若種間相似度高于種內相似度,則認為聚類簇內的不同物種無法區分,將不同物種的序列合并得到當前聚類簇的物種序列。
8.一種對全長16S?rRNA納米孔測序數據進行物種鑒定裝置,其特征在于,包括:
9.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行權利要求1到7任一所述的對全長16SrRNA納米孔測序數據進行物種鑒定的方法。
10.一種可讀存儲介質,其特征在于,所述可讀存儲介質中存儲有計算機程序,所述計算機程序包括用于控制過程以執行過程的程序代碼,所述過程包括根據權利要求1到7任一所述的對全長16S?rRNA納米孔測序數據進行物種鑒定的方法。
...【技術特征摘要】
1.一種對全長16s?rrna納米孔測序數據進行物種鑒定的方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的對全長16s?rrna納米孔測序數據進行物種鑒定的方法,其特征在于,在“預處理原始納米孔測序數據得到fastq格式的預處理序列”步驟中,使用數據轉換工具將原始納米孔測序數據轉換為fastq格式數據,查找fastq格式數據上的barcode并過濾掉交聯序列,對過濾后的序列根據barcode進行拆分得到fastq格式的預處理序列。
3.根據權利要求1所述的對全長16s?rrna納米孔測序數據進行物種鑒定的方法,其特征在于,在“查找fastq格式數據上的barcode并過濾掉交聯序列”步驟中,以允許一個堿基容錯的條件查找fastq格式數據上的barcode,且去除一條測序序列上包含不同的barcode的交聯序列、barcode的序列不在測序序列兩端的交聯序列、不包含barcode的交聯序列。
4.根據權利要求1所述的對全長16s?rrna納米孔測序數據進行物種鑒定的方法,其特征在于,在“去除預處理序列兩端的接頭和barcode序列后保留序列長度在1300-1900bp之間的高質量序列”步驟中,識別并去除預處理序列兩端的接頭和barcode序列,保留去除接頭和barcode序列后的序列中長度在1300-1900bp之間的序列片段,去除低質量的序列片段后得到高質量序列。
5.根據權利要求1所述的對全長16s?rrna納米孔測序數據進行物種鑒定的方法,其特征在于,...
【專利技術屬性】
技術研發人員:毛凌峰,舒強,吳斯豪,徐瑋澤,賴登明,尚世強,陳英虎,徐興宇,
申請(專利權)人:杭州柏熠科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。