System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及特異性序列篩選領域,特別涉及一種病原體物種特異性序列篩選方法、裝置、設備及存儲介質。
技術介紹
1、細菌及其他微生物是導致眾多人畜共患傳染病的主要病原體。快速準確地鑒別和檢測病原體至關重要。傳統的微生物分離培養和免疫學檢測方法耗時長、操作復雜。近年來,基于特異性基因組序列的分子檢測技術受到廣泛關注。
2、然而,手工篩選微生物物種特異性序列是一項耗時費力的工作。現有的自動化方法往往受限于在線數據庫訪問限制,或者缺乏靈活性無法應對不同物種的需求。
3、有鑒于此,提出本申請。
技術實現思路
1、本專利技術公開了一種病原體物種特異性序列篩選方法、裝置、設備及存儲介質,旨在解決目前缺少物種特異性序列篩選方法及篩選微生物物種特異性序列時通過ncbi在線提交查詢序列大小的限制,以及比對過程頻繁意外中斷的問題。
2、本專利技術第一實施例提供了一種病原體物種特異性序列篩選方法,包括:
3、讀取包含目標物種名稱的輸入文件,獲取包含目標物種的基因組序列,并對所述基因組序列進行預處理;
4、提取所述目標物種編號,并對目標物種的基因組序列進行泛基因組分析,獲得核心基因組序列;
5、根據所述目標物種編號和核心基因組序列對所述目標物種進行特異性序列篩選,其中,所述特異性序列篩選包括調用megablast程序進行第一輪篩選以排除與非目標物種基因組存在高相似序列片段,調用blastn程序進行第二輪篩選以排除被megablast程序
6、優選地,所述獲取包含目標物種的基因組序列具體為:
7、從本地基因組參考數據庫提取目標物種所有菌株的基因組序列,若本地不存在相應基因組文件,則從refseq數據庫下載對應基因組序列。
8、優選地,對所述基因組序列進行預處理包括:
9、將基因組類型為完整基因組的的數據提取出來,對壓縮格式的基因組文件進行批量解壓,以refseq數據庫的序列編號作為菌株名,去除每個基因組中含有的質粒序列。
10、優選地,所述提取所述目標物種編號包括:細菌界水平及以下的分類編號、屬水平及以下的分類編號、屬水平以下未歸類的物種水平的分類編號、以及物種水平及以下的分類編號。
11、優選地,所述對目標物種的基因組序列進行泛基因組分析,獲得核心基因組序列,具體為:
12、獲取分析參數,并調用panseq分析工具對所述目標物種進行泛基因組分析,以生成核心基因組序列,其中,所述分析參數包括物種基因組序列被切割之后的長度、核心基因組序列的一致性范圍、以及核心基因組序列在目標物種的所有基因組中所占的比例。
13、優選地,所述第一輪篩選比對的目標數據庫為細菌基因組數據庫,不包括目標物種屬水平;
14、所述第二輪篩選的目標數據庫為細菌基因組數據庫,不包括目標物種屬水平;
15、所述第三輪篩選的目標數據庫為目標物種屬水平及以下所有基因組,但不包括目標物種水平及未歸類目標物種的基因組。
16、本專利技術第二實施例提供了一種病原體物種特異性序列篩選裝置,包括:
17、預處理單元,用于讀取包含目標物種名稱的輸入文件,獲取包含目標物種的基因組序列,并對所述基因組序列進行預處理;
18、泛基因組分析單元,用于提取所述目標物種編號,并對目標物種的基因組序列進行泛基因組分析,獲得核心基因組序列;
19、特異性序列篩選單元,用于根據所述目標物種編號和核心基因組序列對所述目標物種進行特異性序列篩選,其中,所述特異性序列篩選包括調用megablast程序進行第一輪篩選以排除與非目標物種基因組存在高相似序列片段,調用blastn程序進行第二輪篩選以排除被megablast程序忽略掉的核心基因組序列,調用blastn程序進行第三輪篩選獲得與屬內其他非目標物種存在特異性差異的序列。
20、本專利技術第三實施例提供了一種病原體物種特異性序列篩選設備,包括存儲器以及處理器,所述存儲器內存儲有計算機程序,所述計算機程序能夠被所述處理器執行,以實現如上任意一項所述的一種病原體物種特異性序列篩選方法。
21、本專利技術第四實施例提供了一種計算機可讀存儲介質,存儲有計算機程序,所述計算機程序能夠被所述計算機可讀存儲介質所在設備的處理器執行,以實現如上任意一項所述一種病原體物種特異性序列篩選方法。
22、基于本專利技術提供的一種病原體物種特異性序列篩選方法、裝置、設備及存儲介質,通過讀取包含目標物種名稱的輸入文件,獲取包含目標物種的基因組序列,并對所述基因組序列進行預處理;接著,提取所述目標物種編號,并對目標物種的基因組序列進行泛基因組分析,獲得核心基因組序列;最后,根據所述目標物種編號和核心基因組序列對所述目標物種進行特異性序列篩選,其中,所述特異性序列篩選包括調用megablast程序進行第一輪篩選以排除與非目標物種基因組存在高相似序列片段,調用blastn程序進行第二輪篩選以排除被megablast程序忽略掉的核心基因組序列,調用blastn程序進行第三輪篩選獲得與屬內其他非目標物種存在特異性差異的序列。通過本地版blast+構建目標微生物物種特異性序列篩選流程,解決了篩選微生物物種特異性序列時通過ncbi在線提交查詢序列大小的限制,以及比對過程頻繁意外中斷的問題。
本文檔來自技高網...【技術保護點】
1.一種病原體物種特異性序列篩選方法,其特征在于,包括:
2.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,所述獲取包含目標物種的基因組序列具體為:
3.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,對所述基因組序列進行預處理包括:
4.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,所述提取目標物種編號包括:細菌界水平及以下的分類編號、屬水平及以下的分類編號、屬水平以下未歸類的物種水平的分類編號、以及物種水平及以下的分類編號。
5.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,所述對目標物種的基因組序列進行泛基因組分析,獲得核心基因組序列,具體為:
6.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,所述第一輪篩選比對的目標數據庫為細菌基因組數據庫,不包括目標物種屬水平;
7.一種病原體物種特異性序列篩選裝置,其特征在于,包括:
8.一種病原體物種特異性序列篩選設備,其特征在于,包括存儲器以及處理器,
9.一種計算機可讀存儲介質,其特征在于,存儲有計算機程序,所述計算機程序能夠被所述計算機可讀存儲介質所在設備的處理器執行,以實現如權利要求1至6任意一項所述一種病原體物種特異性序列篩選方法。
...【技術特征摘要】
1.一種病原體物種特異性序列篩選方法,其特征在于,包括:
2.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,所述獲取包含目標物種的基因組序列具體為:
3.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,對所述基因組序列進行預處理包括:
4.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,所述提取目標物種編號包括:細菌界水平及以下的分類編號、屬水平及以下的分類編號、屬水平以下未歸類的物種水平的分類編號、以及物種水平及以下的分類編號。
5.根據權利要求1所述的一種病原體物種特異性序列篩選方法,其特征在于,所述對目標物種的基因組序列進行泛基因組分析,獲得核心基因組...
【專利技術屬性】
技術研發人員:黃麗紅,
申請(專利權)人:廈門大學附屬第一醫院廈門市第一醫院,廈門市紅十字會醫院,廈門市糖尿病研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。