The invention discloses a high-throughput Miseq sequencing data automatic filtering method includes the following steps: 1) input to analyze the project information; 2) steps, high-throughput sequencing data and project information; 3) corresponding to the project data pretreatment procedure; 4) preliminary statistics of data. The invention has the advantages that: Illumina Miseq Linux data filtering process automation based on shell, can be used for batch data filtering, data processing efficiency and improve the efficiency of the use of the server, while reducing human error, easy to determine whether the sample data meet the demand of analysis.
【技術實現步驟摘要】
高通量Miseq測序數據自動化過濾方法
本專利技術涉及分子生物學
,特別涉及IlluminaMiseq測序數據分析
,具體是指一種基于Linux跨服務器數據自動傳送的能力,以提高測序數據的分組效率的高通量Miseq測序數據自動化過濾方法,以減少人為因素對分析結果的影響。
技術介紹
高通量測序技術為人們利用分子生物學手段研究自然界的規律提供了更多可行性方案。目前眾多高通量測序技術都有相關的分析方法或分析流程作為參考幫助科研人員進行高通量數據處理。但是,目前常用IlluminaMiseq數據過濾過程中容易出現人為錯誤,因為過濾過程需要多個配置文件,各配置文件之間需要保持項目編號信息的一致性,如果是手動一步步操作,不僅耗費人力,還會出現數據和實際項目不匹配等人為錯誤,導致后續的數據出現錯誤。常用IlluminaMiseq數據過濾流程復雜,效率較低,當項目多、數據量大時一個個過濾數據會耗費大量時間。而且無法智能地處理不同批次數據,實際操作過程中一個項目可能會多次上機測序,這樣就會得到不同批次的數據,這些數據不能簡單的合并到一起進行處理,因為一旦其中一個批次的數據因為編號等問題出現錯誤都會導致后面所有的數據過濾都是徒勞。現在宏基因組、轉錄組、基因組等項目類型下機數據類型不同,人為手動操作時步驟復雜任務量繁重,只需要準備好相應的配置文件該自動化流程即可以實現對不同類型的項目下機數據進行高效率處理。一個項目編號可能對應多個子編號,一個編號也會有不同批次的數據,該自動化流程可以實現對不同類型數據的自動化過濾及數據統計。提高服務器使用效率,減少分析人員的分析壓力 ...
【技術保護點】
高通量Miseq測序數據自動化過濾方法,其特征在于,具體包括如下步驟:1)輸入要進行分析的項目信息步驟格式大致為一行表示一個項目的信息,前面幾列的元素分別為下機編號,合同編號,開題單號,測序平臺,樣品名稱,其中間隔符設置為制表符;2)高通量測序數據與項目信息的匹配步驟進入Linux環境,從存儲數據的服務器調取測序的下機數據,與原來的不同是將數據的下機編號與項目信息匹配;3)對相應項目的數據進行預處理步驟包括對于樣品名字的處理,去除引物和barcode,去嵌合體,以及質量過濾,隨后得到數據進行下面的統計分析;4)對數據進行初步統計步驟對得到的數據進行統計得到下機數據的基本信息,主要包括原始數據量大小、Reads的數量。
【技術特征摘要】
1.高通量Miseq測序數據自動化過濾方法,其特征在于,具體包括如下步驟:1)輸入要進行分析的項目信息步驟格式大致為一行表示一個項目的信息,前面幾列的元素分別為下機編號,合同編號,開題單號,測序平臺,樣品名稱,其中間隔符設置為制表符;2)高通量測序數據與項目信息的匹配步驟進入Linux環境,從存儲數據的服務器調取...
【專利技術屬性】
技術研發人員:劉書云,葉偉星,姜麗榮,孫子奎,
申請(專利權)人:上海派森諾生物科技股份有限公司,
類型:發明
國別省市:上海,31
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。