本發(fā)明專利技術公開的乳腺癌易感基因遺傳變異位點的檢測分析方法,其特征在于,包括如下步驟:(1)數(shù)據(jù)質控步驟;(2)序列比對步驟;(3)變異檢測步驟;(4)變異注釋步驟;(5)統(tǒng)計報告步驟。本發(fā)明專利技術具有以下優(yōu)點:(1)集成化;(2)高效化;(3)可視化。
【技術實現(xiàn)步驟摘要】
本專利技術屬于生物信息數(shù)據(jù)處理
,特別涉及一種乳腺癌易感基因遺傳變異位點的檢測分析方法,該檢測分析方法主要應用與第二代高通量測序領域,基于全外顯子組測序,對乳腺癌易感基因BRCA1和BRCA2進行SNP和INDEL變異位點檢測分析。
技術介紹
女性作為社會和家庭生活中非常重要的一個群體,正在承受著前所未有的工作和生活的壓力,加上環(huán)境因素的變化,使許多女性疾病正日益年輕化,比如乳腺癌。它的發(fā)病常與遺傳有關,大約5-10%的乳腺癌和基因突變有關,而這些突變可以由父母傳遞給下一代。其中BRCA1和BRCA2基因突變在乳腺癌中最為常見。有BRCA1基因突變的女性在一生中有55-65%的可能會患乳腺癌,BRCA1基因突變的女性一生中患癌的風險大約為45%。在男性中,BRCA2基因突變其一生患乳腺癌的風險大約6.8%,而BRCA1突變引起患癌的風險相對要低些。到目前為止,F(xiàn)DA已經(jīng)批準的用于乳腺癌的靶向用藥有拉帕替尼、曲妥珠單抗、帕妥珠單抗和依維莫斯等。一種靶向藥物一般只針對一種常見的突變基因,但同一腫瘤不同患者突變基因也不盡相同,對同一腫瘤治療藥物的療效和毒副作用上也存在一定的差異。因此在用藥之前必須對個體進行基因檢測,通過了解不同個體的遺傳差異,從而判斷個體對不同藥物的療效和毒副作用。隨著高通量測序的廣泛應用,基于全基因組或者外顯子組測序,對乳腺癌易感基因進行檢測的分析方法也越來越多,但是目前存在以下幾點問題:1.分析步驟繁瑣:從測序數(shù)據(jù)下機,到進一步質量控制以及后續(xù)的分析流程,其中涉及到的軟件眾多,分析過程繁瑣。2.分析周期較長:傳統(tǒng)的分析流程中有些分析步驟由于算法和數(shù)據(jù)結構處理存在一定的不足,使得分析時間相對較長。3.結果可讀性欠佳:一般的分析流程中,結果中只有一些簡單的圖表文件,還有很多數(shù)據(jù)信息沒有有效的呈現(xiàn)。且現(xiàn)有的圖表在可視化、形象化角度來說還可以進一步提升。
技術實現(xiàn)思路
本專利技術的目的是針對上述存在的不足,提出一種利用全基因組或者全外顯子組測序數(shù)據(jù),針對乳腺癌易感基因BRCA1和BRCA2進行高效、快捷、準確、深入的信息挖掘分析,并給出可視化的數(shù)據(jù)結果的乳腺癌易感基因遺傳變異位點的檢測分析方法。為了實現(xiàn)本專利技術目的,本專利技術所采用的技術方案如下:乳腺癌易感基因遺傳變異位點的檢測分析方法,包括如下步驟:(1)數(shù)據(jù)質控步驟該步驟對原始測序數(shù)據(jù)質量進行評估,并降低由于測序因素造成的數(shù)據(jù)噪聲,提高數(shù)據(jù)的有效性、分析的準確性;(2)序列比對步驟對于步驟(1)質控后較大的數(shù)據(jù),先進行正確分割,再利用BWA-MEM算法,利用多線程將序列比對到目標基因組上;(3)變異檢測步驟對比對后的數(shù)據(jù)進行局部質量矯正后,采用GATK程序中的利用局部重新組裝、隱馬爾可夫模型算法的HaplotypeCaller進行變異位點檢測;(4)變異注釋步驟將變異位點進行基因結構、功能、及臨床表型三個層次的注釋;(5)統(tǒng)計報告步驟統(tǒng)計序列比對結果,并針對BRCA1、BRCA2進行GC偏差、覆蓋度、變異位點信息進行統(tǒng)計分析并輸出可視化圖表。在本專利技術的一個優(yōu)選實施例中,所述步驟(1)具體是:(1.1)利用FastQC查看測序質量結果,查看序列測序得分值分布、GC分布和重復率;統(tǒng)計所有序列的總TotalReads,Totalbases、Q20、Q30、GC含量、N字符的數(shù)量及相關比例;(1.2)去除序列中含有的接頭序列;(1.3)對序列首尾的index或者測序質量比較差的reads進行trimming;(1.4)利用滑動窗口,根據(jù)得分值對低質量的Reads進行過濾,如去除N或者低得分值的序列。在本專利技術的一個優(yōu)選實施例中,所述步驟(2)具體是:(2.1)通過bwtsw算法對參考基因組構建比對索引;(2.2)通過BWA-MEM算法將目標序列比對到基因組;(2.3)利用picard里面的MarkDuplicates去除由于PCR引入的重復序列,并利用samtools提取唯一比對上參考基因組的序列;(2.4)利用GATK-RealignerTargetCreator來確定在INDEL附近需要進行重比對的區(qū)域,利用IndelRealigner在確定的區(qū)域內(nèi)進行重新比對;(2.5)對(2.4)步驟產(chǎn)生的比對文件的堿基質量進行重新矯正。在本專利技術的一個優(yōu)選實施例中,所述步驟(3)具體是:(3.1)通過GATK采用Localdenovoassembler和HMMlikelihood方法,進行變異位點檢測;(3.2)結合DP、QD、MQ等參數(shù)分別對SNV和INDEL位點進行過濾。在本專利技術的一個優(yōu)選實施例中,所述步驟(4)具體是:(4.1)將變異位點定位到基因組相應位置,分析變異位點是否會造成氨基酸改變,編碼結構改變;(4.2)通過和相關變異數(shù)據(jù)庫進行比較,如和dbSNP和千人基因組變異位點進行比較可以獲得相關變異位點號和群體變異頻率。(4.3)通過和相關疾病數(shù)據(jù)庫如clinvar比對獲得相關疾病的致病可能性。在本專利技術的一個優(yōu)選實施例中,所述步驟(5)具體是:(5.1)對測序數(shù)據(jù)比對結果進行統(tǒng)計,并輸出圖表;(5.2)對BRCA1/2的覆蓋度進行統(tǒng)計分析,并輸出圖表;(5.3)對BRCA1/2的的變異位點進行統(tǒng)計分析,并輸出圖表。本專利技術主要應用于對乳腺癌易感基因BRCA1和BRCA2進行SNP和INDEL變異位點進行檢測分析,具有以下優(yōu)點:(1)集成化:本專利技術運行只有一條命令,便可以實現(xiàn)以下各大功能:對測序數(shù)據(jù)進行質控;測序數(shù)據(jù)比對到參考基因組;比對結果統(tǒng)計;變異位點檢測;變異位點注釋;BRCA1/BRCA2基因及外顯子覆蓋度、GC含量統(tǒng)計;BRCA1/BRCA2外顯子及其上下游10bp范圍內(nèi)變異統(tǒng)計分析;對以上分析結果進行可視化展示。(2)高效化:首先對于傳統(tǒng)的比較耗時的分析步驟,本程序進行了大量優(yōu)化,引用了運行速度較快的編程語言和算法。其次對于運行過程中比較繁瑣的步驟本程序也進行了相應的簡化,另外在數(shù)據(jù)結構處理上本程序也進行了相應的優(yōu)化。(3)可視化:本軟件分析結果中除了提供大量的表格文件外,還會給出大量形象的信息圖,使得更多的數(shù)據(jù)信息得以展示,也使得結果一目了然。附圖說明圖1為本專利技術的流程示意圖。圖2為本專利技術的BRCA1基因測序覆蓋圖及探針位置例示意圖。圖3為本專利技術的測序深度密度分布示意圖。圖4為本專利技術的BRCA1/2測序深度以8X為界限的分布示意圖。圖5為本專利技術的總SNPs分布示意圖。圖6為本專利技術的總SNPs功能突變類型比例示意圖。圖7為本專利技術的BRCA1/2突變類型統(tǒng)計示意圖。圖8為本專利技術的INDEL長度分布示意圖。圖9為本專利技術的BRCA1/2INDEL變異類型統(tǒng)計示意圖。具體實施方式為了實現(xiàn)本專利技術目的,本專利技術包括五大主要步驟,①數(shù)據(jù)質控→②序列比對→③變異檢測→④變異注釋→⑤統(tǒng)計報告,如附圖1所示,具體步驟和方法如下:1.數(shù)據(jù)質控步驟1.1首先利用FastQC查看測序質量,包括:堿基質量、GC含量、序列長度分布、序列重復水平等;以指導后續(xù)的進一步質控。除此常規(guī)程序之外,本專利技術利用perl語言開發(fā)了更加快速、高效的質量統(tǒng)計程序。傳統(tǒng)程序讀取測序數(shù)據(jù)時候為逐行讀取,速度較慢,本程序利用測序數(shù)據(jù)的特殊頭文件實現(xiàn)按序列模塊讀取,并結合二重哈本文檔來自技高網(wǎng)...

【技術保護點】
乳腺癌易感基因遺傳變異位點的檢測分析方法,其特征在于,包括如下步驟:(1)數(shù)據(jù)質控步驟該步驟對原始測序數(shù)據(jù)質量進行評估,并降低由于測序因素造成的數(shù)據(jù)噪聲,提高數(shù)據(jù)的有效性、分析的準確性;(2)序列比對步驟對于步驟(1)質控后較大的數(shù)據(jù),先進行正確分割,再利用BWA?MEM算法,利用多線程將序列比對到目標基因組上;(3)變異檢測步驟對比對后的數(shù)據(jù)進行局部質量矯正后,采用GATK程序中的利用局部重新組裝、隱馬爾可夫模型算法的HaplotypeCaller進行變異位點檢測;(4)變異注釋步驟將變異位點進行基因結構、功能、及臨床表型三個層次的注釋;(5)統(tǒng)計報告步驟統(tǒng)計序列比對結果,并針對BRCA1、BRCA2進行GC偏差、覆蓋度、變異位點信息進行統(tǒng)計分析并輸出可視化圖表。
【技術特征摘要】
1.乳腺癌易感基因遺傳變異位點的檢測分析方法,其特征在于,包括如下步驟:(1)數(shù)據(jù)質控步驟該步驟對原始測序數(shù)據(jù)質量進行評估,并降低由于測序因素造成的數(shù)據(jù)噪聲,提高數(shù)據(jù)的有效性、分析的準確性;(2)序列比對步驟對于步驟(1)質控后較大的數(shù)據(jù),先進行正確分割,再利用BWA-MEM算法,利用多線程將序列比對到目標基因組上;(3)變異檢測步驟對比對后的數(shù)據(jù)進行局部質量矯正后,采用GATK程序中的利用局部重新組裝、隱馬爾可夫模型算法的HaplotypeCaller進行變異位點檢測;(4)變異注釋步驟將變異位點進行基因結構、功能、及臨床表型三個層次的注釋;(5)統(tǒng)計報告步驟統(tǒng)計序列比對結果,并針對BRCA1、BRCA2進行GC偏差、覆蓋度、變異位點信息進行統(tǒng)計分析并輸出可視化圖表。2.如權利要求1所述的乳腺癌易感基因遺傳變異位點的檢測分析方法,其特征在于,所述步驟(1)具體是:(1.1)利用FastQC查看測序質量結果,查看序列測序得分值分布、GC分布和重復率;統(tǒng)計所有序列的總TotalReads,Totalbases、Q20、Q30、GC含量、N字符的數(shù)量及相關比例;(1.2)去除序列中含有的接頭序列;(1.3)對序列首尾的index或者測序質量比較差的reads進行trimming;(1.4)利用滑動窗口,根據(jù)得分值對低質量的Reads進行過濾,如去除N或者低得分值的序列。3.如權利要求1所述的乳腺癌易感基因遺傳變異位點的檢測分析方法,其特征在于,所述步驟(2)具體是:(2.1)通過bwtsw算法對參考基因組構建比對索引;...
【專利技術屬性】
技術研發(fā)人員:劉港飚,朱月艷,孫子奎,
申請(專利權)人:上海派森諾醫(yī)學檢驗所有限公司,
類型:發(fā)明
國別省市:上海;31
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。