System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于基因組結(jié)構(gòu)變異檢測(cè),具體涉及一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法及相關(guān)裝置。
技術(shù)介紹
1、基因組結(jié)構(gòu)變異(structural?variation)是指長(zhǎng)度超過(guò)50bp的基因組重排,通常包括缺失,插入,倒位,重復(fù)和易位等。結(jié)構(gòu)變異和我們每個(gè)人都息息相關(guān),主要體現(xiàn)在人類疾病,染色體進(jìn)化和基因調(diào)控等方面。隨著測(cè)序技術(shù)的發(fā)展,尤其是第三代測(cè)序技術(shù)憑借超長(zhǎng)讀長(zhǎng)、高通量以及高準(zhǔn)確度的特點(diǎn),在多個(gè)研究領(lǐng)域展現(xiàn)出很大的優(yōu)勢(shì),人類對(duì)結(jié)構(gòu)變異的研究也逐漸深入。現(xiàn)在有許多基于三代測(cè)序數(shù)據(jù)的結(jié)構(gòu)變異檢測(cè)工具,例如2018年發(fā)表的sniffles,2019年發(fā)表的svim,2020年發(fā)表的cutesv等工具。然而這些結(jié)構(gòu)變異檢測(cè)工具中,即使綜合性能最好的工具在一些基因組高復(fù)雜度區(qū)域也存在大量假陽(yáng)性檢測(cè)結(jié)果。此外,這些工具檢測(cè)的對(duì)象均為單個(gè)樣本,無(wú)法直接得到群體規(guī)模的結(jié)構(gòu)變異結(jié)果。為此,需要進(jìn)行結(jié)構(gòu)變異合并來(lái)對(duì)檢測(cè)后的結(jié)果進(jìn)行處理,以得到更高精度的變異集合,并滿足群體結(jié)構(gòu)變異研究的需求。
2、目前,已經(jīng)有一些用于結(jié)構(gòu)變異合并的工具。這些工具在合并結(jié)構(gòu)變異時(shí),主要遵循兩種不同的思路。第一種思路是直接利用結(jié)構(gòu)變異在參考基因組上的位置信息進(jìn)行合并,即通過(guò)分析兩個(gè)結(jié)構(gòu)變異在基因組上的比對(duì)位置和長(zhǎng)度,計(jì)算它們之間的重疊程度,并以此作為合并的依據(jù),survivor為采用這種合并方式的代表性工具。而第二種思路則是將結(jié)構(gòu)變異轉(zhuǎn)化為圖的形式,然后運(yùn)用圖聚類的方法來(lái)實(shí)現(xiàn)合并,例如2023年發(fā)表的合并工具jasmine。這兩種思路
技術(shù)實(shí)現(xiàn)思路
1、為克服現(xiàn)有技術(shù)中基因組結(jié)構(gòu)變異檢測(cè)結(jié)果不準(zhǔn)確的技術(shù)問(wèn)題,本專利技術(shù)的目的是提供一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法及相關(guān)裝置,本專利技術(shù)不僅能在單樣本單檢測(cè)集場(chǎng)景下有效降低檢測(cè)結(jié)果的假陽(yáng)性率,提升檢測(cè)集的整體質(zhì)量,還能在多樣本場(chǎng)景下取得更好的合并效果。同時(shí),在單樣本場(chǎng)景下時(shí),本專利技術(shù)還具有識(shí)別部分復(fù)雜結(jié)構(gòu)變異的能力。
2、為實(shí)現(xiàn)上述目的,本專利技術(shù)采用的技術(shù)方案如下:
3、本專利技術(shù)的第一方面提供一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,包括以下步驟:
4、獲取單樣本變異數(shù)據(jù)與多樣本變異數(shù)據(jù);
5、將單樣本變異數(shù)據(jù)或多樣本變異數(shù)據(jù)采用基于滑動(dòng)窗口的粗聚類劃分進(jìn)不同窗口;
6、在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類;
7、將細(xì)聚類結(jié)果進(jìn)行合并;
8、將合并結(jié)果進(jìn)行整合,得到共識(shí)序列。
9、進(jìn)一步的,對(duì)于單樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:對(duì)每個(gè)窗口內(nèi)的序列,首先將變異序列拆分成k-mer集合,隨后通過(guò)統(tǒng)計(jì)k-mer頻率,在高維空間中構(gòu)建序列特征矩陣,最后依據(jù)特征矩陣間的余弦距離計(jì)算同一窗口下的結(jié)構(gòu)變異序列相似性。
10、進(jìn)一步的,對(duì)于多樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:按照四進(jìn)制對(duì)k-mer進(jìn)行編碼,隨后以編碼和頻次作為鍵值對(duì),用哈希表存儲(chǔ)k-mer頻率并進(jìn)行kld距離計(jì)算,得到距離矩陣,根據(jù)距離矩陣,使用多維尺度變換在保持相對(duì)距離的前提下將變異映射至歐式空間。
11、進(jìn)一步的,對(duì)于單樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:
12、根據(jù)細(xì)聚類結(jié)果,基于窗口內(nèi)結(jié)構(gòu)變異之間的距離矩陣,使用自底向上的層次聚類方法進(jìn)行迭代聚類并更新矩陣,至設(shè)定的距離閾值終止。
13、進(jìn)一步的,對(duì)于多樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:
14、根據(jù)細(xì)聚類結(jié)果,使用kd樹(shù)優(yōu)化的密度聚類進(jìn)行合并。
15、進(jìn)一步的,對(duì)于單樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:根據(jù)合并結(jié)果,采用層次聚類的樹(shù)結(jié)構(gòu)指導(dǎo)雙序列比對(duì)的路徑進(jìn)行多序列比對(duì),并生成共識(shí)序列。
16、進(jìn)一步的,對(duì)于多樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:
17、根據(jù)合并結(jié)果,使用高維矩陣記錄多序列比對(duì)的得分,構(gòu)建偏序比對(duì)圖并求解最大似然路徑,從而生成共識(shí)序列。
18、本專利技術(shù)的第二方面提供一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并系統(tǒng),包括:
19、數(shù)據(jù)獲取模塊,用于獲取單樣本變異數(shù)據(jù)與多樣本變異數(shù)據(jù);
20、粗聚類模塊,用于將單樣本變異數(shù)據(jù)或多樣本變異數(shù)據(jù)采用基于滑動(dòng)窗口的粗聚類劃分進(jìn)不同窗口;
21、細(xì)聚類模塊,用于在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類;
22、合并模塊,用于將細(xì)聚類結(jié)果進(jìn)行合并;
23、整合模塊,用于將合并結(jié)果進(jìn)行整合,得到共識(shí)序列。
24、本專利技術(shù)的第三方面提供一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述的處理器執(zhí)行所述的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。
25、本專利技術(shù)的第四方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述的計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。
26、與現(xiàn)有技術(shù)相比,本專利技術(shù)具有的有益效果為:
27、(1)本專利技術(shù)在變異的長(zhǎng)度與位置信息之上,考慮變異序列相似性,可以發(fā)現(xiàn)更多的相似結(jié)構(gòu)變異,并且有更高的合并精度;
28、(2)單樣本單檢測(cè)集場(chǎng)景下,可以通過(guò)合并不同類型的變異發(fā)現(xiàn)潛在的復(fù)雜結(jié)構(gòu)變異,為后續(xù)相關(guān)研究提供一定參考;
29、(3)合并能力表現(xiàn)穩(wěn)定,對(duì)單個(gè)檢測(cè)集性能的提升在不同support?reads下均有效果,且在基因組復(fù)雜區(qū)域依然有較好的合并能力;
30、(4)在加入序列相似性計(jì)算的情況下,依然有較高的效率;
31、(5)在多樣本場(chǎng)景中,相較于主流合并工具,有更強(qiáng)的合并能力。
32、本專利技術(shù)可以在單樣本與多樣本場(chǎng)景下為研究人員提供一種更有效的結(jié)構(gòu)變異合并方式,從而得到個(gè)體與群體規(guī)模更高質(zhì)量的變異集合。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:對(duì)每個(gè)窗口內(nèi)的序列,首先將變異序列拆分成k-mer集合,隨后通過(guò)統(tǒng)計(jì)k-mer頻率,在高維空間中構(gòu)建序列特征矩陣,最后依據(jù)特征矩陣間的余弦距離計(jì)算同一窗口下的結(jié)構(gòu)變異序列相似性。
3.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于多樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:按照四進(jìn)制對(duì)k-mer進(jìn)行編碼,隨后以編碼和頻次作為鍵值對(duì),用哈希表存儲(chǔ)k-mer頻率并進(jìn)行KLD距離計(jì)算,得到距離矩陣,根據(jù)距離矩陣,使用多維尺度變換在保持相對(duì)距離的前提下將變異映射至歐式空間。
4.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:
5.根據(jù)權(quán)
6.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:根據(jù)合并結(jié)果,采用層次聚類的樹(shù)結(jié)構(gòu)指導(dǎo)雙序列比對(duì)的路徑進(jìn)行多序列比對(duì),并生成共識(shí)序列。
7.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于多樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:
8.一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述的處理器執(zhí)行所述的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述的計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。
...【技術(shù)特征摘要】
1.一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:對(duì)每個(gè)窗口內(nèi)的序列,首先將變異序列拆分成k-mer集合,隨后通過(guò)統(tǒng)計(jì)k-mer頻率,在高維空間中構(gòu)建序列特征矩陣,最后依據(jù)特征矩陣間的余弦距離計(jì)算同一窗口下的結(jié)構(gòu)變異序列相似性。
3.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于多樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:按照四進(jìn)制對(duì)k-mer進(jìn)行編碼,隨后以編碼和頻次作為鍵值對(duì),用哈希表存儲(chǔ)k-mer頻率并進(jìn)行kld距離計(jì)算,得到距離矩陣,根據(jù)距離矩陣,使用多維尺度變換在保持相對(duì)距離的前提下將變異映射至歐式空間。
4.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:
5.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊曉飛,鄭洋,葉凱,王松渤,
申請(qǐng)(專利權(quán))人:西安交通大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。