System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV成人无码网站,无码丰满熟妇浪潮一区二区AV,久久老子午夜精品无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法及相關(guān)裝置制造方法及圖紙

    技術(shù)編號(hào):44511765 閱讀:0 留言:0更新日期:2025-03-07 13:08
    本發(fā)明專利技術(shù)公開(kāi)了一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法及相關(guān)裝置,獲取單樣本變異數(shù)據(jù)與多樣本變異數(shù)據(jù);將單樣本變異數(shù)據(jù)或多樣本變異數(shù)據(jù)采用基于滑動(dòng)窗口的粗聚類劃分進(jìn)不同窗口;在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類;將細(xì)聚類結(jié)果進(jìn)行合并;將合并結(jié)果進(jìn)行整合,得到共識(shí)序列。本發(fā)明專利技術(shù)在變異的長(zhǎng)度與位置信息之上,考慮變異序列相似性,可以發(fā)現(xiàn)更多的相似結(jié)構(gòu)變異,并且有更高的合并精度。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)屬于基因組結(jié)構(gòu)變異檢測(cè),具體涉及一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法及相關(guān)裝置


    技術(shù)介紹

    1、基因組結(jié)構(gòu)變異(structural?variation)是指長(zhǎng)度超過(guò)50bp的基因組重排,通常包括缺失,插入,倒位,重復(fù)和易位等。結(jié)構(gòu)變異和我們每個(gè)人都息息相關(guān),主要體現(xiàn)在人類疾病,染色體進(jìn)化和基因調(diào)控等方面。隨著測(cè)序技術(shù)的發(fā)展,尤其是第三代測(cè)序技術(shù)憑借超長(zhǎng)讀長(zhǎng)、高通量以及高準(zhǔn)確度的特點(diǎn),在多個(gè)研究領(lǐng)域展現(xiàn)出很大的優(yōu)勢(shì),人類對(duì)結(jié)構(gòu)變異的研究也逐漸深入。現(xiàn)在有許多基于三代測(cè)序數(shù)據(jù)的結(jié)構(gòu)變異檢測(cè)工具,例如2018年發(fā)表的sniffles,2019年發(fā)表的svim,2020年發(fā)表的cutesv等工具。然而這些結(jié)構(gòu)變異檢測(cè)工具中,即使綜合性能最好的工具在一些基因組高復(fù)雜度區(qū)域也存在大量假陽(yáng)性檢測(cè)結(jié)果。此外,這些工具檢測(cè)的對(duì)象均為單個(gè)樣本,無(wú)法直接得到群體規(guī)模的結(jié)構(gòu)變異結(jié)果。為此,需要進(jìn)行結(jié)構(gòu)變異合并來(lái)對(duì)檢測(cè)后的結(jié)果進(jìn)行處理,以得到更高精度的變異集合,并滿足群體結(jié)構(gòu)變異研究的需求。

    2、目前,已經(jīng)有一些用于結(jié)構(gòu)變異合并的工具。這些工具在合并結(jié)構(gòu)變異時(shí),主要遵循兩種不同的思路。第一種思路是直接利用結(jié)構(gòu)變異在參考基因組上的位置信息進(jìn)行合并,即通過(guò)分析兩個(gè)結(jié)構(gòu)變異在基因組上的比對(duì)位置和長(zhǎng)度,計(jì)算它們之間的重疊程度,并以此作為合并的依據(jù),survivor為采用這種合并方式的代表性工具。而第二種思路則是將結(jié)構(gòu)變異轉(zhuǎn)化為圖的形式,然后運(yùn)用圖聚類的方法來(lái)實(shí)現(xiàn)合并,例如2023年發(fā)表的合并工具jasmine。這兩種思路實(shí)質(zhì)上都只使用了變異的位置信息,無(wú)法全面描述結(jié)構(gòu)變異的特征,限制了合并的性能。例如,survivor容易錯(cuò)誤地合并相同位置的不同插入、刪除變異,合并結(jié)果相對(duì)粗糙。而jasmine雖然使用了更細(xì)致的合并方法,但在基因組高重復(fù)度區(qū)域也經(jīng)常產(chǎn)生誤判,影響下游分析的準(zhǔn)確性。因此,只基于結(jié)構(gòu)變異的位置進(jìn)行合并是不夠的,需要考慮更多的信息作為結(jié)構(gòu)變異合并依據(jù)。


    技術(shù)實(shí)現(xiàn)思路

    1、為克服現(xiàn)有技術(shù)中基因組結(jié)構(gòu)變異檢測(cè)結(jié)果不準(zhǔn)確的技術(shù)問(wèn)題,本專利技術(shù)的目的是提供一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法及相關(guān)裝置,本專利技術(shù)不僅能在單樣本單檢測(cè)集場(chǎng)景下有效降低檢測(cè)結(jié)果的假陽(yáng)性率,提升檢測(cè)集的整體質(zhì)量,還能在多樣本場(chǎng)景下取得更好的合并效果。同時(shí),在單樣本場(chǎng)景下時(shí),本專利技術(shù)還具有識(shí)別部分復(fù)雜結(jié)構(gòu)變異的能力。

    2、為實(shí)現(xiàn)上述目的,本專利技術(shù)采用的技術(shù)方案如下:

    3、本專利技術(shù)的第一方面提供一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,包括以下步驟:

    4、獲取單樣本變異數(shù)據(jù)與多樣本變異數(shù)據(jù);

    5、將單樣本變異數(shù)據(jù)或多樣本變異數(shù)據(jù)采用基于滑動(dòng)窗口的粗聚類劃分進(jìn)不同窗口;

    6、在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類;

    7、將細(xì)聚類結(jié)果進(jìn)行合并;

    8、將合并結(jié)果進(jìn)行整合,得到共識(shí)序列。

    9、進(jìn)一步的,對(duì)于單樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:對(duì)每個(gè)窗口內(nèi)的序列,首先將變異序列拆分成k-mer集合,隨后通過(guò)統(tǒng)計(jì)k-mer頻率,在高維空間中構(gòu)建序列特征矩陣,最后依據(jù)特征矩陣間的余弦距離計(jì)算同一窗口下的結(jié)構(gòu)變異序列相似性。

    10、進(jìn)一步的,對(duì)于多樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:按照四進(jìn)制對(duì)k-mer進(jìn)行編碼,隨后以編碼和頻次作為鍵值對(duì),用哈希表存儲(chǔ)k-mer頻率并進(jìn)行kld距離計(jì)算,得到距離矩陣,根據(jù)距離矩陣,使用多維尺度變換在保持相對(duì)距離的前提下將變異映射至歐式空間。

    11、進(jìn)一步的,對(duì)于單樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:

    12、根據(jù)細(xì)聚類結(jié)果,基于窗口內(nèi)結(jié)構(gòu)變異之間的距離矩陣,使用自底向上的層次聚類方法進(jìn)行迭代聚類并更新矩陣,至設(shè)定的距離閾值終止。

    13、進(jìn)一步的,對(duì)于多樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:

    14、根據(jù)細(xì)聚類結(jié)果,使用kd樹(shù)優(yōu)化的密度聚類進(jìn)行合并。

    15、進(jìn)一步的,對(duì)于單樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:根據(jù)合并結(jié)果,采用層次聚類的樹(shù)結(jié)構(gòu)指導(dǎo)雙序列比對(duì)的路徑進(jìn)行多序列比對(duì),并生成共識(shí)序列。

    16、進(jìn)一步的,對(duì)于多樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:

    17、根據(jù)合并結(jié)果,使用高維矩陣記錄多序列比對(duì)的得分,構(gòu)建偏序比對(duì)圖并求解最大似然路徑,從而生成共識(shí)序列。

    18、本專利技術(shù)的第二方面提供一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并系統(tǒng),包括:

    19、數(shù)據(jù)獲取模塊,用于獲取單樣本變異數(shù)據(jù)與多樣本變異數(shù)據(jù);

    20、粗聚類模塊,用于將單樣本變異數(shù)據(jù)或多樣本變異數(shù)據(jù)采用基于滑動(dòng)窗口的粗聚類劃分進(jìn)不同窗口;

    21、細(xì)聚類模塊,用于在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類;

    22、合并模塊,用于將細(xì)聚類結(jié)果進(jìn)行合并;

    23、整合模塊,用于將合并結(jié)果進(jìn)行整合,得到共識(shí)序列。

    24、本專利技術(shù)的第三方面提供一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述的處理器執(zhí)行所述的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。

    25、本專利技術(shù)的第四方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述的計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。

    26、與現(xiàn)有技術(shù)相比,本專利技術(shù)具有的有益效果為:

    27、(1)本專利技術(shù)在變異的長(zhǎng)度與位置信息之上,考慮變異序列相似性,可以發(fā)現(xiàn)更多的相似結(jié)構(gòu)變異,并且有更高的合并精度;

    28、(2)單樣本單檢測(cè)集場(chǎng)景下,可以通過(guò)合并不同類型的變異發(fā)現(xiàn)潛在的復(fù)雜結(jié)構(gòu)變異,為后續(xù)相關(guān)研究提供一定參考;

    29、(3)合并能力表現(xiàn)穩(wěn)定,對(duì)單個(gè)檢測(cè)集性能的提升在不同support?reads下均有效果,且在基因組復(fù)雜區(qū)域依然有較好的合并能力;

    30、(4)在加入序列相似性計(jì)算的情況下,依然有較高的效率;

    31、(5)在多樣本場(chǎng)景中,相較于主流合并工具,有更強(qiáng)的合并能力。

    32、本專利技術(shù)可以在單樣本與多樣本場(chǎng)景下為研究人員提供一種更有效的結(jié)構(gòu)變異合并方式,從而得到個(gè)體與群體規(guī)模更高質(zhì)量的變異集合。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:對(duì)每個(gè)窗口內(nèi)的序列,首先將變異序列拆分成k-mer集合,隨后通過(guò)統(tǒng)計(jì)k-mer頻率,在高維空間中構(gòu)建序列特征矩陣,最后依據(jù)特征矩陣間的余弦距離計(jì)算同一窗口下的結(jié)構(gòu)變異序列相似性。

    3.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于多樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:按照四進(jìn)制對(duì)k-mer進(jìn)行編碼,隨后以編碼和頻次作為鍵值對(duì),用哈希表存儲(chǔ)k-mer頻率并進(jìn)行KLD距離計(jì)算,得到距離矩陣,根據(jù)距離矩陣,使用多維尺度變換在保持相對(duì)距離的前提下將變異映射至歐式空間。

    4.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:

    5.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于多樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:

    6.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:根據(jù)合并結(jié)果,采用層次聚類的樹(shù)結(jié)構(gòu)指導(dǎo)雙序列比對(duì)的路徑進(jìn)行多序列比對(duì),并生成共識(shí)序列。

    7.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于多樣本變異數(shù)據(jù),將合并結(jié)果進(jìn)行整合,得到共識(shí)序列,包括以下步驟:

    8.一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并系統(tǒng),其特征在于,包括:

    9.一種電子設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述的處理器執(zhí)行所述的計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述的計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:對(duì)每個(gè)窗口內(nèi)的序列,首先將變異序列拆分成k-mer集合,隨后通過(guò)統(tǒng)計(jì)k-mer頻率,在高維空間中構(gòu)建序列特征矩陣,最后依據(jù)特征矩陣間的余弦距離計(jì)算同一窗口下的結(jié)構(gòu)變異序列相似性。

    3.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于多樣本變異數(shù)據(jù),在每個(gè)窗口內(nèi)進(jìn)行基于序列相似性的細(xì)聚類,包括以下步驟:按照四進(jìn)制對(duì)k-mer進(jìn)行編碼,隨后以編碼和頻次作為鍵值對(duì),用哈希表存儲(chǔ)k-mer頻率并進(jìn)行kld距離計(jì)算,得到距離矩陣,根據(jù)距離矩陣,使用多維尺度變換在保持相對(duì)距離的前提下將變異映射至歐式空間。

    4.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合并方法,其特征在于,對(duì)于單樣本變異數(shù)據(jù),將細(xì)聚類結(jié)果進(jìn)行合并,包括以下步驟:

    5.根據(jù)權(quán)利要求1所述的基于三代測(cè)序數(shù)據(jù)、考慮序列相似性的結(jié)構(gòu)變異合...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:楊曉飛鄭洋葉凱王松渤
    申請(qǐng)(專利權(quán))人:西安交通大學(xué)
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 免费无码午夜福利片 | 伊人久久无码中文字幕| 国产精品无码一本二本三本色| 久久久久久精品无码人妻| 无码日韩AV一区二区三区| 亚洲一区AV无码少妇电影☆| 麻豆AV无码精品一区二区| 在线精品无码字幕无码AV| 国产成年无码久久久久下载| 夜夜添无码试看一区二区三区| 精品韩国亚洲av无码不卡区| 人妻无码久久一区二区三区免费| 一本一道中文字幕无码东京热| 一本色道无码道DVD在线观看 | 高h纯肉无码视频在线观看| 无码射肉在线播放视频| 人禽无码视频在线观看| 国产AV无码专区亚洲精品 | 免费看成人AA片无码视频吃奶| 人妻丰满AV无码久久不卡| 伊人久久精品无码二区麻豆| 无码 免费 国产在线观看91| 免费无码AV电影在线观看| 97久久精品无码一区二区天美| 亚洲AV人无码综合在线观看| 夜夜添无码试看一区二区三区| 精品无码av无码专区| 无码av无码天堂资源网| 国内精品久久人妻无码不卡| 成人免费a级毛片无码网站入口 | 亚洲精品无码久久久久秋霞| 久久久久琪琪去精品色无码| 亚洲av无码乱码国产精品| 亚洲欧洲自拍拍偷午夜色无码| 中文字幕无码第1页| 亚洲成A人片在线观看无码不卡 | 亚洲日韩看片无码电影| 亚洲av永久中文无码精品综合 | 亚洲AV中文无码字幕色三| 国产成人无码18禁午夜福利p | 久久亚洲精品无码VA大香大香|