System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码人妻精品一区二区三区99性,中文字幕av无码不卡免费,亚洲av永久无码制服河南实里
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):43449531 閱讀:6 留言:0更新日期:2024-11-27 12:52
    本發(fā)明專(zhuān)利技術(shù)涉及蛋白質(zhì)序列聚類(lèi)技術(shù)領(lǐng)域,公開(kāi)了基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng);方法包括:對(duì)第i個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割,得到若干個(gè)蛋白質(zhì)子序列,對(duì)每個(gè)蛋白質(zhì)子序列,均采用第j種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;選擇哈希值中的最小值,作為MinHash值;得到序列在M種哈希函數(shù)下的MinHash值;進(jìn)而得到N個(gè)待聚類(lèi)的蛋白質(zhì)序列在M種哈希函數(shù)下的MinHash值;在每一種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值,將值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中;對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi)得到聚類(lèi)結(jié)果。在降低計(jì)算復(fù)雜度的同時(shí),保持聚類(lèi)結(jié)果的準(zhǔn)確性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)涉及蛋白質(zhì)序列聚類(lèi),特別是涉及基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng)


    技術(shù)介紹

    1、蛋白質(zhì)聚類(lèi)是生物信息學(xué)中的一種技術(shù),用于根據(jù)蛋白質(zhì)序列或結(jié)構(gòu)的相似性對(duì)蛋白質(zhì)進(jìn)行分組。通過(guò)聚類(lèi),研究人員可以識(shí)別出具有相似功能或進(jìn)化關(guān)系的蛋白質(zhì)家族,這可以幫助研究人員推斷未知蛋白質(zhì)的功能;聚類(lèi)還有助于識(shí)別在進(jìn)化上保守的蛋白質(zhì)家族,幫助理解生物的進(jìn)化過(guò)程;不僅如此,蛋白質(zhì)聚類(lèi)能夠有效減少在下游分析中需要處理的序列數(shù)量,減少數(shù)據(jù)冗余,降低計(jì)算和存儲(chǔ)的成本,有助于提高生物信息的分析效率。

    2、然而隨著高通量測(cè)序技術(shù)的發(fā)展,蛋白質(zhì)序列數(shù)據(jù)的規(guī)模呈爆炸性增長(zhǎng),這對(duì)蛋白質(zhì)序列的聚類(lèi)工作帶來(lái)了很多方面的影響。

    3、首先大規(guī)模的蛋白質(zhì)序列數(shù)量會(huì)造成聚類(lèi)算法的耗時(shí)增加,尤其是面對(duì)數(shù)百萬(wàn)甚至數(shù)億條序列數(shù)據(jù)時(shí),計(jì)算的復(fù)雜度會(huì)有顯著增加。以傳統(tǒng)的貪心增量聚類(lèi)方法為例,這種方法將輸入序列與已經(jīng)建立的聚類(lèi)的代表序列進(jìn)行比較。當(dāng)序列與某個(gè)聚類(lèi)的代表序列滿(mǎn)足相似性標(biāo)準(zhǔn)時(shí),將該序列加入到該聚類(lèi)中;否則,該序列就成為新的聚類(lèi)代表。由于每個(gè)序列都要與聚類(lèi)代表做比較,時(shí)間復(fù)雜度是,其中,是最終的聚類(lèi)數(shù),是序列長(zhǎng)度。在蛋白質(zhì)序列聚類(lèi)中,通常與大小相近,因此隨著輸入序列的增加,總運(yùn)行時(shí)間幾乎呈二次方隨增加。

    4、其次,這會(huì)造成對(duì)計(jì)算資源需求的增加。在處理聚類(lèi)任務(wù)前需要將大量的序列加載到內(nèi)存中以進(jìn)行快速的比較和聚類(lèi),數(shù)據(jù)規(guī)模越大,內(nèi)存的消耗也越多,會(huì)造成訪問(wèn)和處理序列的時(shí)間增加。而且由于大規(guī)模序列數(shù)據(jù)需要更長(zhǎng)的計(jì)算時(shí)間,這使聚類(lèi)需要更強(qiáng)大的計(jì)算資源,可能需要更多的cpu核心和高性能計(jì)算集群。

    5、因此,面對(duì)這些挑戰(zhàn),需要本專(zhuān)利技術(shù)設(shè)計(jì)更高效的聚類(lèi)算法在提升聚類(lèi)速度的同時(shí),盡量減少資源消耗,使蛋白質(zhì)序列數(shù)據(jù)的聚類(lèi)能更好地適應(yīng)大規(guī)模數(shù)據(jù)集的需求,為生物信息學(xué)研究提供更有力的支持。


    技術(shù)實(shí)現(xiàn)思路

    1、隨著蛋白質(zhì)序列數(shù)量的急劇增加,傳統(tǒng)的聚類(lèi)算法因計(jì)算復(fù)雜度過(guò)高,尤其在處理數(shù)十億條序列時(shí),效率顯著下降。為解決這一問(wèn)題,本專(zhuān)利技術(shù)設(shè)計(jì)了基于分組的蛋白質(zhì)序列聚類(lèi)方法及系統(tǒng),旨在降低計(jì)算復(fù)雜度的同時(shí),保持聚類(lèi)結(jié)果的準(zhǔn)確性。該算法在優(yōu)化計(jì)算資源使用的基礎(chǔ)上,能夠有效應(yīng)對(duì)大規(guī)模數(shù)據(jù)集的聚類(lèi)需求。

    2、一方面,提供了基于分組的蛋白質(zhì)序列聚類(lèi)方法,包括:(1)獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列;對(duì)第個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割,得到若干個(gè)蛋白質(zhì)子序列,將第個(gè)待聚類(lèi)的蛋白質(zhì)序列的所有蛋白質(zhì)子序列匯總到第個(gè)集合中。

    3、(2)對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;選擇第個(gè)集合中的所有蛋白質(zhì)子序列對(duì)應(yīng)的哈希值中的最小值,作為第個(gè)待聚類(lèi)的蛋白質(zhì)序列在第個(gè)哈希函數(shù)下的minhash值。

    4、(3)一共有m種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值;進(jìn)而得到n個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值。

    5、(4)在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值,將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中;結(jié)合前j-1種哈希函數(shù)下的分組結(jié)果,對(duì)第j種哈希函數(shù)下初步形成的分組結(jié)果進(jìn)行合并操作,得到j(luò)種哈希函數(shù)下的分組結(jié)果。

    6、(5)對(duì)m種哈希函數(shù),重復(fù)(4)的過(guò)程,得到最終的分組結(jié)果。

    7、(6)針對(duì)最終的分組結(jié)果,對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果。

    8、另一方面,提供了基于分組的蛋白質(zhì)序列聚類(lèi)系統(tǒng),包括:獲取模塊,其被配置為:獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列;對(duì)第個(gè)待聚類(lèi)的蛋白質(zhì)序列進(jìn)行分割,得到若干個(gè)蛋白質(zhì)子序列,將第個(gè)待聚類(lèi)的蛋白質(zhì)序列的所有蛋白質(zhì)子序列匯總到第個(gè)集合中。

    9、映射模塊,其被配置為:對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;選擇第個(gè)集合中的所有蛋白質(zhì)子序列對(duì)應(yīng)的哈希值中的最小值,作為第個(gè)待聚類(lèi)的蛋白質(zhì)序列在第個(gè)哈希函數(shù)下的minhash值。

    10、第一判斷模塊,其被配置為:一共有m種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值;進(jìn)而得到n個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值。

    11、遍歷模塊,其被配置為:在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值,將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中;結(jié)合前j-1種哈希函數(shù)下的分組結(jié)果,對(duì)第j種哈希函數(shù)下初步形成的分組結(jié)果進(jìn)行合并操作,得到j(luò)種哈希函數(shù)下的分組結(jié)果。

    12、重復(fù)模塊,其被配置為:對(duì)m種哈希函數(shù),重復(fù)遍歷模塊的過(guò)程,得到最終的分組結(jié)果。

    13、聚類(lèi)模塊,其被配置為:針對(duì)最終的分組結(jié)果,對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果。

    14、上述技術(shù)方案具有如下優(yōu)點(diǎn)或有益效果:本專(zhuān)利所設(shè)計(jì)的大規(guī)模蛋白質(zhì)聚類(lèi)算法,在面向大規(guī)模蛋白質(zhì)序列的聚類(lèi)時(shí),解決了傳統(tǒng)算法的擴(kuò)展性問(wèn)題,顯著降低了計(jì)算復(fù)雜度,且相對(duì)于傳統(tǒng)的高精度聚類(lèi)方法不會(huì)有精度損失;相對(duì)于面向大規(guī)模數(shù)據(jù)設(shè)計(jì)的低精度聚類(lèi)算法,本專(zhuān)利能夠有效解決其精度損失,提升聚類(lèi)的敏感性。

    15、具體來(lái)說(shuō),傳統(tǒng)的經(jīng)典聚類(lèi)方法比如層次聚類(lèi),其序列比對(duì)的時(shí)間復(fù)雜度為,而本專(zhuān)利提出的算法的時(shí)間復(fù)雜度為,其中為組數(shù)。在實(shí)際應(yīng)用當(dāng)中,可以固定為10左右的常數(shù),的大小接近于。本專(zhuān)利所設(shè)計(jì)聚類(lèi)方法的時(shí)間復(fù)雜度可以近似為,在序列較多的情況下,明顯小于傳統(tǒng)算法的復(fù)雜度。得益于復(fù)雜度的降低,在實(shí)際測(cè)試中,基于本專(zhuān)利算法所實(shí)現(xiàn)的軟件,其效率顯著高于基于傳統(tǒng)算法的蛋白質(zhì)序列聚類(lèi)軟件。

    16、現(xiàn)在面向大規(guī)模數(shù)據(jù)設(shè)計(jì)的低精度聚類(lèi)算法如linclust,其采用的分組方案沒(méi)有嚴(yán)格意義上的數(shù)學(xué)保證,有較大概率產(chǎn)生假陰性。按照本專(zhuān)利技術(shù)的分組方法,具有一定相似度的兩條序列,發(fā)生假陰性的概率為。例如兩條相似度為90%的序列,在為10的情況下,發(fā)生假陰性的概率為。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,包括:

    2.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,(3)中,一共有M種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在M種哈希函數(shù)下的MinHash值,之前還包括:

    3.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,所述在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值,將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中之后,所述對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果之前,還包括:

    4.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,獲取N個(gè)待聚類(lèi)的蛋白質(zhì)序列,所述待聚類(lèi)的蛋白質(zhì)序列,包括:蛋白質(zhì)的唯一標(biāo)識(shí)符、蛋白質(zhì)序列的長(zhǎng)度和蛋白質(zhì)的氨基酸序列;所述蛋白質(zhì)的唯一標(biāo)識(shí)符是數(shù)據(jù)庫(kù)中蛋白質(zhì)的記錄編號(hào);

    5.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;所述哈希函數(shù),是指:整數(shù)哈希函數(shù)和通用哈希函數(shù);其中,通用哈希函數(shù)使用xxHash作為基礎(chǔ)哈希函數(shù),結(jié)合由偽隨機(jī)數(shù)生成器生成的M個(gè)隨機(jī)種子序列,模擬生成M個(gè)64位的隨機(jī)哈希值;

    6.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中,包括:

    7.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的MinHash值,將MinHash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中,這個(gè)過(guò)程被稱(chēng)為一個(gè)輪次,之后,還包括:每個(gè)輪次遍歷結(jié)束后,通過(guò)并查集將當(dāng)前輪次的分組結(jié)果與前一輪次的分組結(jié)果進(jìn)行合并,得到分組結(jié)果。

    8.如權(quán)利要求7所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,所述通過(guò)并查集將當(dāng)前輪次的分組結(jié)果與前一輪次的分組結(jié)果進(jìn)行合并,具體包括:

    9.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果,具體包括:

    10.基于分組的蛋白質(zhì)序列聚類(lèi)系統(tǒng),其特征是,包括:

    ...

    【技術(shù)特征摘要】

    1.基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,包括:

    2.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,(3)中,一共有m種哈希函數(shù),則得到第個(gè)待聚類(lèi)的蛋白質(zhì)序列在m種哈希函數(shù)下的minhash值,之前還包括:

    3.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,所述在第種哈希函數(shù)下,遍歷所有待聚類(lèi)的蛋白質(zhì)序列所對(duì)應(yīng)的minhash值,將minhash值相同的待聚類(lèi)的蛋白質(zhì)序列劃入同一個(gè)分組中之后,所述對(duì)每個(gè)組內(nèi)的蛋白質(zhì)序列進(jìn)行聚類(lèi),得到聚類(lèi)結(jié)果之前,還包括:

    4.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,獲取n個(gè)待聚類(lèi)的蛋白質(zhì)序列,所述待聚類(lèi)的蛋白質(zhì)序列,包括:蛋白質(zhì)的唯一標(biāo)識(shí)符、蛋白質(zhì)序列的長(zhǎng)度和蛋白質(zhì)的氨基酸序列;所述蛋白質(zhì)的唯一標(biāo)識(shí)符是數(shù)據(jù)庫(kù)中蛋白質(zhì)的記錄編號(hào);

    5.如權(quán)利要求1所述的基于分組的蛋白質(zhì)序列聚類(lèi)方法,其特征是,對(duì)第個(gè)集合中的每個(gè)蛋白質(zhì)子序列,均采用第種哈希函數(shù)進(jìn)行哈希映射,得到每個(gè)蛋白質(zhì)子序列對(duì)應(yīng)的哈希值;所述哈希函數(shù),是指:整數(shù)哈希函數(shù)和通用哈...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:殷澤坤楊陽(yáng)閆立峰張桐劉衛(wèi)國(guó)
    申請(qǐng)(專(zhuān)利權(quán))人:山東大學(xué)
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 一本色道久久HEZYO无码| 亚洲AV无码乱码在线观看| 亚洲Av无码精品色午夜| 亚洲AV无码一区二区三区系列| 久久亚洲AV无码精品色午夜| 亚洲精品无码永久在线观看| 亚洲成A∨人片在线观看无码| 国产成人无码a区在线视频| 特级无码毛片免费视频尤物| 五月丁香六月综合缴清无码| 无码人妻一区二区三区一| 高h纯肉无码视频在线观看| 一道久在线无码加勒比| 久久久精品天堂无码中文字幕| 亚洲av福利无码无一区二区| 精品久久久无码中文字幕天天| 无码人妻精品一区二区蜜桃网站| 国产在线无码不卡影视影院| 国产无码一区二区在线| 精品人妻系列无码人妻漫画| 亚洲爆乳无码专区www| 日韩人妻无码精品一专区| 国产成人精品无码播放| 免费无码又爽又刺激网站| 亚洲AV永久无码精品一区二区国产 | 亚洲中文字幕无码专区| 好了av第四综合无码久久| 亚洲AV无码久久久久网站蜜桃| 无码人妻精品一区二区三区99仓本 | 无码人妻精品一区二| 亚洲精品无码久久久久APP | 日韩人妻无码一区二区三区久久99| 亚洲av永久无码天堂网| 精品人妻无码一区二区色欲产成人 | 日韩精品真人荷官无码| 无码精品一区二区三区在线| 久久久久久亚洲av成人无码国产| 无码137片内射在线影院| 久久综合精品国产二区无码| 在线观看成人无码中文av天堂| 亚洲精品无码成人片久久不卡|