System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及宏病毒組數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法、系統(tǒng)及介質(zhì)。
技術(shù)介紹
1、病毒是地球上最豐富和多樣化的實(shí)體。其中真核病毒,尤其是真核rna病毒,更是感染了幾乎所有真核生物的分類群,不僅會(huì)對(duì)人類健康與社會(huì)生產(chǎn)造成重大影響,也深度影響全球范圍的生物地球化學(xué)循環(huán)。
2、隨著下一代測(cè)序技術(shù)(ngs)的發(fā)展,有研究表明,幾乎所有的病毒序列都已被測(cè)序,但都缺乏重要的宿主信息,這大大阻礙了人們對(duì)宏病毒組數(shù)據(jù)的進(jìn)一步利用。目前的病毒宿主預(yù)測(cè)方法主要針對(duì)原核生物,其使用基于對(duì)比的方法,需要同時(shí)參考病毒和原核宿主的序列信息,處理的信息量大且效率較低;而針對(duì)真核生物,由于其序列龐大復(fù)雜,真核生物中內(nèi)含子更是會(huì)給訓(xùn)練帶來大量噪聲,因此目前對(duì)于真核病毒宿主預(yù)測(cè)主要采用基于深度學(xué)習(xí)的無對(duì)比方法,但該方法預(yù)測(cè)范圍非常有限且準(zhǔn)確度較低。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述技術(shù)問題,本專利技術(shù)的目的在于:提供一種預(yù)測(cè)范圍大且準(zhǔn)確度高的基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法、系統(tǒng)及介質(zhì)。
2、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的一方面提出了一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,包括以下步驟:
3、獲取病毒全基因組數(shù)據(jù),統(tǒng)計(jì)所述病毒全基因組數(shù)據(jù)中各密碼子的出現(xiàn)頻率,根據(jù)所述出現(xiàn)頻率得到密碼子字典;
4、使用所述密碼子字典替換預(yù)設(shè)的大語言模型中的文本文件,并根據(jù)所述病毒全基因組數(shù)據(jù)訓(xùn)練替換后的所述大語言模型,得到病毒宿主預(yù)測(cè)模型;
5、獲取待
6、將所述最優(yōu)潛在宿主輸入預(yù)先設(shè)定好的模糊控制系統(tǒng),得到所述最優(yōu)潛在宿主對(duì)應(yīng)的可靠程度,進(jìn)而根據(jù)所述可靠程度確定所述待預(yù)測(cè)病毒的宿主并將其輸出;
7、其中,所述待預(yù)測(cè)病毒為真核rna病毒。
8、在一些實(shí)施例中,所述獲取病毒全基因組數(shù)據(jù),統(tǒng)計(jì)所述病毒全基因組數(shù)據(jù)中各密碼子的出現(xiàn)頻率,根據(jù)所述出現(xiàn)頻率得到密碼子字典這一步驟,其具體包括:
9、通過ncbi下載所述病毒全基因組數(shù)據(jù);
10、根據(jù)數(shù)據(jù)記錄時(shí)間將所述病毒全基因組數(shù)據(jù)劃分為第一病毒全基因組數(shù)據(jù)和第二病毒全基因組數(shù)據(jù),進(jìn)而統(tǒng)計(jì)所述第一病毒全基因組數(shù)據(jù)中各所述密碼子的出現(xiàn)頻率;
11、根據(jù)所述出現(xiàn)頻率對(duì)各所述密碼子進(jìn)行編號(hào),進(jìn)而根據(jù)編號(hào)將所述密碼子進(jìn)行排序,得到所述密碼子字典。
12、在一些實(shí)施例中,所述使用所述密碼子字典替換預(yù)設(shè)的大語言模型中的文本文件,并根據(jù)所述病毒全基因組數(shù)據(jù)訓(xùn)練替換后的所述大語言模型,得到病毒宿主預(yù)測(cè)模型這一步驟,其具體包括:
13、提取所述病毒全基因組數(shù)據(jù)中的宿主信息,進(jìn)而根據(jù)所述宿主信息篩選出感染真核宿主的rna病毒樣本和其對(duì)應(yīng)的真核宿主信息;
14、對(duì)所述真核宿主信息進(jìn)行規(guī)范命名操作,并通過生物信息學(xué)工具庫獲取所述真核宿主信息對(duì)應(yīng)的宿主譜系;
15、根據(jù)所述宿主譜系對(duì)所述rna病毒樣本進(jìn)行統(tǒng)計(jì)和分類,并去除序列長度低于預(yù)設(shè)第一序列長度的所述rna病毒樣本,得到病毒序列樣本,其中,所述病毒序列樣本包括第一病毒序列樣本和第二病毒序列樣本;
16、根據(jù)預(yù)設(shè)第二序列長度對(duì)所述第一病毒序列樣本進(jìn)行隨機(jī)重復(fù)下采樣操作,得到第三病毒序列樣本;
17、將所述第三病毒序列樣本劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集,使用所述密碼子字典替換所述大語言模型中的文本文件,進(jìn)而根據(jù)所述訓(xùn)練集、所述驗(yàn)證集以及所述測(cè)試集對(duì)替換后的所述大語言模型進(jìn)行訓(xùn)練,得到所述病毒宿主預(yù)測(cè)模型。
18、在一些實(shí)施例中,所述根據(jù)所述訓(xùn)練集、所述驗(yàn)證集以及所述測(cè)試集對(duì)替換后的所述大語言模型進(jìn)行訓(xùn)練,得到所述病毒宿主預(yù)測(cè)模型這一步驟,其具體包括:
19、將替換后的所述大語言模型的分詞長度修改為預(yù)設(shè)分詞長度,得到第一大語言模型;
20、通過所述訓(xùn)練集對(duì)所述第一大語言模型進(jìn)行迭代訓(xùn)練,通過所述驗(yàn)證集對(duì)所述第一大語言模型進(jìn)行參數(shù)調(diào)整,通過所述測(cè)試集對(duì)所述第一大語言模型進(jìn)行性能評(píng)估,得到所述病毒宿主預(yù)測(cè)模型。
21、在一些實(shí)施例中,所述病毒宿主預(yù)測(cè)模型包括輸入層、albert層以及分類層,所述將所述病毒序列輸入所述病毒宿主預(yù)測(cè)模型,得到最優(yōu)潛在宿主這一步驟,其具體包括:
22、將所述病毒序列輸入所述輸入層進(jìn)行格式轉(zhuǎn)換,得到病毒向量;
23、將所述病毒向量輸入所述albert層進(jìn)行特征提取,得到病毒特征權(quán)重;
24、將所述病毒特征權(quán)重輸入所述分類層進(jìn)行多分類訓(xùn)練,得到多個(gè)所述潛在宿主,進(jìn)而根據(jù)各所述潛在宿主確定所述最優(yōu)潛在宿主。
25、在一些實(shí)施例中,所述病毒宿主預(yù)測(cè)方法還包括預(yù)先設(shè)定所述模糊控制系統(tǒng)的步驟,其具體包括:
26、根據(jù)所述第一病毒序列樣本和所述第二病毒序列樣本構(gòu)建系統(tǒng)發(fā)育樹,得到系統(tǒng)發(fā)育關(guān)系,其中,所述系統(tǒng)發(fā)育關(guān)系包括第一分支距離和第二分支距離;
27、將所述第一分支距離的均值和最小的所述第二分支距離作為輸入變量,進(jìn)而將所述輸入變量進(jìn)行模糊化處理,得到模糊集合;
28、將所述模糊集合進(jìn)行去模糊化處理,得到所述可靠程度,進(jìn)而將所述可靠程度作為輸出變量;
29、確定模糊規(guī)則,根據(jù)所述模糊規(guī)則調(diào)整模糊函數(shù),得到所述模糊控制系統(tǒng)。
30、在一些實(shí)施例中,所述可靠程度包括可靠、較可靠以及不可靠,所述根據(jù)所述可靠程度確定所述待預(yù)測(cè)病毒的宿主并將其輸出這一步驟,其具體包括:
31、若所述可靠程度為較可靠或不可靠,將對(duì)應(yīng)的所述潛在宿主丟棄;
32、若所述可靠程度為可靠,確定對(duì)應(yīng)的所述潛在宿主為所述宿主并將其輸出。
33、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的另一方面提出了一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)系統(tǒng),包括:
34、密碼子字典制作模塊,用于獲取病毒全基因組數(shù)據(jù),統(tǒng)計(jì)所述病毒全基因組數(shù)據(jù)中各密碼子的出現(xiàn)頻率,根據(jù)所述出現(xiàn)頻率得到密碼子字典;
35、預(yù)測(cè)模型構(gòu)建模塊,用于使用所述密碼子字典替換預(yù)設(shè)的大語言模型中的文本文件,并根據(jù)所述病毒全基因組數(shù)據(jù)訓(xùn)練替換后的所述大語言模型,得到病毒宿主預(yù)測(cè)模型;
36、潛在宿主獲取模塊,用于獲取待預(yù)測(cè)病毒的病毒序列,將所述病毒序列輸入所述病毒宿主預(yù)測(cè)模型,得到最優(yōu)潛在宿主;
37、宿主確定模塊,用于將所述最優(yōu)潛在宿主輸入預(yù)先設(shè)定好的模糊控制系統(tǒng),得到所述最優(yōu)潛在宿主對(duì)應(yīng)的可靠程度,進(jìn)而根據(jù)所述可靠程度確定所述待預(yù)測(cè)病毒的宿主并將其輸出;
38、其中,所述待預(yù)測(cè)病毒為真核rna病毒。
39、為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例的另一方面提出了一種電子設(shè)備,所述電子設(shè)備包括存儲(chǔ)器、處理器、存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序以及用于實(shí)現(xiàn)所述處理器和所述存儲(chǔ)器之間的連接通信的數(shù)據(jù)總線,所述程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如前面所述本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述獲取病毒全基因組數(shù)據(jù),統(tǒng)計(jì)所述病毒全基因組數(shù)據(jù)中各密碼子的出現(xiàn)頻率,根據(jù)所述出現(xiàn)頻率得到密碼子字典這一步驟,其具體包括:
3.根據(jù)權(quán)利要求1所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述使用所述密碼子字典替換預(yù)設(shè)的大語言模型中的文本文件,并根據(jù)所述病毒全基因組數(shù)據(jù)訓(xùn)練替換后的所述大語言模型,得到病毒宿主預(yù)測(cè)模型這一步驟,其具體包括:
4.根據(jù)權(quán)利要求3所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述根據(jù)所述訓(xùn)練集、所述驗(yàn)證集以及所述測(cè)試集對(duì)替換后的所述大語言模型進(jìn)行訓(xùn)練,得到所述病毒宿主預(yù)測(cè)模型這一步驟,其具體包括:
5.根據(jù)權(quán)利要求1所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述病毒宿主預(yù)測(cè)模型包括輸入層、Albert層以及分類層,所述將所述病毒序列輸入所述病毒宿主預(yù)測(cè)模型,得到最優(yōu)潛在宿主這一步驟,其具體包括:
6.根據(jù)權(quán)
7.根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述可靠程度包括可靠、較可靠以及不可靠,所述根據(jù)所述可靠程度確定所述待預(yù)測(cè)病毒的宿主并將其輸出這一步驟,其具體包括:
8.一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括存儲(chǔ)器、處理器、存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序以及用于實(shí)現(xiàn)所述處理器和所述存儲(chǔ)器之間的連接通信的數(shù)據(jù)總線,所述程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法的步驟。
10.一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)為計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),用于計(jì)算機(jī)可讀存儲(chǔ),其特征在于,所述存儲(chǔ)介質(zhì)存儲(chǔ)有一個(gè)或者多個(gè)程序,所述一個(gè)或者多個(gè)程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法的步驟。
...【技術(shù)特征摘要】
1.一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述獲取病毒全基因組數(shù)據(jù),統(tǒng)計(jì)所述病毒全基因組數(shù)據(jù)中各密碼子的出現(xiàn)頻率,根據(jù)所述出現(xiàn)頻率得到密碼子字典這一步驟,其具體包括:
3.根據(jù)權(quán)利要求1所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述使用所述密碼子字典替換預(yù)設(shè)的大語言模型中的文本文件,并根據(jù)所述病毒全基因組數(shù)據(jù)訓(xùn)練替換后的所述大語言模型,得到病毒宿主預(yù)測(cè)模型這一步驟,其具體包括:
4.根據(jù)權(quán)利要求3所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述根據(jù)所述訓(xùn)練集、所述驗(yàn)證集以及所述測(cè)試集對(duì)替換后的所述大語言模型進(jìn)行訓(xùn)練,得到所述病毒宿主預(yù)測(cè)模型這一步驟,其具體包括:
5.根據(jù)權(quán)利要求1所述的一種基于模糊控制優(yōu)化的病毒宿主預(yù)測(cè)方法,其特征在于,所述病毒宿主預(yù)測(cè)模型包括輸入層、albert層以及分類層,所述將所述病毒序列輸入所述病毒宿主預(yù)測(cè)模型,得到最優(yōu)潛在宿主這一步驟,其具體包括:
6...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張蕾,原珂,黃碧,林里,欒天罡,
申請(qǐng)(專利權(quán))人:廣東工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。