System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能驅動的計算生物領域,特別是涉及一種基于預訓練大語言模型的蛋白質功能注釋方法和裝置。
技術介紹
1、蛋白質功能注釋是一項在分子生物學和生物信息學領域內極為重要的工作。蛋白質功能注釋的目的是為蛋白質序列提供家族和域的分類,這對于分析新基因組、宏基因組以及指導特定蛋白質和系統實驗工作非常關鍵。
2、一般采用傳統方法對蛋白質進行功能注釋,會將蛋白質切分為多個段,進而進行功能分類,但是對蛋白質功能注釋的效率和準確性仍有待提高。近年來,隨著深度學習技術的發展,蛋白質功能注釋也變得更加高效和準確。基于深度學習的蛋白質功能注釋方法,如protcnn和protenn,通過學習氨基酸序列的向量表示來進行功能注釋。這些模型能夠推斷出已知的進化替代模式,并有效聚類來自未見家族的序列。然而已有的基于深度學習的蛋白質注釋模型只能對蛋白質功能域片段進行分類。因此,如何準確且高效識別完整蛋白質序列上的功能域仍是當前研究的一大難題。
3、針對相關技術中存在如何準確且高效識別完整蛋白質序列上的功能域的問題,目前還沒有提出有效的解決方案。
技術實現思路
1、在本實施例中提供了一種基于預訓練大語言模型的蛋白質功能注釋方法和裝置,以解決相關技術中如何準確且高效識別完整蛋白質序列上的功能域的問題。
2、第一個方面,在本實施例中提供了一種基于預訓練大語言模型的蛋白質功能注釋方法,所述方法包括:
3、將待注釋蛋白質序列輸入目標蛋白質功能域分類模型,得到所述待注釋蛋
4、將所述待注釋蛋白質序列所包含的功能域類別和所述待注釋蛋白質序列,輸入目標蛋白質功能域識別模型,得到所述待注釋蛋白質序列的功能域類別所在的目標位置;所述目標蛋白質功能域識別模型,根據預設訓練集中完整的蛋白質序列及對應的蛋白質功能域類別和位置,對基于預訓練蛋白質大語言模型及命名實體識別模型的蛋白質功能域識別模型訓練得到;所述預訓練蛋白質大語言模型,是用于確定蛋白質序列中的蛋白質表征的模型;
5、根據所述待注釋蛋白質序列的功能域類別所在的目標位置,對所述待注釋蛋白質序列進行功能注釋。
6、在其中的一些實施例中,所述目標蛋白質功能域分類模型包括預訓練蛋白質大語言模型層和分類層;
7、所述將待注釋蛋白質序列輸入目標蛋白質功能域分類模型,得到所述待注釋蛋白質序列所包含的功能域類別,包括:
8、將所述待注釋蛋白質序列輸入所述目標蛋白質功能域分類模型后,基于所述目標蛋白質功能域分類模型中的預訓練蛋白質大語言模型層,確定所述待注釋蛋白質序列的蛋白質表征;
9、根據所述目標蛋白質功能域分類模型的分類層,基于所述蛋白質表征預測所述待注釋蛋白質序列的功能域類別。
10、在其中的一些實施例中,所述目標蛋白質功能域識別模型包括:預訓練蛋白質大語言模型層、區間表征層及功能域表征層;
11、所述將所述待注釋蛋白質序列所包含的功能域類別和所述待注釋蛋白質序列,輸入目標蛋白質功能域識別模型,得到所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:
12、基于所述預訓練蛋白質大語言模型層,確定所述待注釋蛋白質序列的蛋白質表征;
13、基于所述功能域表征層,將所述待注釋蛋白質序列所包含的功能域類別映射至預設的潛在空間,得到潛在空間類別表征;
14、基于所述區間表征層,將所述蛋白質表征映射至預設的潛在空間,得到潛在空間位置表征;
15、基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置。
16、在其中的一些實施例中,所述基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:
17、確定所述潛在空間類別表征和所述潛在空間位置表征之間的相似度;
18、根據所述相似度,確定所述待注釋蛋白質中多個功能域位置對應的功能域類別的類別概率;
19、確定所述類別概率超過預設概率閾值的功能域類別為目標功能域類別,并確定所述目標功能域類別對應的位置為目標位置。
20、在其中的一些實施例中,所述確定所述目標功能域類別對應的位置為目標位置,包括:
21、獲取所述目標功能域類別對應的多個功能域位置;
22、將非重疊的所述功能域位置確定為目標位置。
23、在其中的一些實施例中,所述方法還包括:
24、設置包括多個蛋白質序列的訓練集和驗證集;所述訓練集和驗證集中包括互不重疊的多個完整的蛋白質序列;
25、獲取所述訓練集中的第一蛋白質序列,輸入所述第一蛋白質序列至所述預訓練蛋白質大語言模型層,得到蛋白質表征中的初始類別表征;
26、通過所述分類層對所述初始類別表征進行預測,確定所述第一蛋白質序列的預測功能域類別標簽;
27、獲取所述訓練集中的第一蛋白質序列的真實類別標簽,根據所述預測功能域類別標簽和真實類別標簽確定標簽損失值;
28、根據所述標簽損失值對所述蛋白質功能域分類模型進行更新;
29、獲取所述驗證集中的第二蛋白質序列,確定所述第二蛋白質序列的驗證值;
30、根據所述驗證值對更新后的蛋白質功能域分類模型進行驗證,得到所述目標蛋白質功能域分類模型。
31、在其中的一些實施例中,所述方法還包括:
32、獲取所述訓練集中的第一蛋白質序列,輸入所述第一蛋白質序列至所述預訓練蛋白質大語言模型層,獲取所述蛋白質序列的初始位置表征和初始類別表征;
33、通過區間表征層從所述初始位置表征中,確定所述第一蛋白質序列的功能域對應的潛在空間位置表征;
34、獲取所述訓練集中的第一蛋白質序列的真實類別標簽,根據所述真實類別標簽確定功能域初始表征;
35、基于所述蛋白質序列的初始類別表征,通過功能域表征層確定所述第一蛋白質序列的功能域對應的潛在空間類別表征;
36、根據所述潛在空間位置表征和所述潛在空間類別表征對所述蛋白質功能域識別模型進行訓練更新;
37、獲取所述驗證集中的第二蛋白質序列,確定所述第二蛋白質序列的驗證值;
38、根據所述驗證值對更新后的蛋白質功能域識別模型進行驗證,得到所述目標蛋白質功能域識別模型。
39、第二個方面,在本實施例中提供了一種基于預訓練大語言模型的蛋白質功能注釋裝置,所述裝置包括:類別確定模塊、位置識別模塊和注釋模塊;
40、所述類別確定模塊,用于將待注釋蛋白質序列輸入目標蛋白質功能域分類模型,得到所述待注釋蛋白質序列所包含的功能域類別;所述目標蛋白質功能域分類模型,根據預設訓練集中完整的蛋白質序列,本文檔來自技高網...
【技術保護點】
1.一種基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域分類模型包括預訓練蛋白質大語言模型層和分類層;
3.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域識別模型包括:預訓練蛋白質大語言模型層、區間表征層及功能域表征層;
4.根據權利要求3所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:
5.根據權利要求4所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述確定所述目標功能域類別對應的位置為目標位置,包括:
6.根據權利要求2所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于所述方法還包括:
7.根據權利要求6所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述方法還包括:
8.一
9.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行權利要求1至權利要求7中任一項所述的基于預訓練大語言模型的蛋白質功能注釋方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至權利要求7中任一項所述的基于預訓練大語言模型的蛋白質功能注釋方法的步驟。
...【技術特征摘要】
1.一種基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域分類模型包括預訓練蛋白質大語言模型層和分類層;
3.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域識別模型包括:預訓練蛋白質大語言模型層、區間表征層及功能域表征層;
4.根據權利要求3所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:
5.根據權利要求4所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述確定所述目標功能域類別對應的位置為目標位置,包...
【專利技術屬性】
技術研發人員:侯麗亞,袁孟雯,王家喜,洪泓,黃雷,楊煒煒,
申請(專利權)人:之江實驗室,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。