System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩av无码国产精品,无码人妻精品一区二区,特黄熟妇丰满人妻无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>之江實驗室專利>正文

    一種基于預訓練大語言模型的蛋白質功能注釋方法和裝置制造方法及圖紙

    技術編號:44391682 閱讀:2 留言:0更新日期:2025-02-25 10:06
    本申請涉及一種基于預訓練大語言模型的蛋白質功能注釋方法和裝置,應用于人工智能驅動的計算生物領域,其中,該蛋白質功能注釋方法包括:將待注釋蛋白質序列輸入目標蛋白質功能域分類模型,得到待注釋蛋白質序列所包含的功能域類別;將待注釋蛋白質序列所包含的功能域類別和待注釋蛋白質序列,輸入目標蛋白質功能域識別模型,得到待注釋蛋白質序列的功能域類別所在的目標位置;根據待注釋蛋白質序列的功能域類別所在的目標位置,對待注釋蛋白質序列進行功能注釋。通過本申請,實現了準確且高效識別完整蛋白質序列上的功能域的效果。

    【技術實現步驟摘要】

    本申請涉及人工智能驅動的計算生物領域,特別是涉及一種基于預訓練大語言模型的蛋白質功能注釋方法和裝置


    技術介紹

    1、蛋白質功能注釋是一項在分子生物學和生物信息學領域內極為重要的工作。蛋白質功能注釋的目的是為蛋白質序列提供家族和域的分類,這對于分析新基因組、宏基因組以及指導特定蛋白質和系統實驗工作非常關鍵。

    2、一般采用傳統方法對蛋白質進行功能注釋,會將蛋白質切分為多個段,進而進行功能分類,但是對蛋白質功能注釋的效率和準確性仍有待提高。近年來,隨著深度學習技術的發展,蛋白質功能注釋也變得更加高效和準確。基于深度學習的蛋白質功能注釋方法,如protcnn和protenn,通過學習氨基酸序列的向量表示來進行功能注釋。這些模型能夠推斷出已知的進化替代模式,并有效聚類來自未見家族的序列。然而已有的基于深度學習的蛋白質注釋模型只能對蛋白質功能域片段進行分類。因此,如何準確且高效識別完整蛋白質序列上的功能域仍是當前研究的一大難題。

    3、針對相關技術中存在如何準確且高效識別完整蛋白質序列上的功能域的問題,目前還沒有提出有效的解決方案。


    技術實現思路

    1、在本實施例中提供了一種基于預訓練大語言模型的蛋白質功能注釋方法和裝置,以解決相關技術中如何準確且高效識別完整蛋白質序列上的功能域的問題。

    2、第一個方面,在本實施例中提供了一種基于預訓練大語言模型的蛋白質功能注釋方法,所述方法包括:

    3、將待注釋蛋白質序列輸入目標蛋白質功能域分類模型,得到所述待注釋蛋白質序列所包含的功能域類別;所述目標蛋白質功能域分類模型,根據預設訓練集中完整的蛋白質序列,對基于預訓練蛋白質大語言模型的蛋白質功能域分類模型訓練得到;

    4、將所述待注釋蛋白質序列所包含的功能域類別和所述待注釋蛋白質序列,輸入目標蛋白質功能域識別模型,得到所述待注釋蛋白質序列的功能域類別所在的目標位置;所述目標蛋白質功能域識別模型,根據預設訓練集中完整的蛋白質序列及對應的蛋白質功能域類別和位置,對基于預訓練蛋白質大語言模型及命名實體識別模型的蛋白質功能域識別模型訓練得到;所述預訓練蛋白質大語言模型,是用于確定蛋白質序列中的蛋白質表征的模型;

    5、根據所述待注釋蛋白質序列的功能域類別所在的目標位置,對所述待注釋蛋白質序列進行功能注釋。

    6、在其中的一些實施例中,所述目標蛋白質功能域分類模型包括預訓練蛋白質大語言模型層和分類層;

    7、所述將待注釋蛋白質序列輸入目標蛋白質功能域分類模型,得到所述待注釋蛋白質序列所包含的功能域類別,包括:

    8、將所述待注釋蛋白質序列輸入所述目標蛋白質功能域分類模型后,基于所述目標蛋白質功能域分類模型中的預訓練蛋白質大語言模型層,確定所述待注釋蛋白質序列的蛋白質表征;

    9、根據所述目標蛋白質功能域分類模型的分類層,基于所述蛋白質表征預測所述待注釋蛋白質序列的功能域類別。

    10、在其中的一些實施例中,所述目標蛋白質功能域識別模型包括:預訓練蛋白質大語言模型層、區間表征層及功能域表征層;

    11、所述將所述待注釋蛋白質序列所包含的功能域類別和所述待注釋蛋白質序列,輸入目標蛋白質功能域識別模型,得到所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:

    12、基于所述預訓練蛋白質大語言模型層,確定所述待注釋蛋白質序列的蛋白質表征;

    13、基于所述功能域表征層,將所述待注釋蛋白質序列所包含的功能域類別映射至預設的潛在空間,得到潛在空間類別表征;

    14、基于所述區間表征層,將所述蛋白質表征映射至預設的潛在空間,得到潛在空間位置表征;

    15、基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置。

    16、在其中的一些實施例中,所述基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:

    17、確定所述潛在空間類別表征和所述潛在空間位置表征之間的相似度;

    18、根據所述相似度,確定所述待注釋蛋白質中多個功能域位置對應的功能域類別的類別概率;

    19、確定所述類別概率超過預設概率閾值的功能域類別為目標功能域類別,并確定所述目標功能域類別對應的位置為目標位置。

    20、在其中的一些實施例中,所述確定所述目標功能域類別對應的位置為目標位置,包括:

    21、獲取所述目標功能域類別對應的多個功能域位置;

    22、將非重疊的所述功能域位置確定為目標位置。

    23、在其中的一些實施例中,所述方法還包括:

    24、設置包括多個蛋白質序列的訓練集和驗證集;所述訓練集和驗證集中包括互不重疊的多個完整的蛋白質序列;

    25、獲取所述訓練集中的第一蛋白質序列,輸入所述第一蛋白質序列至所述預訓練蛋白質大語言模型層,得到蛋白質表征中的初始類別表征;

    26、通過所述分類層對所述初始類別表征進行預測,確定所述第一蛋白質序列的預測功能域類別標簽;

    27、獲取所述訓練集中的第一蛋白質序列的真實類別標簽,根據所述預測功能域類別標簽和真實類別標簽確定標簽損失值;

    28、根據所述標簽損失值對所述蛋白質功能域分類模型進行更新;

    29、獲取所述驗證集中的第二蛋白質序列,確定所述第二蛋白質序列的驗證值;

    30、根據所述驗證值對更新后的蛋白質功能域分類模型進行驗證,得到所述目標蛋白質功能域分類模型。

    31、在其中的一些實施例中,所述方法還包括:

    32、獲取所述訓練集中的第一蛋白質序列,輸入所述第一蛋白質序列至所述預訓練蛋白質大語言模型層,獲取所述蛋白質序列的初始位置表征和初始類別表征;

    33、通過區間表征層從所述初始位置表征中,確定所述第一蛋白質序列的功能域對應的潛在空間位置表征;

    34、獲取所述訓練集中的第一蛋白質序列的真實類別標簽,根據所述真實類別標簽確定功能域初始表征;

    35、基于所述蛋白質序列的初始類別表征,通過功能域表征層確定所述第一蛋白質序列的功能域對應的潛在空間類別表征;

    36、根據所述潛在空間位置表征和所述潛在空間類別表征對所述蛋白質功能域識別模型進行訓練更新;

    37、獲取所述驗證集中的第二蛋白質序列,確定所述第二蛋白質序列的驗證值;

    38、根據所述驗證值對更新后的蛋白質功能域識別模型進行驗證,得到所述目標蛋白質功能域識別模型。

    39、第二個方面,在本實施例中提供了一種基于預訓練大語言模型的蛋白質功能注釋裝置,所述裝置包括:類別確定模塊、位置識別模塊和注釋模塊;

    40、所述類別確定模塊,用于將待注釋蛋白質序列輸入目標蛋白質功能域分類模型,得到所述待注釋蛋白質序列所包含的功能域類別;所述目標蛋白質功能域分類模型,根據預設訓練集中完整的蛋白質序列,本文檔來自技高網...

    【技術保護點】

    1.一種基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域分類模型包括預訓練蛋白質大語言模型層和分類層;

    3.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域識別模型包括:預訓練蛋白質大語言模型層、區間表征層及功能域表征層;

    4.根據權利要求3所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:

    5.根據權利要求4所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述確定所述目標功能域類別對應的位置為目標位置,包括:

    6.根據權利要求2所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于所述方法還包括:

    7.根據權利要求6所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述方法還包括:

    8.一種基于預訓練大語言模型的蛋白質功能注釋裝置,其特征在于,所述裝置包括:類別確定模塊、位置識別模塊和注釋模塊;

    9.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為運行所述計算機程序以執行權利要求1至權利要求7中任一項所述的基于預訓練大語言模型的蛋白質功能注釋方法。

    10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至權利要求7中任一項所述的基于預訓練大語言模型的蛋白質功能注釋方法的步驟。

    ...

    【技術特征摘要】

    1.一種基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域分類模型包括預訓練蛋白質大語言模型層和分類層;

    3.根據權利要求1所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述目標蛋白質功能域識別模型包括:預訓練蛋白質大語言模型層、區間表征層及功能域表征層;

    4.根據權利要求3所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述基于所述潛在空間類別表征和所述潛在空間位置表征,確定所述待注釋蛋白質序列的功能域類別所在的目標位置,包括:

    5.根據權利要求4所述的基于預訓練大語言模型的蛋白質功能注釋方法,其特征在于,所述確定所述目標功能域類別對應的位置為目標位置,包...

    【專利技術屬性】
    技術研發人員:侯麗亞袁孟雯王家喜洪泓黃雷楊煒煒
    申請(專利權)人:之江實驗室
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲一区二区无码偷拍| 无码粉嫩小泬无套在线观看| 亚洲不卡无码av中文字幕| 日韩精品无码一区二区三区AV| 无码人妻精品中文字幕| 亚洲Aⅴ无码一区二区二三区软件| 无码乱人伦一区二区亚洲一| 老司机无码精品A| 人妻丝袜中文无码av影音先锋专区 | 亚洲精品无码久久不卡| 免费无码中文字幕A级毛片| 中文字幕av无码不卡免费| 小12箩利洗澡无码视频网站| av无码免费一区二区三区| 无码日韩精品一区二区免费暖暖 | 玖玖资源站无码专区| 久久精品?ⅴ无码中文字幕| 少妇久久久久久人妻无码| 精品久久久久久久无码| 国产精品无码a∨精品| 国产精品无码久久久久| 日韩久久无码免费毛片软件| 国产乱人伦中文无无码视频试看| 亚洲天然素人无码专区| 亚洲中文字幕无码爆乳| 中文字幕无码成人免费视频 | 免费一区二区无码东京热| 成在人线AV无码免费| av中文无码乱人伦在线观看| 无码国产精品久久一区免费| 无码人妻精品一区二区三区久久久 | 内射精品无码中文字幕| 亚洲aⅴ天堂av天堂无码麻豆| 无码日韩人妻av一区免费| 无码任你躁久久久久久| 免费无码婬片aaa直播表情| 西西4444www大胆无码| 亚洲毛片av日韩av无码| 一本色道久久HEZYO无码| 亚洲AV无码乱码在线观看裸奔| 亚洲欧洲精品无码AV|