System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能技術和計算結構生物學,尤其涉及一種抗原表位預測方法、裝置、設備及存儲介質。
技術介紹
1、抗體作為一種免疫球蛋白,具有高度的特異性,能夠與相應抗原特異性結合發揮免疫功能。抗體與抗原之間的相互作用依賴于抗體的變異區域(v區)的互補決定區(cdrs)與抗原之間的精準識別,其中,抗體中能夠與抗原相互作用的結合位點稱為抗原結合位點(paratope),抗原上能夠與抗體特異性結合的位點稱為表位(epitope)或抗原決定簇。表位和抗原結合位點之間的精準匹配在疫苗設計、免疫診斷、抗體藥物開發等領域發揮重要作用。
2、隨著生物組學技術的發展,針對某一特定抗原蛋白可以快速獲取大量的抗體序列。傳統的實驗方法例如冷凍電鏡、核磁共振、x射線晶體學等方法通過對蛋白復合物結構進行解析,從而分析蛋白結合界面的具體殘基,但因耗時長、實驗成本高昂等問題也會限制其應用。目前市面上的一些基于機器學習方法的抗原-抗體結合位點預測工具多聚焦于抗原結構,忽略了相應抗體的信息,或者由于抗體三維結構數據量不足等原因導致其預測結果準確度低。
3、因此,如何基于抗原和抗體相互作用實現抗原表位的高準確度預測是目前需要解決的問題。
技術實現思路
1、為解決或部分解決相關技術中存在的問題,本申請提供一種抗原表位預測方法、裝置、設備及存儲介質,能夠對抗體是否能夠與指定抗原表位相結合,或對于抗原結構的抗原表位信息進行高準確度預測。
2、本申請第一方面提供一種抗原表位預測方法,包括:
>3、獲取待預測抗原和待預測抗體;
4、對所述待預測抗原和待預測抗體進行預處理,得到待預測抗原-抗體片段復合物;
5、將所述待預測抗原-抗體片段復合物輸入抗原表位預測模型,由所述抗原表位預測模型對所述待預測抗原和所述待預測抗體進行結合概率預測;
6、獲取所述抗原表位預測模型輸出的預測結果;所述預測結果用于篩選所述待預測抗原表位對應的目標抗體,或用于確定所述待預測抗體對應的目標表位;
7、其中,所述抗原表位預測模型,由語言模型和圖神經網絡對已知抗原-抗體復合物構建的正負樣本訓練得到。
8、作為一個可選的實施例,所述對所述待預測抗原和待預測抗體進行預處理,得到待預測抗原-抗體片段復合物,包括:
9、對所述待預測抗原進行片段切分預處理,得到多個待預測抗原片段;
10、對所述待預測抗體進行截取預處理,保留所述待預測抗體的cdr區,得到待預測抗體片段;
11、將所述待預測抗體片段分別與多個待預測抗原片段合并,得到多個待預測抗原-抗體片段復合物。
12、作為一個可選的實施例,所述抗原表位預測模型包括以下訓練步驟:
13、獲取具有相互作用的抗原-抗體復合物;
14、分別對所述抗原-抗體復合物的抗原和抗體進行預處理,合并得到多個抗原-抗體片段復合物;
15、分別基于多個所述抗原-抗體片段復合物的結構和序列信息對多個所述抗原-抗體片段復合物進行特征提取及數據標記處理,得到正樣本數據集;
16、根據預設負樣本構造規則對所述正樣本數據集進行負樣本構造處理,并與所述正樣本數據集融合,得到樣本集;
17、采用語言模型和圖神經網絡對所述樣本集進行訓練,得到抗原表位預測模型。
18、作為一個可選的實施例,所述分別對所述抗原-抗體復合物的抗原和抗體進行預處理,合并得到多個抗原-抗體片段復合物,包括:
19、對所述抗原-抗體復合物的抗原結構進行切分預處理,得到多個抗原片段;
20、對所述抗原-抗體復合物的抗體結構進行預處理,保留所述抗原-抗體復合物中抗體的cdr區,得到抗體片段;
21、將所述抗體片段分別與多個所述抗原片段合并,得到多個抗原-抗體片段復合物。
22、作為一個可選的實施例,所述分別對所述抗原-抗體復合物的抗原和抗體進行預處理,合并得到多個抗原-抗體片段復合物,還包括:
23、根據所述抗原-抗體復合物的uniprot編號對多個所述抗原-抗體片段復合物進行歸類,得到多個標簽化的所述抗原-抗體片段復合物。
24、作為一個可選的實施例,所述分別基于多個所述抗原-抗體片段復合物的結構和序列信息對多個所述抗原-抗體片段復合物進行特征提取及數據標記處理,得到正樣本數據集,包括:
25、根據多個所述抗原-抗體片段復合物中抗原片段和抗體片段的結構和序列信息,分別提取多個所述抗原-抗體片段復合物中抗原片段和抗體片段的特征信息,合并作為所述抗原-抗體復合物中抗原和抗體的特征信息;
26、利用分詞器分別對所述抗原-抗體復合物中抗原的序列信息和抗體的序列信息進行數據向量化處理,得到抗原序列數據集和抗體序列數據集;
27、根據所述抗原-抗體復合物中抗原的特征信息和抗體的特征信息,對所述抗原序列數據集和抗體序列數據集進行數據標記處理,得到正樣本數據集。
28、作為一個可選的實施例,所述利用分詞器分別對所述抗原-抗體復合物中抗原的序列信息和抗體的序列信息進行數據向量化處理,得到抗原序列數據集和抗體序列數據集,包括:
29、利用分詞器分別對所述抗原-抗體復合物的抗原序列,以及抗體序列中的cdrh1-2和cdrl1-3區域,進行數據向量化處理,得到抗原序列數據集和抗體序列數據集。
30、作為一個可選的實施例,所述預設負樣本構造規則,包括以下方式的至少一種:
31、選取所述正樣本數據集中的任意一抗原樣本數據,采用增加高斯噪聲的方式構造負樣本;
32、選取所述正樣本數據集中的任意一抗體樣本數據,采用增加高斯噪聲的方式構造負樣本;
33、選取所述正樣本數據集中的任意一抗原樣本數據和任意一非該抗原對應的抗體樣本數據組合構造負樣本。
34、本申請第二方面提供一種抗原表位預測裝置,包括:
35、獲取模塊,用于獲取待預測抗原和待預測抗體;
36、預處理模塊,用于對所述待預測抗原結構和待預測抗體進行預處理,得到待預測-抗體片段復合物;
37、預測模塊,用于將所述待預測抗原-抗體片段復合物輸入抗原表位預測模型,由所述抗原表位預測模型預測對所述待預測抗原和所述待預測抗體進行結合概率預測;
38、結果輸出模塊,用于獲取所述抗原表位預測模型輸出的預測結果;所述預測結果用于篩選所述待預測抗原表位對應的目標抗體,或用于確定所述待預測抗體對應的目標表位;
39、其中,所述抗原表位預測模型,由語言模型和圖神經網絡對已知抗原-抗體復合物構建的正負樣本訓練得到。
40、本申請第三方面提供一種電子設備,包括:
41、處理器;以及
42、存儲器,其上存儲有可執行代碼,當所述可執行代碼被所述處理器執行時,使所述處理器執行如上所述的方法。
43、本申請第本文檔來自技高網...
【技術保護點】
1.一種抗原表位預測方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述待預測抗原和待預測抗體進行預處理,得到待預測抗原-抗體片段復合物,包括:
3.根據權利要求1所述的方法,其特征在于,所述抗原表位預測模型包括以下訓練步驟:
4.根據權利要求3所述的方法,其特征在于,所述分別對所述抗原-抗體復合物的抗原和抗體進行預處理,合并得到多個抗原-抗體片段復合物,包括:
5.根據權利要求3所述的方法,其特征在于,所述分別對所述抗原-抗體復合物的抗原和抗體進行預處理,合并得到多個抗原-抗體片段復合物,還包括:
6.根據權利要求3所述的方法,其特征在于,所述分別基于多個所述抗原-抗體片段復合物的結構和序列信息對多個所述抗原-抗體片段復合物進行特征提取及數據標記處理,得到正樣本數據集,包括:
7.根據權利要求6所述的方法,其特征在于,所述利用分詞器分別對所述抗原-抗體復合物中抗原和抗體的序列信息進行數據向量化處理,得到抗原序列數據集和抗體序列數據集,包括:
8.一種抗原表位預測裝置,其
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其上存儲有可執行代碼,其特征在于,當所述可執行代碼被電子設備的處理器執行時,使所述處理器執行如權利要求1-7中任一項所述的方法。
...【技術特征摘要】
1.一種抗原表位預測方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述待預測抗原和待預測抗體進行預處理,得到待預測抗原-抗體片段復合物,包括:
3.根據權利要求1所述的方法,其特征在于,所述抗原表位預測模型包括以下訓練步驟:
4.根據權利要求3所述的方法,其特征在于,所述分別對所述抗原-抗體復合物的抗原和抗體進行預處理,合并得到多個抗原-抗體片段復合物,包括:
5.根據權利要求3所述的方法,其特征在于,所述分別對所述抗原-抗體復合物的抗原和抗體進行預處理,合并得到多個抗原-抗體片段復合物,還包括:
6.根據權利要求3所述的...
【專利技術屬性】
技術研發人員:王天元,范學哲,龔朝輝,黃小魯,
申請(專利權)人:科邁生物科技蘇州有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。