System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及識別化學式結構的,尤其涉及一種化學式結構識別的方法、裝置、電子設備及存儲介質。
技術介紹
1、在教育和生物化學等領域識別化學式結構至關重要,化學式結構識別已經被廣泛應用于藥物研發、人機交互、生物化學等各個領域,提高了分析藥物分子結構的效率和便利性,但在教育領域化學分子結構識別的重要價值還未得到足夠重視,尤其是針對手寫化學式結構。所以,如何能夠準確的識別手寫和印刷兩種化學式結構,成為本領域技術人員亟待解決的技術問題。
技術實現思路
1、本申請提供一種化學式結構識別的方法、裝置、電子設備及存儲介質,該方法將圖像輸入到基于包括合成訓練樣本的訓練數據,利用預訓練、遷移學習和微調的步驟確定的化學式結構識別模型中,以輸出與圖像對應的化學式代碼,利用該化學式結構識別模型可以提高識別手寫和印刷兩種化學式結構的準確性。
2、第一方面,本申請實施例提供一種化學式結構識別的方法,包括:
3、將圖像輸入到化學式結構識別模型中,以輸出與所述圖像對應的化學式代碼;
4、其中,所述化學式結構模型的確定過程包括:獲取訓練樣本,所述訓練樣本包括原始訓練樣本、合成訓練樣本和已增強訓練樣本,所述原始訓練樣本包括化學式手寫圖像和對應的化學式代碼和化學式印刷圖像和對應的化學式代碼;所述合成訓練樣本為根據所述原始訓練樣本中的化學式代碼合成得到的,所述已增強訓練樣本根據所述原始訓練樣本進行處理得到的樣本,以及根據所述合成訓練樣本進行處理得到的樣本;
5、利用所述合成訓練
6、利用所述原始訓練樣本和所述已增強訓練樣本中根據所述原始訓練樣本進行處理得到的樣本訓練基礎模型,得到第一模型;
7、利用所述原始訓練樣本、所述已增強訓練樣本和所述合成訓練樣本訓練所述基礎模型,得到第二模型,其中所述第二模型對應的學習率和所述第一模型對應的學習率不同;
8、基于預設模型參數,利用所述原始訓練樣本對所述第一模型和第二模型分別進行多次微調;
9、根據每次微調后的第一模型和第二模型,通過模型集成策略,確定化學式結構識別模型。
10、在一些實施例中,所述化學式結構模型的確定過程還包括:
11、從所述原始訓練數據中,篩選出化學式代碼為目標化學式代碼的原始訓練樣本;
12、利用所述目標化學式代碼,合成化學式合成圖像;
13、獲取化學式代碼為非目標化學式代碼的原始訓練樣本;
14、將所述非目標化學式代碼轉化為目標化學式代碼,并利用轉化得到的目標化學式代碼合成化學式合成圖像;
15、將所述化學式合成圖像,以及與所述化學式合成圖像對應的目標化學式代碼,確定為合成訓練樣本。
16、在一些實施例中,所述化學式結構模型的確定過程還包括:
17、對所述原始訓練樣本利用數據增強技術處理,以生成所述已訓練樣本中根據所述原始訓練樣本進行處理的樣本;
18、對所述合成訓練樣本利用數據增強技術處理,以生成所述已訓練樣本中根據所述合成訓練樣本進行處理得到的樣本。
19、在一些實施例中,所述預設模型為nougat模型。
20、在一些實施例中,所述基于預設模型參數,利用所述原始訓練樣本對所述第一模型和第二模型分別進行多次微調的步驟包括:
21、基于不同的預設模型參數,利用所述原始訓練樣本對所述第一模型和所述第二模型分別進行第一次微調,得到第一次微調后的第一模型和第一次微調后的第二模型;
22、從第一次微調后的第一模型和第一次微調后的第二模型中篩選出評估性能處于前n位的模型中的m個模型,m小于n;
23、基于不同的預設模型參數,利用所述原始訓練樣本對m個模型進行微調,得到第二次微調后的模型;
24、從所述第二次微調后的模型中篩選出評估性能處于前g位的模型中的f個模型,f小于g;
25、基于不同的預設模型參數,利用所述原始訓練樣本對f個模型進行第三次微調,得到第三次微調后的模型。
26、在一些實施例中,所述根據每次微調后的第一模型和第二模型,通過模型集成策略,確定化學式結構識別模型的步驟包括:
27、對每次微調后的第一模型和第二模型進行分組,得到多組模型集;其中所述模型集至少包括每次微調后的第一模型和第二模型中的一個模型;
28、從所述原始訓練數據中隨機選擇預設數量的數據,作為預設驗證樣本;
29、將所述預設驗證樣本中的圖像,輸入到所述模型集中的每個模型中,以使每個模型輸出與所述圖像對應的化學式代碼;
30、從所述模型集中每個模型輸出的圖像對應的化學式代碼中,篩選出符合預設規則的待比較化學式代碼;
31、根據所述待比較化學式代碼和所述預設驗證樣本中與圖像對應預設化學式代碼,確定待比較評估性能;
32、從多組模型集對應的待比較評估性能中,篩選出最優的待比較評估性能,將最優的待評估性能對應的模型集確定為識別化學式結果模型。
33、在一些實施例中,所述模型集中模型的排列順序按照模型的評估性能進行排序;從所述模型集中每個模型輸出的圖像對應的化學式代碼中,篩選出符合預設規則的待比較化學式代碼的步驟包括:
34、從所述模型集中每個模型輸出的圖像對應的化學式代碼中,篩選出重復出現的化學式代碼,并統計重復出現的次數;
35、判斷最多的重復出現的次數對應的化學式代碼的數量;
36、如果大于1個,則確定最多的重復出現的次數對應化學式代碼生成時使用的所述模型集中模型的排列順序;將位于首個位置的模型對應的化學式代碼,確定為待比較化學式代碼;
37、如果為1個,則確定最多的重復出現的次數對應的化學式代碼為待比較化學式代碼。
38、第二方面,本申請實施例還提供一種化學式結構識別的裝置,包括:
39、確定化學式代碼單元,用于將圖像輸入到化學式結構識別模型中,以輸出與所述圖像對應的化學式代碼;
40、其中,所述化學式結構模型的確定過程包括:獲取訓練樣本,所述訓練樣本包括原始訓練樣本、合成訓練樣本和已增強訓練樣本,所述原始訓練樣本包括化學式手寫圖像和對應的化學式代碼和化學式印刷圖像和對應的化學式代碼;所述合成訓練樣本為根據所述原始訓練樣本中的化學式代碼合成得到的,所述已增強訓練樣本根據所述原始訓練樣本進行處理得到的樣本,以及根據所述合成訓練樣本進行處理得到的樣本;利用所述合成訓練樣本對預設模型進行預訓練,以得到基礎模型,所述預設模型為深度學習模型;利用所述原始訓練樣本和所述已增強訓練樣本中根據所述原始訓練樣本進行處理得到的樣本訓練基礎模型,得到第一模型;利用所述原始訓練樣本、所述已增強訓練樣本和所述合成訓練樣本訓練所述基礎模型,得到第二模型,其中所述第二模型對應的學習率和所述第一模型對應的學習率不同;基于預設模型本文檔來自技高網...
【技術保護點】
1.一種化學式結構識別的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述化學式結構模型的確定過程還包括:
3.根據權利要求1所述的方法,其特征在于,所述化學式結構模型的確定過程還包括:
4.根據權利要求1所述的方法,其特征在于,所述預設模型為Nougat模型。
5.根據權利要求1所述的方法,其特征在于,所述基于預設模型參數,利用所述原始訓練樣本對所述第一模型和第二模型分別進行多次微調的步驟包括:
6.根據權利要求1所述的方法,其特征在于,所述根據每次微調后的第一模型和第二模型,通過模型集成策略,確定化學式結構識別模型的步驟包括:
7.根據權利要求6所述的方法,其特征在于,所述模型集中模型的排列順序按照模型的評估性能進行排序;從所述模型集中每個模型輸出的圖像對應的化學式代碼中,篩選出符合預設規則的待比較化學式代碼的步驟包括:
8.一種化學式結構識別的裝置,其特征在于,包括:
9.一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的化學式結構識別的方法的步驟。
...【技術特征摘要】
1.一種化學式結構識別的方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述化學式結構模型的確定過程還包括:
3.根據權利要求1所述的方法,其特征在于,所述化學式結構模型的確定過程還包括:
4.根據權利要求1所述的方法,其特征在于,所述預設模型為nougat模型。
5.根據權利要求1所述的方法,其特征在于,所述基于預設模型參數,利用所述原始訓練樣本對所述第一模型和第二模型分別進行多次微調的步驟包括:
6.根據權利要求1所述的方法,其特征在于,所述根據每次微調后的第一模型和第二模型,通過模型集成策略,確定化學式結構識別模型的步驟包括:<...
【專利技術屬性】
技術研發人員:李愿軍,陳建虎,張亞標,張鑌,徐乾,趙一方,畢琰虹,陳琳,師慶輝,薛德軍,韋芳玉,
申請(專利權)人:同方知網數字出版技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。