一種手寫漢字相似度度量方法、系統、裝置及存儲介質制造方法及圖紙

技術編號：40549722 閱讀：16 留言：0更新日期：2024-03-05 19:08

本發明專利技術公開了一種手寫漢字相似度度量方法、系統、裝置及存儲介質，其中方法包括：獲取字帖圖像；將字帖圖像輸入漢字分割模型，獲得多個待評分的手寫漢字圖像；將手寫漢字圖像輸入漢字分類模型，獲得手寫漢字的類別；根據手寫漢字的類別，從標準庫中獲取對應的標準漢字，并一起輸入漢字空間對齊模型，獲得與標準漢字對齊后的手寫漢字；將對齊后的手寫漢字和其對應的標準漢字，輸入筆畫分割模型，得到二者的筆畫分割結果；將筆畫根據類似交并比的計算方式獲得手寫漢字與其對應標準漢字對比后的相似度。本發明專利技術對手寫漢字和標準漢字二者分割出來的筆畫進行相似度計算，為評價手寫漢字或其他研究提供幫助，可廣泛應用于圖像模式識別技術領域。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能、深度學習及圖像模式識別，尤其涉及一種手寫漢字相似度度量方法、系統、裝置及存儲介質。

技術介紹

1、脫機手寫漢字相似度度量是圖像模式識別領域中的一個子方向。脫機是指與采用在線設備能提取到書寫者筆畫軌跡信息不同，采集到的信息僅為手寫漢字二維圖，以下均簡稱手寫漢字。漢字是中華優秀傳統文化中不可或缺的一部分，而如今的人工智能技術又蓬勃發展，因此結合新技術對漢字展開相關的研究對于弘揚中華的優秀傳統文化是很有必要的。

2、現如今對漢字的研究普遍集中在識別和生成上，而評價相關的研究則比較少。而研究如何衡量手寫漢字與其標準漢字的相似度，對于許多相關的研究都是很有幫助的，比如對手寫漢字進行一個較為客觀的評價。

3、然而，在實際的應用場景中，基于掃描儀或攝像頭等圖像捕捉設備采集得到的手寫漢字往往帶有各種復雜的背景信息，對于分析其評分天然就帶有許多的干擾信息。同時，采集到的手寫漢字也往往是有些傾斜且大小與標準漢字并不對應，基于人工也很難實現對齊。故理想的方法是讓計算機來學會如何將無背景的手寫漢字從原圖片中分割出來，同時分割出筆畫；再與其標準漢字進行空間對齊，根據筆畫和其標準漢字的筆畫對比再計算其相似度。

4、傳統的分割技術很難適應復雜的實際背景，而以yolo為代表的單階段檢測分割和以rcnn為代表的雙階段檢測分割技術則效果要好上許多，但是卻將漢字的筆畫和整體孤立開來了，效果仍有改進的空間。

技術實現思路

1、為至少一定程度上解決現有技術中存在的

2、本專利技術所采用的技術方案是：

3、一種手寫漢字相似度度量方法，包括以下步驟：

4、獲取包含多個手寫漢字的字帖圖像；

5、將字帖圖像輸入訓練后的漢字分割模型，獲得多個空白背景的待評分的手寫漢字圖像；

6、將空白背景的手寫漢字圖像輸入訓練后的漢字分類模型，獲得手寫漢字的類別；

7、根據手寫漢字的類別，從標準庫中獲取對應的標準漢字，并一起輸入訓練后的漢字空間對齊模型，獲得與標準漢字對齊后的手寫漢字；

8、將對齊后的手寫漢字和其對應的標準漢字，輸入訓練后的筆畫分割模型，得到二者的筆畫分割結果；

9、將筆畫根據類似交并比的計算方式獲得手寫漢字與其對應標準漢字對比后的相似度。

10、進一步地，所述漢字分割模型通過以下方式訓練獲得：

11、收集帶有筆畫分割信息的脫機手寫漢字和標準漢字數據集；

12、隨機添加一些真實環境下的背景信息，在預設的分割框架(如yolov5和maskrcnn)的基礎上添加漢字的先驗信息以改進模型，訓練后讓模型獲得分割漢字筆畫的能力。

13、進一步地，所述添加漢字的先驗信息以改進模型，包括：

14、獲取帶有類別信息的脫機手寫漢字和標準漢字數據集；

15、根據漢字的輪廓獲得對應的標注框；

16、在訓練筆畫分割的同時，并行添加一個網絡分支，增加一條數據流來訓練網絡對漢字整體的目標檢測能力，該網絡同時接入筆畫分割的結果。

17、進一步地，所述漢字分類模型通過以下方式訓練獲得：

18、收集帶有類別信息的脫機手寫漢字數據集；

19、對脫機手寫漢字數據集中的數據進行數據增強處理，以適應復雜的實際情況；

20、使用卷積神經網絡作為提取手寫漢字特征的骨干網絡，在骨干網絡之后添加一個多層感知機網絡作為分類識別網絡，使用交叉熵損失函數約束分類結果，獲得最終的漢字類別信息。

21、進一步地，所述漢字空間對齊模型通過以下方式訓練獲得：

22、構造帶有類別信息的多種字體(如楷體、黑體、宋體等)的標準漢字數據集；

23、使用卷積神經網絡作為骨干網絡，在骨干網絡之后添加一個多層感知機網絡回歸進行仿射變換所需的6個參數；

24、對標準漢字數據集中的數據進行隨機仿射變換處理，同時拼接未變換前的數據，作為模型的輸入，使用輸出對變換后的圖片再進行一次仿射變換，再使用l2損失函數進行約束，獲得最終的漢字空間對齊模型。

25、進一步地，所述仿射變換包括旋轉、放大、縮小和平移，其幅度要保證產生正常的結果，也即不會導致漢字的部分丟失。

26、進一步地，損失函數的表達式如下：

27、

28、式中，x代表標準漢字的圖片數據，xi代表圖片上的第i個像素值，n為像素點的總個數，t代表仿射變換，trandom(x)代表對x進行隨機仿射變換，tout(x)代表使用漢字空間對齊模型輸出的參數對x進行仿射變換。

29、進一步地，所述類似交并比的計算方式的公式如下：

30、

31、其中，strokess_i表示標準漢字的第i個筆畫，strokesh_i表示對應的手寫字的第i個筆畫；和表示手寫漢字和其對應的標準漢字第i個筆畫的面積；∩表示二者重疊的部分；similarity代表最終該手寫漢字的相似度分數。

32、本專利技術所采用的另一技術方案是：

33、一種手寫漢字相似度度量系統，包括：

34、字帖獲取模塊，用于獲取包含多個手寫漢字的字帖圖像；

35、漢字分割模塊，用于將字帖圖像輸入訓練后的漢字分割模型，獲得多個空白背景的待評分的手寫漢字圖像；

36、漢字分類模塊，用于將空白背景的手寫漢字圖像輸入訓練后的漢字分類模型，獲得手寫漢字的類別；

37、漢字對齊模塊，用于根據手寫漢字的類別，從標準庫中獲取對應的標準漢字，并一起輸入訓練后的漢字空間對齊模型，獲得與標準漢字對齊后的手寫漢字；

38、筆畫獲取模塊，用于將對齊后的手寫漢字和其對應的標準漢字，輸入訓練后的筆畫分割模型，得到二者的筆畫分割結果；

39、相似度計算模塊，用于將筆畫根據類似交并比的計算方式獲得手寫漢字與其對應標準漢字對比后的相似度。

40、本專利技術所采用的另一技術方案是：

41、一種手寫漢字相似度度量裝置，包括：

42、至少一個處理器；

43、至少一個存儲器，用于存儲至少一個程序；

44、當所述至少一個程序被所述至少一個處理器執行，使得所述至少一個處理器實現如上所述方法。

45、本專利技術所采用的另一技術方案是：

46、一種計算機可讀存儲介質，其中存儲有處理器可執行的程序，所述處理器可執行的程序在由處理器執行時用于執行如上所述方法。

47、本專利技術的有益效果是：本專利技術通過訓練后的模型對手寫漢字圖像字帖進行處理，能夠對在分割字帖上的多個手寫漢字的基礎上，與其對應的標準漢字進行逐一對齊，然后根據二者分割出來的筆畫進行相似度計算，為評價手寫漢字或其他研究提供幫助。

本文檔來自技高網...

【技術保護點】

1.一種手寫漢字相似度度量方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種手寫漢字相似度度量方法，其特征在于，所述漢字分割模型通過以下方式訓練獲得：

3.根據權利要求2所述的一種手寫漢字相似度度量方法，其特征在于，所述添加漢字的先驗信息以改進模型，包括：

4.根據權利要求1所述的一種手寫漢字相似度度量方法，其特征在于，所述漢字分類模型通過以下方式訓練獲得：

5.根據權利要求1所述的一種手寫漢字相似度度量方法，其特征在于，所述漢字空間對齊模型通過以下方式訓練獲得：

6.根據權利要求5所述的一種手寫漢字相似度度量方法，其特征在于，損失函數的表達式如下：

7.根據權利要求1所述的一種手寫漢字相似度度量方法，其特征在于，所述類似交并比的計算方式的公式如下：

8.一種手寫漢字相似度度量系統，其特征在于，包括：

9.一種手寫漢字相似度度量裝置，其特征在于，包括：

10.一種計算機可讀存儲介質，其中存儲有處理器可執行的程序，其特征在于，所述處理器可執行的程序在由處理器執行時

...

【技術特征摘要】

1.一種手寫漢字相似度度量方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種手寫漢字相似度度量方法，其特征在于，所述漢字分割模型通過以下方式訓練獲得：

3.根據權利要求2所述的一種手寫漢字相似度度量方法，其特征在于，所述添加漢字的先驗信息以改進模型，包括：

4.根據權利要求1所述的一種手寫漢字相似度度量方法，其特征在于，所述漢字分類模型通過以下方式訓練獲得：

5.根據權利要求1所述的一種手寫漢字相似度度量方法，其特征在于，所述漢字空間對齊模型通過以下方式...

【專利技術屬性】
技術研發人員：許勇，王嘉楷，吳斯，全宇暉，
申請(專利權)人：華南理工大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術