本申請公開了一種疾病名稱標準化方法及裝置、存儲介質和電子設備,方法包括:根據預設通配符將目標語句切分成一個或多個目標子句;將每個目標子句切分成為一個或多個詞語,并分別確定每個詞語的詞性,根據詞語的詞性確定所述目標子句的詞性集合;根據詞性集合,確定目標子句是否完整;若不完整,則根據詞性集合缺失的詞性補充目標子句;根據預設疾病庫中的標準疾病名稱,分別確定每個目標子句對應的目標標準疾病名稱。本申請的方法提前對保險產品的核保問卷中疾病名稱進行標準化,從而可根據標準化的疾病名稱快速過濾不可投保產品,解決了現有投保過程中多次核保所導致的效率低下的問題。問題。問題。
【技術實現步驟摘要】
疾病名稱標準化方法、裝置、存儲介質及電子設備
[0001]本申請涉及自然語言處理
,尤其是涉及到一種疾病名稱標準化方法、裝置、存儲介質及電子設備。
技術介紹
[0002]近年來,民眾的風險意識不斷提高,對保險產品的認可度也日漸提高,購買保險的比例也大幅提高。對于投保人來說,互聯網保險經紀公司的主要作用是為其挑選合適的保險產品、輔助核保、購買保險,以及協助理賠等后續流程。
[0003]在為用戶挑選保險產品時,需要對其進行核保,以確定用戶是否符合保險產品的條款要求,核保通過才能購買保險。通常的核保方案流程包括:閱讀保險產品的健康告知,若滿足健康告知要求,則核保通過可以直接購買保險;若部分不符合健康告知時(帶病體用戶等),則進入智能核保,根據用戶選擇的疾病和對應的回答確定用戶是否可投保。
[0004]健康告知通常是大段的文本,其中列舉了用戶有哪些疾病、家族病、屬于哪些職業類型則不能投保。智能核保使用的問卷通常是預先設定好的問卷樹,某個或某類疾病可能有直接的核保結論,也可能會設置有多層問題,選擇不同的回答最終可能會得到不同的核保結論。通常不同的保險產品對應不同的健康告知和核保問卷,同一種疾病在不同的健康告知或核保問卷中的疾病名稱可能不同(產品A中疾病名稱為HCV抗體陽性、產品B中疾病名稱為丙肝抗體陽性、產品C中疾病名稱為丙型肝炎抗體陽性)。
[0005]在實際的投保過程中,同一用戶在不同的保司或不同的產品上可能會有不同的核保結果,即使被某一款保險產品拒保,也有可能有其他對異常指標比較友好的產品能夠核保通過。但由于不同保險產品對同一個疾病名稱的叫法不一致,導致用戶可能需要多次進行核保才能找到能夠核保通過的保險產品,操作繁瑣、效率較低。
技術實現思路
[0006]有鑒于此,本申請提供了一種疾病名稱標準化方法、裝置、介質及設備,提前對保險產品的核保問卷中疾病名稱進行標準化,從而可根據標準化的疾病名稱快速過濾不可投保產品,解決了現有投保過程中多次核保所導致的效率低下的問題。
[0007]根據本申請的一個方面,提供了一種疾病名稱標準化方法,包括:
[0008]根據預設通配符將目標語句切分成一個或多個目標子句;
[0009]將每個所述目標子句切分成為一個或多個詞語,并分別確定每個所述詞語的詞性,根據所述詞語的詞性確定所述目標子句的詞性集合;
[0010]根據所述詞性集合,確定所述目標子句是否完整;
[0011]若不完整,則根據所述詞性集合缺失的詞性補充所述目標子句;
[0012]根據預設疾病庫中的標準疾病名稱,分別確定每個所述目標子句對應的目標標準疾病名稱。
[0013]可選地,所述根據預設通配符將目標語句切分成一個或多個目標子句,具體包括:
[0014]確定所述預設通配符在所述目標語句中的位置;
[0015]若所述預設通配符的位置不在括號內,則確定所述預設通配符的位置為第一切分位置;
[0016]基于所述第一切分位置將所述目標語句切分成一個或多個中間子句;
[0017]若所述中間子句中不包含括號,則將所述中間子句作為一個所述目標子句;
[0018]若所述中間子句中包含所述括號且所述括號內不包含所述預設通配符,則確定所述括號的位置為第二切分位置;
[0019]若所述中間子句中包含所述括號且所述括號內包含所述預設通配符,則確定所述括號的位置以及所述括號內的預設通配符的位置為第二切分位置;
[0020]基于所述第二切分位置將所述中間子句切分成為一個或多個所述目標子句。
[0021]可選地,所述詞性的詞性類別包括前置類別、后置類別以及獨立類別;
[0022]所述根據所述詞性集合,確定所述目標子句是否完整,具體包括:
[0023]確定所述詞性集合中每個所述詞性的詞性類別,得到類別集合;
[0024]若所述類別集合包括所述獨立類別,則確定所述目標子句完整;
[0025]若所述類別集合包括所述前置類別以及所述后置類別,則確定所述目標子句完整;
[0026]否則,確定所述目標子句不完整。
[0027]可選地,所述根據所述詞性集合缺失的詞性補充所述目標子句,具體包括:
[0028]分別按照每個所述目標子句在所述目標語句中的位置,確定多個所述目標子句之間的排列順序;
[0029]確定所述詞性集合對應的目標子句為待補全子句;
[0030]若所述詞性集合不包括所述前置類別,則將所述前置類別作為缺失類別,并將排列在所述待補全子句之前的目標子句作為補全模板子句;
[0031]若所述詞性集合不包括所述后置類別,則將所述后置類別作為所述缺失類別,并將排列在所述待補全子句之后的目標子句作為所述補全模板子句;
[0032]按照距離所述待補全子句由近至遠的順序,依次判斷每個所述補全模板子句是否完整;
[0033]若完整,則在所述補全模板子句對應的詞性集合中,確定所述詞性類別為所述缺失類別的詞性為所述詞性集合缺失的詞性,并利用所述詞性集合缺失的詞性對應的詞語補充所述待補全子句,退出依次判斷每個所述補全模板子句是否完整的步驟。
[0034]可選地,所述根據預設疾病庫中的標準疾病名詞,分別確定每個所述目標子句對應的目標標準疾病名稱,具體包括:
[0035]在所述預設疾病庫中查找與所述目標子句對應的標準疾病名稱,若查找到,則將所述標準疾病名稱作為所述目標標準疾病名稱;
[0036]若未找到,則在預設疾病同義詞庫中查找與所述目標子句對應的疾病同義詞,其中,所述預設疾病同義詞庫包括疾病同義詞以及與所述疾病同義詞對應的標準疾病名稱;
[0037]若查找到與所述目標子句對應的疾病同義詞,則確定與所述疾病同義詞對應的標準疾病名稱為所述目標疾病名稱。
[0038]可選地,所述方法還包括:
[0039]若未在所述預設疾病同義詞庫中查找到與所述目標子句對應的疾病同義詞,則將所述標準疾病名稱以及所述疾病同義詞作為相似疾病名稱,利用訓練后的文本匹配模型分別計算所述目標子句與每個所述相似疾病名稱之間的相似度;
[0040]根據所述相似度確定所述目標標準疾病名稱。
[0041]可選地,所述根據所述相似度確定所述目標標準疾病名稱,具體包括:
[0042]在多個所述相似度中,確定數值最大的最大相似度;
[0043]若所述最大相似度大于所述預設閾值,且所述最大相似度對應的相似疾病名稱為所述標準疾病名稱,則確定所述最大相似度對應的相似疾病名稱為所述目標標準疾病名稱;
[0044]若所述最大相似度大于預設閾值,且所述最大相似度對應的相似疾病名稱為所述疾病同義詞,則確定所述最大相似度對應的相似疾病名稱對應的標準疾病名稱為所述目標標準疾病名稱;
[0045]若所述最大相似度小于所述預設閾值,則輸出未匹配到目標標準疾病名稱的提示信息。
[0046]根據本申請的另一方面,提供了一種疾病名稱標準本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種疾病名稱標準化方法,其特征在于,所述方法包括:根據預設通配符將目標語句切分成一個或多個目標子句;將每個所述目標子句切分成為一個或多個詞語,并分別確定每個所述詞語的詞性,根據所述詞語的詞性確定所述目標子句的詞性集合;根據所述詞性集合,確定所述目標子句是否完整;若不完整,則根據所述詞性集合缺失的詞性補充所述目標子句;根據預設疾病庫中的標準疾病名稱,分別確定每個所述目標子句對應的目標標準疾病名稱。2.根據權利要求1所述的方法,其特征在于,所述根據預設通配符將目標語句切分成一個或多個目標子句,具體包括:確定所述預設通配符在所述目標語句中的位置;若所述預設通配符的位置不在括號內,則確定所述預設通配符的位置為第一切分位置;基于所述第一切分位置將所述目標語句切分成一個或多個中間子句;若所述中間子句中不包含括號,則將所述中間子句作為一個所述目標子句;若所述中間子句中包含所述括號且所述括號內不包含所述預設通配符,則確定所述括號的位置為第二切分位置;若所述中間子句中包含所述括號且所述括號內包含所述預設通配符,則確定所述括號的位置以及所述括號內的預設通配符的位置為第二切分位置;基于所述第二切分位置將所述中間子句切分成為一個或多個所述目標子句。3.根據權利要求1所述的方法,其特征在于,所述詞性的詞性類別包括前置類別、后置類別以及獨立類別;所述根據所述詞性集合,確定所述目標子句是否完整,具體包括:確定所述詞性集合中每個所述詞性的詞性類別,得到類別集合;若所述類別集合包括所述獨立類別,則確定所述目標子句完整;若所述類別集合包括所述前置類別以及所述后置類別,則確定所述目標子句完整;否則,確定所述目標子句不完整。4.根據權利要求3所述的方法,其特征在于,所述根據所述詞性集合缺失的詞性補充所述目標子句,具體包括:分別按照每個所述目標子句在所述目標語句中的位置,確定多個所述目標子句之間的排列順序;確定所述詞性集合對應的目標子句為待補全子句;若所述詞性集合不包括所述前置類別,則將所述前置類別作為缺失類別,并將排列在所述待補全子句之前的目標子句作為補全模板子句;若所述詞性集合不包括所述后置類別,則將所述后置類別作為所述缺失類別,并將排列在所述待補全子句之后的目標子句作為所述補全模板子句;按照距離所述待補全子句由近至遠的順序,依次判斷每個所述補全模板子句是否完整;若完整,則在所述補全模板子句對應的詞性集合中,確定所述詞性類別為所述缺失類
別的詞性為所述詞性集合缺失的詞性,并利用所述詞性集合缺失的詞性對應的詞語補充所述待補全子句,...
【專利技術屬性】
技術研發人員:董婉,黃明星,李銀鋒,劉海倫,王月寶,黃平,許壘,沈鵬,
申請(專利權)人:北京水滴科技集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。