【技術實現步驟摘要】
基于語音語義的疾病實體匹配方法、裝置及計算機設備
本申請涉及人工智能
,尤其涉及一種基于語音語義的疾病實體匹配方法、裝置及計算機設備。
技術介紹
病歷是在醫療活動中記錄的個體健康信息,病歷中記錄了疾病實體,即病人所患疾病的名稱。病歷中記載的疾病實體可能存在多種表達,例如,強迫性障礙和強迫癥屬于同一種疾病,因此經常需要判斷兩個疾病實體是否匹配。傳統的疾病實體匹配,有的由人工進行判斷,在疾病實體較多時,人工判斷需要大量時間,效率低下。有的是借助計算機進行疾病實體匹配,例如對疾病實體進行屬性匹配、上下文匹配等。然而,這些匹配技術都需要預先獲取大規模的疾病語料,且對語料質量要求較高,因此語料的收集和預處理所需時間較長,導致疾病實體匹配的效率依然較低。
技術實現思路
本申請實施例的目的在于提出一種基于語音語義的疾病實體匹配方法、裝置、計算機設備及存儲介質,以解決疾病實體匹配效率較低的問題。為了解決上述技術問題,本申請實施例提供一種基于語音語義的疾病實體匹配方法,采用了如下所述的技術方案:獲取疾病實體匹配詞典以及候選疾病實體;其中,所述疾病實體匹配詞典中包括匹配疾病實體對;對所述候選疾病實體進行兩兩組合,得到候選疾病實體對集合;從所述候選疾病實體對集合中隨機抽取候選疾病實體對;以抽取到的候選疾病實體對作為負樣本、所述匹配疾病實體對作為正樣本,將所述正樣本和所述負樣本輸入初始疾病實體匹配模型;其中,所述初始疾病實體匹配模型為完成預訓練的BERT模型;根據所述 ...
【技術保護點】
1.一種基于語音語義的疾病實體匹配方法,其特征在于,包括下述步驟:/n獲取疾病實體匹配詞典以及候選疾病實體;其中,所述疾病實體匹配詞典中包括匹配疾病實體對;/n對所述候選疾病實體進行兩兩組合,得到候選疾病實體對集合;/n從所述候選疾病實體對集合中隨機抽取候選疾病實體對;/n以抽取到的候選疾病實體對作為負樣本、所述匹配疾病實體對作為正樣本,將所述正樣本和所述負樣本輸入初始疾病實體匹配模型;其中,所述初始疾病實體匹配模型為完成預訓練的BERT模型;/n根據所述正樣本和所述負樣本訓練所述初始疾病實體匹配模型,得到疾病實體匹配模型;/n獲取待匹配實體;/n將所述待匹配實體輸入所述疾病實體匹配模型進行實體匹配,得到實體匹配結果。/n
【技術特征摘要】
1.一種基于語音語義的疾病實體匹配方法,其特征在于,包括下述步驟:
獲取疾病實體匹配詞典以及候選疾病實體;其中,所述疾病實體匹配詞典中包括匹配疾病實體對;
對所述候選疾病實體進行兩兩組合,得到候選疾病實體對集合;
從所述候選疾病實體對集合中隨機抽取候選疾病實體對;
以抽取到的候選疾病實體對作為負樣本、所述匹配疾病實體對作為正樣本,將所述正樣本和所述負樣本輸入初始疾病實體匹配模型;其中,所述初始疾病實體匹配模型為完成預訓練的BERT模型;
根據所述正樣本和所述負樣本訓練所述初始疾病實體匹配模型,得到疾病實體匹配模型;
獲取待匹配實體;
將所述待匹配實體輸入所述疾病實體匹配模型進行實體匹配,得到實體匹配結果。
2.根據權利要求1所述的基于語音語義的疾病實體匹配方法,其特征在于,在所述獲取疾病實體匹配詞典以及候選疾病實體的步驟之前還包括:
獲取疾病語料信息;
通過語義信息識別所述疾病語料信息中的匹配疾病實體對;
基于識別到的匹配疾病實體對構建疾病實體匹配詞典。
3.根據權利要求1所述的基于語音語義的疾病實體匹配方法,其特征在于,所述從所述候選疾病實體對集合中隨機抽取候選疾病實體對的步驟包括:
獲取所述候選疾病實體對集合在所述疾病實體匹配詞典中的補集;
從所述補集中隨機抽取預設數量的候選疾病實體對;
計算抽取到的候選疾病實體對的實體相似度;
篩選實體相似度小于相似度閾值的候選疾病實體對。
4.根據權利要求1所述的基于語音語義的疾病實體匹配方法,其特征在于,所述根據所述正樣本和所述負樣本訓練所述初始疾病實體匹配模型,得到疾病實體匹配模型的步驟包括:
將所述正樣本和所述負樣本各自進行拼接,并添加樣本標簽,得到待處理樣本;
將所述待處理樣本輸入所述初始疾病實體匹配模型的網絡層,得到所述待處理樣本的表征向量;
對所述表征向量進行計算,輸出匹配預測概率;
根據所述匹配預測概率和所述樣本標簽計算模型損失;
根據所述模型損失調整所述初始疾病實體匹配模型的模型參數,直至模型收斂,得到疾病實體匹配模型。
5.根據權利要求1所述的基于語音語義的疾病實體匹配方法,其特征在于,在所述以抽取到的候選疾病實體對作為負樣本、所述匹配疾病實體對作為正樣本,將所述正樣本和所述負樣本輸入初始疾病實體匹配模型的步驟之前還包括:
獲取醫學語料數據集;
將所述醫...
【專利技術屬性】
技術研發人員:方春華,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。