本發明專利技術公開了一種基于遷移學習的中醫罕見病中藥處方生成方法和系統,包括以下步驟:步驟S1:得到中醫知識學習模型;步驟S2:基于多頭自注意力機制的LSTM模型生成對應的中藥名序列;步驟S3:得到中藥劑量生成模型;步驟S4:將所述中藥名序列和所述特征數據集合并作為所述中藥劑量生成模型的輸入,依次生成每味中藥推薦的劑量,最終生成完整的中藥處方。本發明專利技術使用兩段式遷移學習算法,以自建中醫語料庫為基礎,訓練中醫領域的中醫知識學習模型,使用中醫臨床罕見病例對中醫知識學習模型進行修正。本方法模擬了中醫醫生的學習過程,其生成的中藥處方也將更加契合患者的病情,充分利用了醫生在臨床診療過程中產生的經驗性知識。用了醫生在臨床診療過程中產生的經驗性知識。用了醫生在臨床診療過程中產生的經驗性知識。
【技術實現步驟摘要】
一種基于遷移學習的中醫罕見病中藥處方生成方法和系統
[0001]本專利技術涉及一種深度學習知識
,尤其涉及一種基于遷移學習的中醫罕見病中藥處方生成方法和系統。
技術介紹
[0002]在中醫問診過程中,醫生需要根據患者的主訴從病、癥兩個角度進行分析,并根據中醫理論望、聞、問、切四診的信息,基于自身的專業知識和臨床經驗給出診斷結果并開具中藥處方。由于中醫學理論體系紛繁復雜,不同的中醫醫生接觸并掌握的理論知識體系以及臨床經驗各不相同,導致中醫診療過程較為依賴病人主訴和醫生的主觀判斷。尤其在中醫罕見病中,由于罕見病的臨床案例極為稀缺,中醫醫生可參考的臨床病例有限,臨床治療效果尚有提升空間。因此,研發中醫罕見病中藥處方生成系統,以人機交互的方式為中醫醫生提供輔助決策信息,是緩解上述現象的重要手段,同時也是促進中醫智能化轉型的一項重要舉措。中醫罕見病中藥處方生成系統的目標是使用人工智能模型學習中醫長久以來積累的治療經驗和醫學理論,在臨床診療過程中結合患者的臨床癥狀信息,協助醫生完成患者疾病/證候診斷,并生成治療方案(即中醫藥處方)。通過上述方式,提高中醫臨床診療的效率和質量。
[0003]中藥處方生成是中醫臨床診療中的重要組成部分,因此也是臨床決策支持系統的一項重要功能。中藥處方生成包含中藥名和對應劑量兩方面的推薦,目前的中藥處方生成方法通常致力于中藥名推薦,而忽視其劑量。現有的中藥處方生成方法主要包括兩類,第一類方法是基于機器學習算法,根據臨床病例中患者的癥狀和病史構建相應的病理特征,然后將病理特征映射至藥物特征,生成一組中藥名,最終構建推薦的中藥處方。其中常用的機器學習算法包括TextCNN、支持向量機和人工神經網絡等。第二類方法是基于知識圖譜的技術,將患者的癥狀集合視作一個群,即中醫中的證候,并將證候信息與草藥信息交互以輸出不同癥狀適合的草藥。現有的研究發現,可以通過構建患者臨床癥狀和中草藥關聯的知識圖譜,在知識圖譜中構建推理路徑以實現中藥處方生成的功能。
[0004]現有技術存在以下缺點:1.無法基于小樣本得到準確的推薦效果。目前的研究采用的通常是基于seq2seq網絡結構的模型,將中藥處方生成任務當作由癥狀對應到中草藥的任務。該類型的模型可以在中醫臨床病例數量充足的情況下達到良好的中藥篩選任務效果。然而在現實環境中,由于醫院對于患者數據安全的保護以及人工標注樣本的低效率,實際的訓練樣本數量對于復雜的深度學習模型來說還不夠充分。因此,這類模型在實際臨床診斷中通常會出現各種問題,尤其是在樣本稀缺的中醫罕見病臨床實踐中。
[0005]2.現有模型無法學習以非結構化文本形式存在的中醫知識。現有的方法普遍從結構化數據(即,人工標注的電子病歷)中提取病人的癥狀信息,并通過機器學習的方法對癥狀序列/集合進行編碼,再通過解碼器對其進行解碼生成中藥處方。然而,這類方法對于數據的格式、質量和數量要求較高,且忽略了大量中醫書籍和文獻中記載的中醫病例和中醫
理論知識。因此,模型對臨床病例的建模能力和效率相對有限,其直觀表現為模型在臨床病例較少的場景中(如:罕見病場景)其準確率、召回率和F1值較低。
[0006]3.現有的中藥處方生成方法無中藥劑量。現有的中藥方關注的是中藥的推薦,在生成一組中藥名后,即完成中藥處方的生成并推薦給中醫醫生,每味中藥劑量由醫生確定。然而在臨床實踐中,劑量對中藥的療效有著不可忽視的作用,劑量過多或過少都將影響中藥處方的療效。中藥名的推薦屬于分類問題,而中藥劑量的推薦屬于回歸問題,且理論上劑量可以是任意數值,因此建模難度較大,鑒于此,目前的主流方法通常忽略中藥劑量的建模部分。
[0007]為此,我們提出一種基于遷移學習的中醫罕見病中藥處方生成方法和系統。
技術實現思路
[0008]本專利技術為了解決上述技術問題,提供一種基于遷移學習的中醫罕見病中藥處方生成方法和系統。
[0009]本專利技術采用的技術方案如下:一種基于遷移學習的中醫罕見病中藥處方生成系統,包括:擬人式中醫知識學習模塊:用于從中醫書籍或/和文獻中提取中醫知識樣本,并利用所述中醫知識樣本使用RoBERTa模型進行建模,得到中醫知識學習模型;中醫臨床罕見病處方生成模塊:用于利用所述中醫知識學習模型將中醫臨床罕見病例中患者病史、醫學體征和患者主訴等信息進行表征生成,利用池化操作融合所述表征,得到中藥表征,并將所述中藥表征利用基于多頭自注意力機制的LSTM模型生成對應的中藥名序列;中藥劑量生成模塊:用于對中藥處方中的中藥名、中藥處方中藥物對應的功效信息和人口統計學數據進行處理得到特征數據集,將所述特征數據集作為模型的輸入,對模型進行訓練,得到中藥劑量生成模型,并將所述中藥名序列和所述特征數據集合并作為所述中藥劑量生成模型的輸入,依次生成每味中藥推薦的劑量,最終生成完整的中藥處方。
[0010]進一步地,所述擬人式中醫知識學習模塊的具體功能流程包括以下步驟:步驟S11:通過自然語言處理方法對中醫書籍或/和文獻資料中的文本數據進行數據清洗,得到非結構化中醫語料庫;步驟S12:從所述非結構化中醫語料庫抽取完整連續的、分詞后的語句,構建長度上限為預設值的中醫知識樣本;步驟S13:使用RoBERTa模型中的掩碼工具對所述中醫知識樣本進行動態掩碼,得到經過掩碼后的中醫知識樣本,以及每個所述中醫知識樣本對應的掩碼詞的集合,將所述掩碼后的中醫知識樣本作為訓練樣本輸入,所述掩碼詞的集合作為預測目標,通過所述RoBERTa模型輸出中醫知識樣本中對應的掩碼詞的預測值;步驟S14:將所述中醫知識樣本對應的掩碼詞與所述中醫知識樣本對應的掩碼詞的預測值計算交叉熵損失,并利用所述交叉熵損失優化所述RoBERTa模型,得到中醫知識學習模型。
[0011]進一步地,所述步驟S11中所述自然語言處理方法包括對所述文本數據中的字符進行全角
?
半角轉換、刪除無效字符、將繁體字轉換為簡體字、去除停用詞并將文本中與病
例相關的句子刪除。
[0012]進一步地,所述步驟S13具體包括以下子步驟:步驟S131:使用RoBERTa模型中的掩碼工具對所述中醫知識樣本進行動態掩碼,得到經過掩碼后的中醫知識樣本,以及每個所述中醫知識樣本對應的掩碼詞的集合,對所述掩碼后的中醫知識樣本分別計算對應的詞向量、塊向量和位置向量;步驟S132:將所述詞向量、所述塊向量和所述位置向量轉換成由相同維度向量組成的語句矩陣;步驟S133:將所述語句矩陣輸入所述RoBERTa模型中的文本語義特征抽取模塊,經過計算,得到由所述文本語義特征抽取模塊最后一層輸出的中間語義表征;步驟S134:所述詞向量通過所述RoBERTa模型中的掩碼詞預測模塊將所述中間語義表征映射到詞表空間,得到所述中醫知識樣本的掩碼詞位置對應的詞表上的概率分布,基于所述概率分布得到中醫知識樣本對應的掩碼詞的預測值。
[0013]進一步地,所述中醫臨床罕見病處方生成模塊的具體功能流程包括以下步驟:步驟S21:通過自然語言處理方法提取中醫臨床罕見病例中的病史信息、病人主訴信息和醫學體征本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于遷移學習的中醫罕見病中藥處方生成系統,其特征在于,包括:擬人式中醫知識學習模塊:用于從中醫書籍或/和文獻中提取中醫知識樣本,并利用所述中醫知識樣本使用RoBERTa模型進行建模,得到中醫知識學習模型;中醫臨床罕見病處方生成模塊:用于利用所述中醫知識學習模型將中醫臨床罕見病例中患者病史、醫學體征和患者主訴等信息進行表征生成,利用池化操作融合所述表征,得到中藥表征,并將所述中藥表征利用基于多頭自注意力機制的LSTM模型生成對應的中藥名序列;中藥劑量生成模塊:用于對中藥處方中的中藥名、中藥處方中藥物對應的功效信息和人口統計學數據進行處理得到特征數據集,將所述特征數據集作為模型的輸入,對模型進行訓練,得到中藥劑量生成模型,并將所述中藥名序列和所述特征數據集合并作為所述中藥劑量生成模型的輸入,依次生成每味中藥推薦的劑量,最終生成完整的中藥處方。2.如權利要求1所述的一種基于遷移學習的中醫罕見病中藥處方生成系統,其特征在于,所述擬人式中醫知識學習模塊的具體功能流程包括以下步驟:步驟S11:通過自然語言處理方法對中醫書籍或/和文獻資料中的文本數據進行數據清洗,得到非結構化中醫語料庫;步驟S12:從所述非結構化中醫語料庫抽取完整連續的、分詞后的語句,構建長度上限為預設值的中醫知識樣本;步驟S13:使用RoBERTa模型中的掩碼工具對所述中醫知識樣本進行動態掩碼,得到經過掩碼后的中醫知識樣本,以及每個所述中醫知識樣本對應的掩碼詞的集合,將所述掩碼后的中醫知識樣本作為訓練樣本輸入,所述掩碼詞的集合作為預測目標,通過所述RoBERTa模型輸出中醫知識樣本中對應的掩碼詞的預測值;步驟S14:將所述中醫知識樣本對應的掩碼詞與所述中醫知識樣本對應的掩碼詞的預測值計算交叉熵損失,并利用所述交叉熵損失優化所述RoBERTa模型,得到中醫知識學習模型。3.如權利要求2所述的一種基于遷移學習的中醫罕見病中藥處方生成系統,其特征在于,所述步驟S11中所述自然語言處理方法包括對所述文本數據中的字符進行全角
?
半角轉換、刪除無效字符、將繁體字轉換為簡體字、去除停用詞并將文本中與病例相關的句子刪除。4.如權利要求2所述的一種基于遷移學習的中醫罕見病中藥處方生成系統,其特征在于,所述步驟S13具體包括以下子步驟:步驟S131:使用RoBERTa模型中的掩碼工具對所述中醫知識樣本進行動態掩碼,得到經過掩碼后的中醫知識樣本,以及每個所述中醫知識樣本對應的掩碼詞的集合,對所述掩碼后的中醫知識樣本分別計算對應的詞向量、塊向量和位置向量;步驟S132:將所述詞向量、所述塊向量和所述位置向量轉換成由相同維度向量組成的語句矩陣;步驟S133:將所述語句矩陣輸入所述RoBERTa模型中的文本語義特征抽取模塊,經過計算,得到由所述文本語義特征抽取模塊最后一層輸出的中間語義表征;步驟S134:所述詞向量通過所述RoBERTa模型中的掩碼詞預測模塊將所述中間語義表征映射到詞...
【專利技術屬性】
技術研發人員:金雨青,劉智,李勁松,李栓,
申請(專利權)人:之江實驗室,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。