System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及醫療大模型的數據處理,尤其涉及一種基于大語言模型的電子病歷后結構化信息提取方法、電子設備及存儲介質。
技術介紹
1、醫療領域的電子病歷書寫內容繁多,電子病歷系統既要滿足醫療信息的結構化要求,又要滿足書寫便利性,市面上的電子病歷系統都會在結構化與便利性之間尋找平衡點。目前的一種方案是優先滿足便利性,提升醫生的診療效率,同時,使用病歷后結構化方法滿足病歷的結構化要求。早前的病歷后結構化有基于規則和基于傳統nlp(自然語言處理)的信息提取方法,這些方法對語言的語法理解能力較強,處理速度快,但語義理解能力較弱。隨著大語言模型的興起,又有基于大語言模型的方法,通常,大語言模型在病歷后結構化中,是以問答形式,將一份電子病歷作為內容,以及對應的問題提示詞提交給大模型,大模型則以文本的回答方式輸出該份病歷的結構化信息。基于大語言模型的病歷后結構化對語言的語義理解更強,但處理速度慢,特別是對于電子病歷中,有的元素內容為一大段文本,如“現病史”,“討論意見”等元素內容通常都是一大段文本,模型輸出慢;同時存在幻覺的風險,如大模型輸出了一些原始病歷中不存在的人名、藥品、疾病等詞語或語句,這種輸出即為大語言模型產生的幻覺,這些語句的存在將導致大語言模型輸出信息與真實病歷信息存在偏差,而醫療領域對信息錯誤的容忍度較低,這是導致大語言模型在醫療領域落地難的一個原因。
技術實現思路
1、本專利技術提供了一種基于大語言模型的電子病歷后結構化信息提取方法、電子設備及存儲介質,以解決上述現有技術的不足,本
2、為了實現本專利技術的目的,擬采用以下技術:
3、一種基于大語言模型的電子病歷后結構化信息提取方法,包括模型訓練及所訓練模型的應用;
4、模型訓練是通過大語言模型再訓練的方法,對通用大語言模型進行電子病歷后結構化任務的微調,從而得到電子病歷后結構化模型;
5、模型訓練的步驟為:
6、步驟a,對所輸入的電子病歷文本按其病歷類型所包含的元素進行后結構化標注;
7、步驟b,對所標注的電子病歷數據的每個元素分別進行處理;
8、步驟b中對所標注的電子病歷數據的每個元素分別進行處理時,包含對所標注的電子病歷數據的每個元素分別進行分類及依據元素的種類對所標注的電子病歷數據的每個元素的原始內容進行處理;
9、步驟c,將處理后的每個元素分別組織為訓練樣本數據;
10、步驟d,以訓練樣本數據對大語言模型進行訓練/微調;
11、所訓練模型的應用是對訓練/微調后的電子病歷后結構化模型進行應用。
12、進一步地,步驟a中,病歷類型的元素一般參考衛生行業標準,如電子病歷基本數據集,例如,病歷類型“入院記錄”包含“姓名”、“性別”、“年齡”、“現病史”、“家族史”等等,并對元素的取值長度有約束;對于標注,則可使用現有的一些通用標注系統分別對每個元素的取值做標注。
13、進一步地,步驟b中對所標注的電子病歷元素處理時,以所標注的電子病歷的元素的內容長度為條件;
14、若所標注的電子病歷元素的內容長度大于等于預定值時,則認定該元素為優化元素,需要對該元素的內容進行處理,處理后該元素包含兩個值,一個值是原始內容,另一個值是優化后的內容。元素內容長度指該元素的一般情況下的長度,可參考衛生行業標準,也可自行做調整。
15、若所標注的電子病歷元素的內容長度小于預定值時,則認定該元素為常規元素,不需要對該元素的內容進行處理,該元素僅包含一個值,即原始內容。
16、通過對所標注的電子病歷元素根據內容長度進行分類、處理、訓練,可以得到提取信息效率更高的模型,從而在后續模型應用中以更快的速度響應病歷信息提取的請求。
17、進一步地,步驟b中,對優化元素的內容的優化處理,是對該元素的原始內容進行截取處理,截取前n個字符作為第一部分,截取后n個字符作為第二部分,將第一部分和第二部分用省略號或者其它不經常在病歷中使用的標點符號對兩個部分進行連接,從而得到該元素的優化后內容。
18、進一步地,步驟c,將處理后的每個電子病歷元素分別組織為一條或兩條訓練樣本數據。
19、進一步地,步驟c中,以每個元素在步驟b中識別出的類型為條件,將每個元素組織為一條或兩條訓練樣本數據;
20、若該元素為優化元素,其值有兩個值,分別是原始內容和優化后的內容,則輸出的訓練樣本數據為兩個值分別對應的兩條數據;
21、若該元素為常規元素,其值只有一個值,即原始內容,則輸出的訓練樣本數據為原始內容對應的一條數據。
22、進一步地,步驟c中,組織訓練數據,對于大語言模型,需要組織該條數據的三個部分:輸入、提示詞、輸出。其中輸入為該步驟a中的電子病歷原始文本,提示詞則為了讓模型明確針對這份電子病歷文本需要做的任務,輸出則為該任務得到的結果。
23、若該條數據對應的值為原始內容,則設定提示詞為常規的提示詞,如“請對這份入院記錄病歷,提取出現病史,注意提取內容需從原始文本中截取”,提示詞中需要提及該條數據對應的元素的名稱,以明確該任務所提取的數據元。
24、若該條數據對應的值為優化后的內容,則設定提示詞為優化的提示詞,例如“請對這份入院記錄病歷,提取出現病史,注意提取內容需從原始文本中截取。如果提取的內容長度大于10,則以‘前5個字符+省略號+后5個字符’的形式輸出”,以明確輸出格式為優化后的格式。
25、進一步地,步驟d中,可使用通用大語言模型,如阿里巴巴集團控股有限公司的qwen2、北京智譜華章科技有限公司的glm等模型作為基礎模型,使用步驟c中組織的訓練數據對基礎模型做進一步的訓練/微調,目前各種通用大語言模型的訓練數據均為輸入、輸出、提示詞,僅格式不同,做適當適配即可。
26、對于大語言模型的應用來說,在相同的硬件資源下,輸出的文字數量與耗時基本成正比。而通過上述的步驟b和步驟c后,則能盡可能的減少了輸出文字的數量。比如“入院記錄”的“現病史”,大多數情況都是一兩百字。若能減少輸出,就能減少耗時。在本方案中標注的數據元素字符數或者字數較少的,如“姓名”,按照常規的大模型處理方法進行處理。而對字符數或者字數較多的“現病史”內容來說,則只需要輸出該“現病歷”的前5個字和后5個字,中間用省略號拼接。通過這種方式能降低輸出文字數量。而后通過后續的較低代價的處理來還原“現病史”的全文。特別說明:沒有參考傳統nlp的方式,輸出“現病史”內容在病歷原始文本中的開始位置和結束位置,這種更為精簡的方式,是因為對于大語言模型,其對位置信息識別較為困難,現有的超大參數量的大語言模型都很難直接給出準確的位置點信息,往往給出的位置是錯誤的。再有,通過步驟c,將一份電子病歷,按元素拆分組織成多條訓練數據,相較于傳統的一份病歷對應一條訓練數據,一方面,對于大模型來說,細化任務為類似“從本文檔來自技高網...
【技術保護點】
1.基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,包括模型訓練及模型應用;
2.根據權利要求1所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,步驟b中對所標注的電子病歷數據的每個元素分別進行分類及處理時,以所標注的電子病歷數據的元素的內容長度為條件:
3.根據權利要求2所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,對優化元素的原始內容文本進行截取處理時:
4.根據權利要求3所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于:
5.根據權利要求1所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,模型應用的步驟包括:
6.根據權利要求5所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,若步驟02所得的元素為優化元素,則執行步驟031、步驟032、步驟033、步驟034;
7.一種電子設備,至少包括一個處理器和存儲器;且存儲器用于存儲計算機程序;其特征在于,處理器用于執行存儲器所存儲的計算機程序,以使處理器執行如權利要求1-6中任
8.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,在所述計算機程序被處理器運行時控制所述存儲介質所在設備執行如權利要求1-6中任意一項所述的基于大語言模型的電子病歷后結構化信息提取方法。
...【技術特征摘要】
1.基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,包括模型訓練及模型應用;
2.根據權利要求1所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,步驟b中對所標注的電子病歷數據的每個元素分別進行分類及處理時,以所標注的電子病歷數據的元素的內容長度為條件:
3.根據權利要求2所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,對優化元素的原始內容文本進行截取處理時:
4.根據權利要求3所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于:
5.根據權利要求1所述的基于大語言模型的電子病歷后結構化信息提取方法,其特征在于,模型應用的步驟...
【專利技術屬性】
技術研發人員:朱智源,陳躍,李輝,卓小東,何夢娜,羅藝,黃建良,
申請(專利權)人:成都醫星科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。