System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請屬于計算機軟件,涉及醫療大模型訓練用數據提取,尤其涉及一種電子病歷后結構化標注方法、裝置、電子設備及存儲介質。
技術介紹
1、由于電子病歷的結構化與書寫便利性之間存在矛盾,結構化做得越好,書寫便利程度往往會更差。因此,很多醫院為了醫生書寫的便利性,在結構化程度方面做了犧牲。但在醫院數據有效利用等方面又都要求做好電子病歷結構化。
2、目前存在的病歷后結構化就是解決此類問題的方案,其一般通過ai模型來實現后結構化比傳統規則有更好的開發效率以及效果。而ai的訓練依賴較好的、龐大的訓練數據,但傳統的標注系統需要大量的人工標注時間與成本,完全利用模型的方式來進行標注又會加大開發周期及開發成本。
技術實現思路
1、為了解決上述現有技術的不足,本申請提供一種電子病歷后結構化標注方法、裝置、電子設備及存儲介質,基于對html格式的電子病歷進行自動結構化標注以生成訓練所需數據,可提高標注效率,降低標注成本,利于縮短項目研發周期。
2、為了實現上述目的,本專利技術采用以下技術:
3、一種電子病歷后結構化標注方法,包括:
4、從導入的一批屬于某個種類的電子病歷中獲取一個作為待處理的樣本,其包含一份html格式的電子病歷以及對應的病歷模板編號;每個病歷模板編號唯一對應一個預先配置的html模板;
5、根據病歷模板編號獲取根據其對應的html模板預先配置的標注配置和替換規則組,標注配置中預先設置有標準數據元與html模板中的病歷組件的映射關系
6、解析html格式的電子病歷,提取含有id信息的html元素作為病歷組件,并提取id信息對應的純文本內容作為對應的病歷組件的值;
7、遍歷各標準數據元,根據映射關系完成對各標準數據元與病歷組件的值的取值對應:
8、當標準數據元與病歷組件的映射關系為一對一時,將病歷組件的值提取作為標準數據元的取值;
9、當標準數據元與病歷組件的映射關系為一對多時,根據各病歷組件所具有的預設組合順序序號或預設優先級序號進行提取:若具有預設組合順序序號,則根據組合順序序號對應的順序,依次拼接各病歷組件的值,將拼接后的結果作為標準數據元的取值;若具有預設優先級序號,則根據優先級序號對應的優先級,選擇非空值中優先級最高的病歷組件的值作為標準數據元的取值;
10、當標準數據元與病歷組件的映射關系為多對一時,根據病歷組件是否具有預設的ai輔助標識進行提取:若不具有預設的ai輔助標識,則將病歷組件的值同時作為多個標準數據元的取值,若具有預設的ai輔助標識,則表明標注配置中該病歷組件所對應映射關系的多個標準數據元的取值是需要通過調用預設的通用生成式ai語言模型的api提取生成,則依據映射關系調用所述通用生成式ai語言模型的api生成標準數據元的取值;
11、根據替換規則組對完成對應取值后的標準數據元進行優化處理,包括根據替換規則組中預設的優先順序對標準數據元的取值進行字符串替換和/或正則表達式替換,完成后結構化標注。
12、進一步,獲取到待處理樣本后,解析html格式的電子病歷以從中提取純文本的電子病歷,用于作為訓練所需的輸入input;
13、完成后結構化標注后,將標注結果作為訓練所需的輸出output;
14、將輸入input和輸出output一同生成為訓練所需的json格式文檔。
15、進一步,完成后結構化標注后,進行標注結果展示,以提供給用戶進行人工修訂標注結果;待用戶完成人工修訂標注結果的操作后,將修訂后的標注結果作為訓練所需的輸出output。
16、進一步,調用通用生成式ai語言模型的api生成標準數據元的取值,包括:
17、將病歷組件的值作為問題內容通過api輸入通用生成式ai語言模型;
18、為各標準數據元分別生成一段提示詞;
19、依次將各提示詞通過api輸入通用生成式ai語言模型;
20、依次接收通用生成式ai語言模型根據各提示詞從問題內容中選擇并輸出的目標內容,將目標內容作為對應標準數據元的取值。
21、一種電子病歷后結構化標注裝置,包括:
22、接收模塊,從導入的一批屬于某個種類的電子病歷中獲取一個作為待處理的樣本,其包含一份html格式的電子病歷以及對應的病歷模板編號;每個病歷模板編號唯一對應一個預先配置的html模板;
23、獲取模塊,用于根據病歷模板編號獲取根據其對應的html模板預先配置的標注配置和替換規則組,標注配置中預先設置有標準數據元與html模板中的病歷組件的映射關系;
24、解析模塊,用于解析html格式的電子病歷,提取含有id信息的html元素作為病歷組件,并提取id信息對應的純文本內容作為對應的病歷組件的值;
25、取值模塊,用于遍歷各標準數據元,根據映射關系完成對各標準數據元與病歷組件的值的取值對應:
26、當標準數據元與病歷組件的映射關系為一對一時,將病歷組件的值提取作為標準數據元的取值;
27、當標準數據元與病歷組件的映射關系為一對多時,根據各病歷組件所具有的預設組合順序序號或預設優先級序號進行提取:若具有預設組合順序序號,則根據組合順序序號對應的順序,依次拼接各病歷組件的值,將拼接后的結果作為標準數據元的取值;若具有預設優先級序號,則根據優先級序號對應的優先級,選擇非空值中優先級最高的病歷組件的值作為標準數據元的取值;
28、當標準數據元與病歷組件的映射關系為多對一時,根據病歷組件是否具有預設的ai輔助標識進行提取:若不具有預設的ai輔助標識,則將病歷組件的值同時作為多個標準數據元的取值,若具有預設的ai輔助標識,則表明標注配置中該病歷組件所對應映射關系的多個標準數據元的取值是需要通過調用預設的通用生成式ai語言模型的api提取生成,則依據映射關系調用所述通用生成式ai語言模型的api生成標準數據元的取值;
29、替換模塊,用于根據替換規則組對完成取值對應后的標準數據元進行優化處理,包括根據替換規則組中預設的優先順序對標準數據元的取值進行字符串替換和/或正則表達式替換,完成后結構化標注。
30、進一步,解析模塊還用于解析html格式的電子病歷,以從中提取純文本的電子病歷;裝置還包括生成模塊,用于將提取獲得的純文本的電子病歷作為訓練所需的輸入input,將完成后結構化標注得到的標注結果作為訓練所需的輸出output,并將輸入input和輸出output一同生成為訓練所需的json格式文檔。
31、進一步,裝置還包括界面模塊,用于在完成后結構化標注后,進行標注結果展示,以提供給用戶進行人工修訂標注結果;生成模塊用于在用戶完成人工修訂標注結果的操作后,將修訂后的標注結果作為訓練所需的輸出output。
32、一種電子設備,包括至少一個處理器和存儲器;其中,所述存儲器存儲有計算機執行指令;在所述至少本文檔來自技高網...
【技術保護點】
1.一種電子病歷后結構化標注方法,其特征在于,包括:
2.根據權利要求1所述的電子病歷后結構化標注方法,其特征在于,獲取到待處理樣本后,解析html格式的電子病歷以從中提取純文本的電子病歷,用于作為訓練所需的輸入input;
3.根據權利要求2所述的電子病歷后結構化標注方法,其特征在于,完成后結構化標注后,進行標注結果展示,以提供給用戶進行人工修訂標注結果;待用戶完成人工修訂標注結果的操作后,將修訂后的標注結果作為訓練所需的輸出output。
4.根據權利要求1所述的電子病歷后結構化標注方法,其特征在于,拼接各病歷組件的值時,按“病歷組件的前綴+病歷組件的值+病歷組件的后綴”的方式進行;其中,病歷組件的前綴和病歷組件的后綴用于作為拼接的間隔字符,病歷組件的前綴為病歷組件的描述信息,病歷組件的值為病歷組件的內容,病歷組件的后綴為標點符號。
5.根據權利要求1所述的電子病歷后結構化標注方法,其特征在于,調用通用生成式AI語言模型的API生成標準數據元的取值,包括:
6.根據權利要求5所述的電子病歷后結構化標注方法,其特征在于
7.根據權利要求1所述的電子病歷后結構化標注方法,其特征在于,標注配置和替換規則組通過如下步驟進行預先配置:
8.一種電子病歷后結構化標注裝置,其特征在于,包括:
9.一種電子設備,包括至少一個處理器和存儲器;其中,所述存儲器存儲有計算機執行指令;其特征在于,在所述至少一個處理器執行所述存儲器存儲的計算機執行指令,使得所述至少一個處理器執行如權利要求1-7中任意一項所述的電子病歷后結構化標注方法。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,在所述計算機程序被處理器運行時控制所述存儲介質所在設備執行如權利要求1-7中任意一項所述的電子病歷后結構化標注方法。
...【技術特征摘要】
1.一種電子病歷后結構化標注方法,其特征在于,包括:
2.根據權利要求1所述的電子病歷后結構化標注方法,其特征在于,獲取到待處理樣本后,解析html格式的電子病歷以從中提取純文本的電子病歷,用于作為訓練所需的輸入input;
3.根據權利要求2所述的電子病歷后結構化標注方法,其特征在于,完成后結構化標注后,進行標注結果展示,以提供給用戶進行人工修訂標注結果;待用戶完成人工修訂標注結果的操作后,將修訂后的標注結果作為訓練所需的輸出output。
4.根據權利要求1所述的電子病歷后結構化標注方法,其特征在于,拼接各病歷組件的值時,按“病歷組件的前綴+病歷組件的值+病歷組件的后綴”的方式進行;其中,病歷組件的前綴和病歷組件的后綴用于作為拼接的間隔字符,病歷組件的前綴為病歷組件的描述信息,病歷組件的值為病歷組件的內容,病歷組件的后綴為標點符號。
5.根據權利要求1所述的電子病歷后結構化標注方法,其特征在于,調用通...
【專利技術屬性】
技術研發人員:蘭紅林,陳躍,卓小東,周瑜,何夢娜,
申請(專利權)人:成都醫星科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。