System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種基于大模型的醫學知識約束下患者畫像生成方法,屬于醫療數據信息處理領域。
技術介紹
1、隨著醫療信息技術的發展,數字化醫療檔案成為醫療行業中的重要組成部分。醫療檔案包含了患者的基本信息、病歷、診斷結果、治療方案以及醫生的觀察和建議等內容,隨著醫療檔案數據的不斷增長,如何有效地利用檔案數據生成準確的患者畫像成為了一個挑戰。
2、現有的患者畫像生成方法大多直接從患者檔案信息中抽取關鍵實體來生成,如公開號為cn115775609a的中國專利技術專利申請公開了一種基于人工智能技術的患者畫像系統,采用雙向lstm模型對病歷信息進行命名體識別,生成患者的疾病和癥狀等實體進而構建患者畫像。公開號為cn117116407a的中國專利技術專利申請采用了encoder-decoder模型進行信息抽取,提取電子病歷中的多個實體信息和關系信息組,并根據時間順序整合得到用戶畫像。以上這些方法基于規則或者人工智能算法模型進行信息抽取,這些方法僅在特定領域準確性較高,泛化性和可推廣能力一般,且需要投入的人力較大。
3、近年來,隨著大模型的快速發展,利用大模型的語言理解能力有望解決簡化醫療自然語言處理相關的一些任務,為患者畫像的構建提供更高效的工具。然而,大模型在應用時存在的幻覺問題,制約了其在嚴肅領域的應用。在構建患者畫像時,確保患者畫像內容的準確性和真實性尤為重要。
技術實現思路
1、本專利技術的目的是:提供一種既可以利用大模型強大語言理解能力,又能對其輸出進行約束,保
2、為了達到上述目的,本專利技術的技術方案提供了一種基于大模型的醫學知識約束下患者畫像生成方法,基于已有的患者文檔和醫學知識數據,利用大模型技術進行患者畫像生成,其特征在于,包括以下步驟:
3、步驟1:對患者診療檔案和醫學知識數據進行數據預處理,其中,基于患者診療檔案獲得文本塊向量集合c={c1,c2,...,cn},cn為第n個患者診療文本塊向量,基于醫學知識數據獲得知識塊向量集合r={r1,r2,...,rn},rn為第n個醫學知識塊向量;
4、步驟2:建立患者畫像標簽體系,設定體系內所有結構化標簽及標簽定義,獲得標簽集合d={d1,d2,...,dn}以及標簽定義集合f={f1,f2,...,fn},其中,dn為第n個結構化標簽,fn為結構化標簽dn的標簽定義;
5、步驟3:取標簽體系內某具體結構化標簽作為當前處理標簽,檢索患者文檔,獲取與當前處理標簽相關的患者文檔檢索結果,利用大模型初步判斷患者與當前處理標簽是否匹配,具體包括以下步驟
6、步驟3-1:取標簽集合d中的某具體結構化標簽di作為當前處理標簽,針對當前處理標簽di以及對應的標簽定義fi,構建患者文檔相關內容檢索條件;
7、步驟3-2:將患者文檔相關內容檢索條件輸入詞向量模型得到檢索條件的向量化表示v;
8、步驟3-3:計算向量化表示v與文本塊向量集合c中的每一個患者診療文本塊向量ci的相似度,通過對相似度排序得到相似度最高的一組患者診療文本塊,將其作為患者檔案中與當前處理標簽di相關的患者檔案相關內容k;
9、步驟3-4:根據上述步驟中查詢到的患者檔案相關內容k,利用大模型判斷該患者檔案相關內容k與當前處理標簽di是否匹配;
10、步驟3-5:利用大模型執行提示并生成標簽匹配判斷結果s,標簽匹配判斷結果s僅包含是否匹配,將對應內容的生成概率作為分類判斷條件,獲取生成結果中患者檔案相關內容k與當前處理標簽di相匹配所對應的生成概率ps,若該生成概率ps高于預設的閾值θs,則認定當前患者和當前處理標簽di相匹配;
11、步驟4:檢索醫學知識數據,獲取與當前處理標簽di相關的醫學知識,建立標簽符合性校驗依據,具體包括以下步驟:
12、步驟4-1:針對當前處理標簽di以及對應的標簽定義fi,構建醫學知識相關內容檢索條件;
13、步驟4-2:將醫學知識相關內容檢索條件輸入到詞向量模型,得到向量化表示u;
14、步驟4-3:計算向量u與知識塊向量集合r中的每一個醫學知識塊向量ri的相似度,找到相似度最高的一組知識塊,將其作為醫學知識數據中與當前處理標簽di相關的醫學知識相關內容q;
15、步驟4-4:根據醫學知識相關內容q,結合當前處理標簽di以及標簽定義fi構建標簽符合性校驗依據t;
16、步驟5:在步驟3初步打標簽基礎上,加入步驟4所得標簽符合性校驗依據t,限制大模型幻覺,利用大模型進一步校驗步驟3的標簽判斷結果是否準確,具體包括以下步驟:
17、步驟5-1:根據步驟3中獲得的患者檔案相關內容k和步驟4中獲得的標簽符合性校驗依據t,利用大模型校驗步驟3所獲得的標簽匹配判斷結果s是否準確;
18、步驟5-2:利用大模型執行提示并生成標簽符合性校驗結果e,標簽符合性校驗結果e僅包含是否準確,獲取標簽符合性校驗結果e為標簽匹配判斷結果s不準確所對應的生成概率pe,若該生成概率pe高于預設的閾值θe,則認定當前標簽匹配判斷結果s是準確的;
19、步驟6、遍歷整個標簽體系,重復步驟3到步驟5,判斷患者和標簽是否匹配,并通過標簽符合性校驗依據驗證標簽匹配準確度,最終構建出患者的完整畫像。
20、優選地,所述步驟1包括:
21、步驟1-1:分塊處理患者診療檔案,對于每個患者診療檔案,按照固定的字符數和句子數將提取的文本進行分割,形成大小適合的文本塊;
22、步驟1-2:將分塊處理后獲得的文本塊輸入詞向量模型,獲得患者診療文本塊向量,并將這些患者診療文本塊向量存儲為文本塊向量集合c={c1,c2,...,cn};
23、步驟1-3:針對醫學知識數據,按照固定的字符數或句子數對醫學知識數據進行分割,將分割后的知識塊輸入到詞向量模型中,獲得醫學知識塊向量,并將這些醫學知識塊向量存儲為知識塊向量集合r={r1,r2,...,rn}。
24、優選地,所述步驟3-3中,相似度計算公式為:
25、優選地,所述步驟4-3中,相似度計算公式為:
26、與現有技術相比,本專利技術具有以下有益效果:
27、1.本專利技術提供了一種通過增加符合性校驗依據,對大模型的輸出進行約束的方法,有效抑制大模型預測過程中的幻覺問題;
28、2.本專利技術提供的方法直接使用原始基座大模型,通過構建不同任務的指令完成畫像過程,無需訓練模型,避免了成本極高的標注過程,使用成本低,操作靈活簡單。
本文檔來自技高網...【技術保護點】
1.一種基于大模型的醫學知識約束下患者畫像生成方法,基于已有的患者文檔和醫學知識數據,利用大模型技術進行患者畫像生成,其特征在于,包括以下步驟:
2.如權利要求1所述的一種基于大模型的醫學知識約束下患者畫像生成方法,其特征在于,所述步驟1包括:
3.如權利要求1所述的一種基于大模型的醫學知識約束下患者畫像生成方法,其特征在于,所述步驟3-3中,相似度計算公式為:
4.如權利要求1所述的一種基于大模型的醫學知識約束下患者畫像生成方法,其特征在于,所述步驟4-3中,相似度計算公式為:
【技術特征摘要】
1.一種基于大模型的醫學知識約束下患者畫像生成方法,基于已有的患者文檔和醫學知識數據,利用大模型技術進行患者畫像生成,其特征在于,包括以下步驟:
2.如權利要求1所述的一種基于大模型的醫學知識約束下患者畫像生成方法,其特征在于,所述步驟1包括:
【專利技術屬性】
技術研發人員:張敬誼,朱春倫,王幸波,唐玲,張傳國,王浪,鄭少秋,楊興興,張明警,汪巧玲,王瑜,
申請(專利權)人:萬達信息股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。