System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及用藥安全檢索,更具體地說,它涉及一種基于醫學知識圖譜的用藥安全大模型方法及系統。
技術介紹
1、在實際的醫學場景中,藥師、醫生等相關從業人員對藥物安全性的判斷主要依賴于臨床經驗,在臨床決策階段缺乏充分的證據支撐,可能影響用藥決策的精確性;同樣對于普通患者而言,由于缺乏相關的專業知識,對于藥物的安全性判斷往往來源于網絡檢索,缺乏可靠且便捷的藥物安全信息來源。目前對于藥物安全性證據的整合主要依賴于具備相關醫學知識的工作人員,通過收集大量權威文獻并基于相關醫學知識進行文獻的篩選過濾,得到高質量的文獻數據集,然后基于醫學的統計學方法對文獻數據集進行整合,最終得到藥物的安全性結論。然而,上述方案高度依賴具備相關醫學知識的工作人員的參與,加重了從業者的工作負擔。
2、隨著計算機硬件的發展,基于大語言模型的人工智能服務受到越來越多的關注,在自然語言處理領域,普通患者也可以通過大語言模型便捷地獲取相關藥物的安全知識,然而,目前大語言模型普遍存在“答非所問”的問題,即大語言模型生成的內容可能與事實沖突或者包含完全不存在的內容,以及大語言模型使用內部知識進行推理的模式無法保證證據的正確性,這都嚴重降低其在醫療行業中的可靠性,因此,構建醫學領域的大模型勢在必行。
技術實現思路
1、本專利技術提供一種基于醫學知識圖譜的用藥安全大模型方法及系統,解決上述
技術介紹
中的技術問題。
2、本專利技術提供了一種基于醫學知識圖譜的用藥安全大模型方法,包括以下步驟:
3、
4、步驟s102,按照章節對markdown格式的文本進行切片獲得文本切片,并判斷文本切片中的文字數量大于等于預設閾值,則按照分隔符優先級將其分段直至分段的文字數量小于預設閾值,如果文本切片的長度小于預設閾值,則合并相鄰切片直到達到預設閾值的限制,將所有處理好的分段作為基礎文本庫;
5、步驟s103,基于基礎文本庫結合大語言模型構建醫學知識圖譜;
6、醫學知識圖譜包括:實體、實體的特征和實體之間的連接關系;
7、一個實體由實體的名稱、實體的類型和實體的描述信息組成;
8、實體的類型包括:藥物、疾病和癥狀;
9、實體的特征通過詞向量表示,詞向量通過醫學語言模型提取獲得;
10、實體之間的連接關系由源實體、目標實體和關系描述組成;
11、步驟s104,根據輸入的問題通過本地結合在線的雙路證據檢索策略獲得證據鏈;
12、證據鏈通過本地檢索的證據鏈或者在線檢索的證據鏈表示;
13、本地檢索的證據鏈由k條路徑中的實體證據和關系證據組成;
14、實體證據由實體的名稱、實體的類型和實體的描述信息組成;
15、關系證據由源實體、目標實體和關系描述組成;
16、在線檢索的證據鏈由m個網頁證據組成;
17、網頁證據由網頁標題和網頁信息組成;
18、步驟s105,根據輸入的問題結合證據鏈通過大語言模型生成藥物安全性結論;
19、藥物安全性結論包括:目前證據表明該藥物不安全、目前證據表明該藥物不會引起不良反應和沒有明確的證據表明是否安全。
20、進一步地,預設閾值、實體證據和關系證據的數量k和網頁證據的數量m均為自定義參數。
21、進一步地,分隔符優先級從大到小的順序為段落分隔符、句號、分號、冒號、逗號,其中段落分隔符在markdown中為井號開頭的標記。
22、進一步地,基于基礎文本庫結合大語言模型構建醫學知識圖譜,包括以下步驟:
23、步驟s201,通過大語言模型提取基礎文本庫中的實體;
24、實體entity的格式如下:
25、("entity"<|><entity_name><|><entity_type><|><entity_description>);其中entity_name表示實體的名稱,entity_type表示實體的類型,entity_description表示實體的描述信息,實體的名稱為英文,則按照“英文實體名稱(中文實體名稱)”的格式返回,不確定英文實體名稱,則只返回英文實體名稱,實體的類型如果無法識別,則返回“未知實體”,實體的描述信息如果無法識別,則直接返回空字符串;
26、步驟s202,通過大語言模型提取基礎文本庫中的實體之間的連接關系;
27、實體之間的連接關系relationship的格式如下:
28、("relationship"<|><source_entity><|><target_entity><|><relationship_description><|><relationship_score>);其中source_entity表示源實體,target_entity表示目標實體,relationship_description表示關系描述,relationship_score表示連接關系強度,取值范圍在0到100之間,連接關系強度的值越大表示兩個實體之間的關聯關系越強,使用##作為多個relationship的分隔符,提取完成后以<|complete|>結尾;
29、步驟s203,通過兩階段合并策略對實體進行去重;
30、計算每個實體的特征與其他實體的特征之間的余弦相似度,并選擇大于等于相似度閾值的實體作為候選實體集合,再通過大語言模型提取與當前實體完全等效的實體,并與當前實體形成一個簇,再合并具有交集的簇,并選擇頻率最高的實體作為合并的實體節點。
31、進一步地,醫學語言模型為biobert。
32、進一步地,根據輸入的問題通過本地結合在線的雙路證據檢索策略獲得證據鏈,包括以下步驟:
33、步驟s301,初始化當前迭代次數為0,并根據輸入的問題通過大語言模型獲取k個實體作為起始節點;
34、通過大語言模型提取輸入問題中的藥物實體,并計算該藥物實體的特征與構建完成后的醫學知識圖譜中所有實體的特征之間的余弦相似度,并選擇前n個實體作為候選實體集合,然后通過大語言模型從候選實體集合中選擇k個最相關的實體節點作為起始節點,其中n為自定義參數;
35、步驟s302,從構建完成后的醫學知識圖譜中獲取起始節點的所有相鄰節點和連接關系,形成一組候選搜索路徑,再通過大語言模型從候選搜索路徑中選擇與輸入問題最相關的k個路徑;
36、步驟s303,從k個路徑中提取實體證據和關系證據,并通過大語言模型判斷實體證據和關系證據足夠回答輸入的問題,則將實體證據和關系證據作為本地檢索的本文檔來自技高網...
【技術保護點】
1.一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,包括以下步驟:步驟S101,從公開的醫學數據庫中收集醫學文獻數據,并通過解析工具將其解析為markdown格式的文本;
2.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,預設閾值、實體證據和關系證據的數量K和網頁證據的數量M均為自定義參數。
3.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,分隔符優先級從大到小的順序為段落分隔符、句號、分號、冒號、逗號,其中段落分隔符在markdown中為井號開頭的標記。
4.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,基于基礎文本庫結合大語言模型構建醫學知識圖譜,包括以下步驟:
5.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,醫學語言模型為BioBERT。
6.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,根據輸入的問題通過本地結合在線的雙路證據檢索策略獲得證據鏈,包括以下步驟:
...【技術特征摘要】
1.一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,包括以下步驟:步驟s101,從公開的醫學數據庫中收集醫學文獻數據,并通過解析工具將其解析為markdown格式的文本;
2.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,預設閾值、實體證據和關系證據的數量k和網頁證據的數量m均為自定義參數。
3.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,分隔符優先級從大到小的順序為段落分隔符、句號、分號、冒號、逗號,其中段落分隔符在markdown中為井號開頭的標記。
4.根據權利要求1所述的一種基于醫學知識圖譜的用藥安全大模型方法,其特征在于,基于基礎文本庫結合大語言...
【專利技術屬性】
技術研發人員:譚婧,謝東霖,李玥臻,鄭夢媛,王文玲,孫鑫,熊益權,任燕,梁翁雪,
申請(專利權)人:四川大學華西醫院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。