基于問答系統的醫學知識庫構建方法,涉及醫學知識庫。提出基于問答系統的醫學知識庫構建技術,主要包含三個部分:數據處理,數據分析和專家問答平臺。首先在數據處理階段,利用層次分割的方法從臨床數據中提取實體和相關關系;然后,運用關聯規則算法對提取的結果進行分析并挖掘實體間的關聯,將挖掘出的實體關聯與醫學詞典進行匹配,匹配正確的結果將直接存入知識庫;最后,將無法確認的實體關聯利用眾包技術自動生成問題提交給專家問答平臺進行回答,利用多數投票算法從專家的答案中選擇最終結果并存儲到醫學知識庫中。
【技術實現步驟摘要】
基于問答系統的醫學知識庫構建方法
本專利技術涉及醫學知識庫,尤其是涉及基于問答系統的醫學知識庫構建方法。
技術介紹
醫療系統的數字化和信息化是醫學發展的必然趨勢,隨著信息技術的發展,醫療行業正經歷著前所未有的信息爆炸,特別是智能醫療已經成為智能城市的熱門話題之一,出現許多系統應用于醫療信息管理和檢索。在這過程中產生的數據,例如,電子健康檔案和電子病歷,急需一個強有力的信息管理工具進行處理和分析。知識庫又稱人工智能數據庫,它是一種結構化、易操作、易利用的有組織的知識集群,它不僅僅是一個查詢和檢索的工具,知識庫需要能從海量的信息中發現有價值的信息,知識庫的服務能力可以幫助人們更好更快地解掌握所需的相關信息(馬利,崔志偉,毛樹松.我國醫學知識庫應用現狀研究[J].醫學信息學雜志,2013,34(11):55-59.)。病歷知識庫包括事實庫和規則庫兩類,事實庫提供具體內容,例如治療方法、癥狀等,規則庫則是提供它們之間的關系;疾病知識庫根據疾病的種類對信息進行采集、分類、標注,輔助臨床診斷進行決策;臨床知識庫可以滿足每個病人的個性化需求,能夠根據輸入數據動態調整得到的結果。現有的醫學知識庫通常是利用機器學習的方法進行構建,但由于獲得的錯誤實體關系,結果并不盡如人意,無法提高知識庫的質量。并且,現有醫學知識庫功能較為單一,大多數只對知識進行簡單的集成,較多為靜態數據,知識重用的效率不高,實用價值不高。
技術實現思路
本專利技術的目的在于提供基于問答系統的醫學知識庫構建方法。本專利技術包括以下步驟:1)在數據處理階段,對結構化和非結構化數據進行處理,并將處理結果存入知識庫;2)對于不確定的數據,具體分析不確定的數據之間的隱藏關系,并提取出重要的關聯信息;3)利用交互式眾包系統即專家問答平臺,彌補機器學習在動態環境下的不穩定性,通過得到的專家反饋得到更好的輸出結果。在步驟1)中,所述數據處理的數據來源于公開的醫療網站和真實的醫療數據,并利用數據清洗技術對搜集到的數據進行預處理;具體步驟如下:(1)刪除重復的數據記錄;(2)根據數據集的屬性,利用聚類的方式剔除錯誤數據,所述聚類的處理過程為:從醫療網站收集的數據,利用K-means算法,根據屬性,構造k個分組,每個分組代表一個聚類,每個分組至少包含一個數據點,每個數據點屬于且僅屬于一個分組;通過反復迭代的方法改變分組,使得同一組中的點盡量靠近,不同組中的點盡量遠離;所述從醫療網站收集的數據包括病人姓名、出生日期、身份證號、就診時間、疾病名稱等不同屬性的數據;(3)利用一個統一的全局變量來填充空值;(4)將模糊和噪聲數據提交給專家問答系統處理,專家問答系統收到數據后,將數據通過眾包系統提交給專家問答系統的專家用戶進行判斷,將判斷結果儲存到數據庫中,將利用解析和處理后數據進行實體與實體之間關系的抽取。在步驟(4)中,所述實體與實體之間關系的抽取的具體方法可利用層次分割處理算法將醫療數據分割成關鍵詞或短語;所述層次分割處理算法是:層次短語規則的分割需要進行普通短語規則抽取,以及實體的規則抽取,以現代漢語的語法知識庫作為基礎,將普通短語模型拓展成層次化的短語,在符合規則的情況下可以繼續拆分為更小的實體。在步驟2)中,所述對于不確定的數據,具體分析不確定的數據之間的隱藏關系,并提取出重要的關聯信息的具體方法可為:為進一步獲得抽取出的實體之間的關系,利用關聯規則挖掘技術進行分析。在步驟3)中,所述利用交互式眾包系統即專家問答平臺,彌補機器學習在動態環境下的不穩定性,通過得到的專家反饋得到更好的輸出結果的具體方法可為:系統中的臨床數據來源于真實的醫院敏感數據,為保護病人的隱私,利用k-anonymity方法對數據進行處理;所述k-anonymity方法的具體步驟為:通過概括和隱匿技術,發布精確度較低的數據,為確認模糊數據,設計一些合適且簡單的“是/否”問題發布到專家問答平臺當中,由專家進行回答。現有的醫學知識庫通常是以醫學專業詞典為基礎,利用機器學習的方法進行構建,由于機器學習在動態環境中的局限性,往往產生一些模糊的實體及其關系,無法保證知識庫的完備性和準確性。為解決這個問題,本專利技術提出基于問答系統的醫學知識庫構建技術,主要包含三個部分:數據處理,數據分析和專家問答平臺。首先在數據處理階段,利用層次分割的方法從臨床數據中提取實體和相關關系;然后,運用關聯規則算法對提取的結果進行分析并挖掘實體間的關聯,將挖掘出的實體關聯與醫學詞典進行匹配,匹配正確的結果將直接存入知識庫;最后,將無法確認的實體關聯利用眾包技術自動生成問題提交給專家問答平臺進行回答,利用多數投票算法從專家的答案中選擇最終結果并存儲到醫學知識庫中。附圖說明圖1為醫學知識庫構建框架圖。圖2為K-means聚類過程。圖3為語義分析非結構化數據。圖4為語義分析結構化數據。圖5為數據分析。具體實施方式以下實施例將結合附圖對本專利技術作進一步的說明。本專利技術由三個部分組成:數據處理,數據分析和專家問答平臺,可以根據輸入信息更新、完善知識庫。圖1展示本專利技術整體的技術架構。首先在數據處理階段,對結構化和非結構化數據進行處理,并將處理結果存入知識庫,對于那些不確定的數據,具體分析它們之間的隱A藏關系,并提取出重要的關聯信息。最后,利用交互式眾包系統(即,專家問答平臺)彌補機器學習在動態環境下的不穩定性,通過得到的專家反饋可以得到更好的輸出結果。在每一個步驟中都有專家問答平臺的參與,以提高準確性。(1)數據處理本專利技術的數據來源于公開的醫療網站和真實的醫療數據,并利用數據清洗技術對搜集到的數據進行預處理[3]。首先,刪除重復的數據記錄,其次,根據數據集的屬性,利用聚類的方式剔除錯誤數據。聚類方法的處理過程:從醫療網站收集的數據包括病人姓名、出生日期、身份證號、就診時間、疾病名稱等不同屬性的數據。利用K-means算法,根據屬性,構造k個分組,每個分組代表一個聚類,每個分組至少包含一個數據點,每個數據點屬于且僅屬于一個分組。通過反復迭代的方法改變分組,使得同一組中的點盡量靠近,不同組中的點盡量遠離。K-means聚類過程如圖2所示。之后,利用一個統一的全局變量來填充空值,最后,將模糊和噪聲數據提交給專家問答系統處理。系統收到數據后,將數據通過眾包系統提交給系統專家用戶進行判斷,判斷結果將儲存到數據庫當中。將利用解析和處理后數據進行實體和實體之間關系的抽取。(2)實體抽取利用層次分割處理算法將醫療數據分割成關鍵詞或短語[4]。層次分割處理算法基本思想:層次短語規則的分割需要進行普通短語規則抽取,以及實體的規則抽取。以現代漢語的語法知識庫作為基礎,將普通短語模型拓展成層次化的短語,例如“X1并且X2”,X1,X2在符合規則的情況下可以繼續拆分為更小的實體。對于分割處理后的每個關鍵字或段落,利用一些專業的醫學字典進行驗證,并將匹配的數據存入的系統當中。圖3、圖4展示一個完整的數據處理與分析的例子,其中數據抽取過程如圖3所示。由于部分提取到的實體無法與醫學詞典的內容匹配驗證,對于這部分數據利用基于醫學本體的語義匹配技術[5]進行處理。語義匹配技術的處理過程:Sim(x,y)表示兩個任意概念之間的相似度,Rel(x,y)表示兩個任意概念之間的相關度,Sim(x,本文檔來自技高網...

【技術保護點】
基于問答系統的醫學知識庫構建方法,其特征在于其包括以下步驟:1)在數據處理階段,對結構化和非結構化數據進行處理,并將處理結果存入知識庫;2)對于不確定的數據,具體分析不確定的數據之間的隱藏關系,并提取出重要的關聯信息;3)利用交互式眾包系統即專家問答平臺,彌補機器學習在動態環境下的不穩定性,通過得到的專家反饋得到更好的輸出結果。
【技術特征摘要】
1.基于問答系統的醫學知識庫構建方法,其特征在于其包括以下步驟:1)在數據處理階段,對結構化和非結構化數據進行處理,并將處理結果存入知識庫;2)對于不確定的數據,具體分析不確定的數據之間的隱藏關系,并提取出重要的關聯信息;3)利用交互式眾包系統即專家問答平臺,彌補機器學習在動態環境下的不穩定性,通過得到的專家反饋得到更好的輸出結果。2.如權利要求1所述基于問答系統的醫學知識庫構建方法,其特征在于在步驟1)中,所述數據處理的數據來源于公開的醫療網站和真實的醫療數據,并利用數據清洗技術對搜集到的數據進行預處理;具體步驟如下:(1)刪除重復的數據記錄;(2)根據數據集的屬性,利用聚類的方式剔除錯誤數據,所述聚類的處理過程為:從醫療網站收集的數據,利用K-means算法,根據屬性,構造k個分組,每個分組代表一個聚類,每個分組至少包含一個數據點,每個數據點屬于且僅屬于一個分組;通過反復迭代的方法改變分組,使得同一組中的點盡量靠近,不同組中的點盡量遠離;所述從醫療網站收集的數據包括病人姓名、出生日期、身份證號、就診時間、疾病名稱不同屬性的數據;(3)利用一個統一的全局變量來填充空值;(4)將模糊和噪聲數據提交給專家問答系統處理,專家問答系統收到數據后,將數據通過眾包系統提交給專家問答系統的專家用戶進行判斷,將判斷結果儲存到數據庫中,將利用解析和處理后數據進行實體與實體之間關系的抽取。3.如權利要...
【專利技術屬性】
技術研發人員:王曉黎,林坤輝,吳夢桑,
申請(專利權)人:廈門大學,
類型:發明
國別省市:福建,35
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。