本發明專利技術涉及一種電子病歷高質短語抽取方法,屬于大數據檢索技術領域,該方法分為頻繁短語挖掘、短語質量評估、短語切分和先驗短語集更新四個階段。首先進行頻繁短語挖掘,基于頻度統計,當短語出現頻度大于閾值時,認為該短語頻繁;然后,根據先驗短語集對生成的頻繁短語候選進行短語質量評估;接著,根據評估出的短語質量值進行短語切分,并修正錯誤的原始頻率估計;最后,將切分結果中的高質短語加入先驗短語集,完成高質短語抽取及先驗短語集更新,以便在下次短語切分時,達到更好的切分效果。本方法能夠有效抽取電子病歷中的高質短語,抽取出的短語是病歷中的常用詞匯,且符合醫生的使用習慣。
High quality phrase extraction method for electronic medical record
The invention relates to an electronic medical record high quality phrase extraction method, which belongs to the technical field of big data retrieval, the method of mining frequent phrases quality assessment, phrase segmentation and prior phrase set update four stages. Firstly, frequent mining, based on frequency statistics, when the phrase frequency is larger than the threshold, that the phrase is frequent; then, according to the prior set phrases to generate candidate frequent phrases for phrase quality evaluation; then, according to the assessment of the quality value of short phrase language segmentation, and revised the original frequency error estimation; finally. The segmentation results in high quality phrases with prior phrase set, complete with high quality phrase extraction and prior phrase set update, so that the next phrase segmentation, achieve better segmentation effect. The method can effectively extract high-quality phrases in electronic medical records, and the phrases extracted are commonly used words in medical records, and conform to the doctor's habits.
【技術實現步驟摘要】
本專利技術屬于大數據檢索
,特別涉及在口腔健康數據服務平臺中一種電子病歷高質短語抽取的方法。
技術介紹
隨著互聯網的高速發展和社會信息化步伐的加快,各行業的數據迅猛發展,人類已經步入大數據時代。對大數據的處理和分析,可以從中挖掘出有價值的信息,進而有效解決特定領域的問題。在醫療健康領域,“互聯網+”概念的提出,使醫療信息化進程的不斷推進,電子病歷的使用正逐漸普及,電子記錄的科研價值與應用價值也不斷凸顯出來。對電子病歷進行高效準確的檢索,可以為數據分析、決策支持等工作奠定良好的基礎。在各大醫院,由于就診患者眾多,且每名患者就診次數一般為兩到三次甚至更多,電子病歷數量為海量級。若能在很短的時間內,從海量電子病歷中準確檢索出所需的信息,將為醫學領域帶來極大的貢獻?,F有的檢索系統主要為基于詞庫的關鍵詞匹配和基于本體的語義查詢。基于詞庫的關鍵詞匹配為精確檢索,檢索出的結果包含與輸入關鍵詞完全匹配的內容;基于本體的語義查詢為模糊檢索,檢索出的結果包含輸入關鍵詞的近義詞、同義詞等。在我國,檢索系統目前主要采用第一種基于詞庫的關鍵詞匹配方式,詞庫來源為術語詞典和經驗。由于文本數據的復雜性,目前最常使用的對文檔中所有出現的內容建立檢索的方式是使用倒排索引技術。倒排索引,即對文檔中的每個詞,建立“詞-文檔”映射序列,當輸入待檢索詞時,系統會定位到含有該詞的文檔并排序顯示,以達到檢索效果。已開放源代碼的Lucene框架可用來直接建立倒排索引。電子病歷的全文檢索效果往往依賴于中文分詞是否精準。中文分詞是將語句切分成能夠表達完整語義的一個個詞語。已有完整的中文分詞工具可供直接使用,如斯坦福的分詞工具,中科院的分詞工具等。斯坦福的分詞工具支持包含中文在內的多種語言,中科院的分詞系統是目前中文分詞效果最好的分詞工具。同時,存在中文分詞組件,如IKAnalyzer,Jieba等。在醫療領域,由于不同醫院、不同醫生用詞習慣的個性化,無法使用統一的詞典進行關鍵詞匹配,這給病歷分詞增加了難度。然而,電子病歷中經常被檢索的,往往是多個詞語構成的短語。比如,輸入“牙齦”,那么用戶到底希望檢索出“牙齦檢索”、“牙齦紅腫”還是“牙齦增生”的病歷?因此,只對病歷在詞語層面進行分詞是遠遠不夠的,有必要將抽取上升到短語層面,以更好的滿足檢索需要。高質短語滿足四個特征:普遍性、一致性、信息量和完整性。目前存在一些指標,如點互信息PMI,K-L散度,倒排文檔頻率IDF等,用于衡量短語是否符合一致性和信息量特征。同時,使用K-means對短語進行聚類,更易根據聚類結果篩選高質短語。
技術實現思路
本專利技術的目的是為克服已有技術的不足之處,提出一種電子病歷高質短語抽取的方法。本專利技術通過將檢索從詞語層面上升到短語層面,更好地滿足醫生的使用習慣與檢索需要。高質短語,即短語質量較高的短語。高質短語滿足四個特征:普遍性、一致性、信息量和完整性。如,“牙齦紅腫“這個短語在病歷集中頻繁出現,滿足普遍性;“牙齦紅腫”相較于“齒齦紅腫”是更固定的搭配,更好的滿足一致性;包含特定主題,短語具有信息量;表達語義完整,滿足完整性。本專利技術認為,概率值大于0.9的短語為高質短語。短語質量由步驟2進行評估。本專利技術提出的一種電子病歷高質短語抽取的方法,其特征在于,該方法分為頻繁短語挖掘、短語質量評估、短語切分和先驗短語集更新四個階段;具體包括以下步驟:1)頻繁短語挖掘包括以下步驟:1-1)數據預處理:采用Jieba分詞組件對電子病歷進行中文分詞處理,得到一系列詞語;1-2)基于原始頻度,根據以往經驗設定頻度閾值,當詞語的原始頻度大于閾值時,認為該詞語是頻繁的;1-3)將頻繁詞語組合成短語,當短語的原始頻度大于閾值時,則該短語是頻繁的;頻繁的詞語和短語,共同構成候選頻繁短語;2)短語質量評估包括以下步驟:2-1)對候選頻繁短語選取點互信息PMI,K-L散度,倒排文檔頻率IDF,以及停止詞出現的頻率次數和出現在引號、括號中的短語頻次五個特征作為每個候選頻繁短語的特征;2-2)根據提取的五個特征,采用K-means方法對候選頻繁短語進行聚類,將所有候選頻繁短語聚為300類;2-3)在每個聚類中挑選一個候選頻繁短語,根據先驗短語集對候選頻繁短語進行打標處理,打標為“0”或“1”分值,1表示該短語既是候選頻繁短語,又存在于先驗短語集中;否則打標為0;2-4)使用已打標候選頻繁短語訓練隨機森林分類模型:從已打標的候選頻繁短語中,每次隨機挑選100個短語,再對挑選的每個短語隨機挑選1至4個特征生成一棵決策樹;當生成規定數目的決策樹時,由這些決策樹構成的隨機森林分類模型訓練完畢;2-5)對電子病歷中所有短語由隨機森林分類模型評估質量值:隨機森林分類模型中的每棵決策樹為電子病歷中每個短語評估“0”或“1”的質量值,該短語最終質量值是隨機森林分類模型中所有決策樹打出分值的均值;3)電子病歷短語切分包括以下步驟:3-1)訓練長度懲罰值:初始時設定短語長度上限值和下限值,設長度懲罰值為上限值和下限值的均值;根據長度懲罰值采用二分算法對打標為“1”的候選頻繁短語進行切分;若打標為“1”的候選頻繁短語長度大于長度懲罰值,則該候選頻繁短語被切分,則對上限值和下限值進行調整,直到打標為“1”的候選頻繁短語均被切分,則此時的長度懲罰值訓練完畢;3-2)訓練修正頻率:采用viterbi算法,根據訓練好的長度懲罰值對電子病歷所有短語進行切分,統計經過切分后的短語修正頻率;對該修正頻率進行歸一化處理,當修正頻率收斂時,修正頻率訓練完畢;3-3)短語切分:根據步驟2-5)得出的短語質量值以及長度懲罰值和修正頻率,應用動態規劃算法獲得每個短語的最優切分及切分位置;根據切分位置完成電子病歷短語切分,得到切分后的短語及其質量值;4)先驗短語集更新,設定切分結果中質量值大于0.9的短語為高質短語,將該高質短語加入先驗短語集,完成高質短語抽取及先驗短語集更新,用于在下次短語切分時,達到更好的切分效果。本專利技術提出的一種電子病歷高質短語抽取方法,其優點是:1、本專利技術方法對短語的原始頻率進行修正,以達到更好的切分效果;2、本專利技術方法將得到的高質短語添加進先驗短語集。進行下一輪短語切分時,采用更新后的先驗短語集評估短語質量,以得到更準確的高質短語。3、本專利技術方法維護術語詞典,使先驗短語集更符合醫生的思維方式與實際用途需要。4、本專利技術方法具有很強的擴展性,可并行化。附圖說明圖1為本專利技術方法的處理流程框圖。具體實施方式本專利技術提出的一種電子病歷高質短語抽取方法,下面結合附圖及實施例說明如下:本專利技術定義的高質短語(即短語質量較高的短語)滿足四個特征:普遍性、一致性、信息量和完整性。如,“牙齦紅腫“這個短語在病歷集中頻繁出現,滿足普遍性;“牙齦紅腫”相較于“齒齦紅腫”是更固定的搭配,更好的滿足一致性;包含特定主題,短語具有信息量;表達語義完整,滿足完整性。因此本方法中設定在病歷中出現的概率值大于0.9的短語為高質短語。本專利技術提出的一種電子病歷高質短語抽取方法,該方法分為該方法分為頻繁短語挖掘、短語質量評估、短語切分和先驗短語集更新四個階段;。首先進行頻繁短語挖掘,基于頻度統計,當短語出現頻度大于閾值時,認為該短語頻繁;然后,根據先驗短語集對生成的本文檔來自技高網...

【技術保護點】
一種電子病歷高質短語抽取的方法,其特征在于,該方法分為頻繁短語挖掘、短語質量評估、短語切分和先驗短語集更新四個階段;具體包括以下步驟:1)頻繁短語挖掘包括以下步驟:1?1)數據預處理:采用Jieba分詞組件對電子病歷進行中文分詞處理,得到一系列詞語;1?2)基于原始頻度,根據以往經驗設定頻度閾值,當詞語的原始頻度大于閾值時,認為該詞語是頻繁的;1?3)將頻繁詞語組合成短語,當短語的原始頻度大于閾值時,則該短語是頻繁的;頻繁的詞語和短語,共同構成候選頻繁短語;2)短語質量評估包括以下步驟:2?1)對候選頻繁短語選取點互信息PMI,K?L散度,倒排文檔頻率IDF,以及停止詞出現的頻率次數和出現在引號、括號中的短語頻次五個特征作為每個候選頻繁短語的特征;2?2)根據提取的五個特征,采用K?means方法對候選頻繁短語進行聚類,將所有候選頻繁短語聚為300類;2?3)在每個聚類中挑選一個候選頻繁短語,根據先驗短語集對候選頻繁短語進行打標處理,打標為“0”或“1”分值,1表示該短語既是候選頻繁短語,又存在于先驗短語集中;否則打標為0;2?4)使用已打標候選頻繁短語訓練隨機森林分類模型:從已打標的候選頻繁短語中,每次隨機挑選100個短語,再對挑選的每個短語隨機挑選1至4個特征生成一棵決策樹;當生成規定數目的決策樹時,由這些決策樹構成的隨機森林分類模型訓練完畢;2?5)對電子病歷中所有短語由隨機森林分類模型評估質量值:隨機森林分類模型中的每棵決策樹為電子病歷中每個短語評估“0”或“1”的質量值,該短語最終質量值是隨機森林分類模型中所有決策樹打出分值的均值;3)電子病歷短語切分包括以下步驟:3?1)訓練長度懲罰值:初始時設定短語長度上限值和下限值,設長度懲罰值為上限值和下限值的均值;根據長度懲罰值采用二分算法對打標為“1”的候選頻繁短語進行切分;若打標為“1”的候選頻繁短語長度大于長度懲罰值,則該候選頻繁短語被切分,則對上限值和下限值進行調整,直到打標為“1”的候選頻繁短語均被切分,則此時的長度懲罰值訓練完畢;3?2)訓練修正頻率:采用viterbi算法,根據訓練好的長度懲罰值對電子病歷所有短語進行切分,統計經過切分后的短語修正頻率;對該修正頻率進行歸一化處理,當修正頻率收斂時,修正頻率訓練完畢;3?3)短語切分:根據步驟2?5)得出的短語質量值以及長度懲罰值和修正頻率,應用動態規劃算法獲得每個短語的最優切分及切分位置;根據切分位置完成電子病歷短語切分,得到切分后的短語及其質量值;4)先驗短語集更新,設定切分結果中質量值大于0.9的短語為高質短語,將該高質短語加入先驗短語集,完成高質短語抽取及先驗短語集更新,用于在下次短語切分時,達到更好的切分效果。...
【技術特征摘要】
1.一種電子病歷高質短語抽取的方法,其特征在于,該方法分為頻繁短語挖掘、短語質量評估、短語切分和先驗短語集更新四個階段;具體包括以下步驟:1)頻繁短語挖掘包括以下步驟:1-1)數據預處理:采用Jieba分詞組件對電子病歷進行中文分詞處理,得到一系列詞語;1-2)基于原始頻度,根據以往經驗設定頻度閾值,當詞語的原始頻度大于閾值時,認為該詞語是頻繁的;1-3)將頻繁詞語組合成短語,當短語的原始頻度大于閾值時,則該短語是頻繁的;頻繁的詞語和短語,共同構成候選頻繁短語;2)短語質量評估包括以下步驟:2-1)對候選頻繁短語選取點互信息PMI,K-L散度,倒排文檔頻率IDF,以及停止詞出現的頻率次數和出現在引號、括號中的短語頻次五個特征作為每個候選頻繁短語的特征;2-2)根據提取的五個特征,采用K-means方法對候選頻繁短語進行聚類,將所有候選頻繁短語聚為300類;2-3)在每個聚類中挑選一個候選頻繁短語,根據先驗短語集對候選頻繁短語進行打標處理,打標為“0”或“1”分值,1表示該短語既是候選頻繁短語,又存在于先驗短語集中;否則打標為0;2-4)使用已打標候選頻繁短語訓練隨機森林分類模型:從已打標的候選頻繁短語中,每次隨機挑選100個短語,再對挑選的每個短語隨機挑選1至4個特征生成一棵決策樹;當生成規定數目的決策樹時,由這些決策樹...
【專利技術屬性】
技術研發人員:尚昭,金濤,王建民,
申請(專利權)人:清華大學,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。