一種公共衛生事件預警知識庫的構建方法技術

技術編號：14869913 閱讀：62 留言：0更新日期：2017-03-21 02:01

本發明專利技術涉及一種公共衛生事件預警知識庫的構建方法，包括構建初始領域知識庫，文本分類，詞聚類并擴展知識庫。通過本方法構建知識庫節約了人力成本，保證了知識庫的準確性，同時還便于隨時擴展更新，為探究抽取突發公共衛生事件的特征、評估突發公共衛生事件的狀態、分析突發公共衛生事件的演化、以及預測新事件發生提供了數據基礎。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及數據挖掘領域，特別涉及一種公共衛生事件預警知識庫的構建方法。
技術介紹
近年來，突發公共衛生事件不斷產生，并且呈現出間隔時間短、傳染病毒多樣的特點。2003年，我國內地24個省區市先后發生非典型肺炎疫情(SARS)，共波及266個縣和市(區)。2009年3月，墨西哥在“人感染豬流感”疫情中最初發現了甲型H1N1流感病毒，并迅速蔓延。3個月后，WHO宣布將甲型H1N1流感大流行警告級別提升為6級，全球進入流感大流行階段。截至2010年3月31日，全國31個省份累計報告甲型H1N1流感確診病例12.7余萬例，其中死亡病例800例。2013年3月，H7N9禽流感開始在全國范圍內擴散，截止2014年1月全國已累計報告246例，死亡60多例。近10年來，三次大規模的病毒爆發與流行，雖然死亡人數得到控制，但是，國家、政府和個人每次都投入了大量的人力與財力。突發衛生事件發生的突然性，發展的迅速性以及影響的巨大性，決定了事件應對措施必須及時準確。對于突發公共衛生事件，從醫學角度研究疾病的致病因素固然重要，從事件自身內在的角度研究事件也很重要。也就是說，分析突發公共衛生事件，積累其中預警預測，應急處理，過程評估和事態恢復等方面的知識，將會提高對突發公共衛生事件的處理能力。如今，互聯網信息常被作為突發事件研究的信息載體。由于互聯網以及移動終端能夠實現信息的發布，閱讀和轉載，從而為突發事件信息的產生、擴散...

【技術保護點】
一種公共衛生事件預警知識庫的構建方法，包括以下步驟：S100構建初始領域知識庫；S200文本分類；S300詞聚類并擴展知識庫。

【技術特征摘要】
1.一種公共衛生事件預警知識庫的構建方法，包括以下步驟：
S100構建初始領域知識庫；
S200文本分類；
S300詞聚類并擴展知識庫。
2.根據權利要求1所述的構建方法，其中步驟S100構建初始領域知識庫包
括：
S110從網絡媒體中搜集關于公共衛生事件的事件文本，分析公共衛生事件
生命周期所涉及的各個領域；
S120通過閱讀文獻人工選擇代表性領域術語作為屬性，構建事件框架；
S130根據文獻中的知識，填充初始領域知識庫中的屬性和值。
3.根據權利要求1所述的構建方法，其中步驟S200文本分類進一步包括：
S210對事件文本進行預處理；
S220依據TF-IDF公式計算各段落中詞的權重；
S230對以段落為單位的文本進行關鍵詞標記，取出關鍵詞的TF-IDF權值；
S240以關鍵詞建立空間向量模型，將段落文本映射到空間中。
4.根據權利要求2所述的構建方法，其中步驟S220依據TF-IDF公式計算
各段落中詞的權重進一步包括：
S221按照文本中的自然段落進行分段，并給定唯一段落編號，建立索引；
S222使用語義分析器對每個段落文本進行分詞、詞性標注、語法結構分析，
整理出段落號與詞構成的序偶<段落號，詞>；
S223按照段落號對序偶進行排序、分組，作為任務組發布到Reducer；
S224統計各個段落中出現詞的詞頻，存儲統計結果，建立索引與段落相對
應；
S225使用數據庫操作技術SQL命令整理得到詞與段落號構成的序偶<詞，
段落號>；
S226按照詞進行序偶排序與任務分組，發布到Reducer；
S227計算倒排文檔頻度，并存儲；
S228再次利用數據庫操作技術SQL命令，求解各個段落中各個詞的TF-IDF
權重值，并輸出結果。
5.根據權利要求1所述的構建方法，其中步驟S300詞聚類并擴展知識庫進
一步包括：
S310解析語法分析的結果；
S320根據段落中具有的句法關系的詞構成的無向連接圖，得出無向連接圖
的鄰接矩陣；
S330求鄰接矩陣的廣義逆矩陣；
S340計算段落中任意兩個詞之間的距離；
S350重復S320-S340，直至該類中所有的段落都得到處理；
S360根據單一段落中詞與詞之間的距離計算該文本集中任意兩個詞的距
離；
S370將所有段落的無向連接圖合并，得到整個文本集的無向連接圖，進而
得到其鄰接矩陣，通過鄰接矩陣得到無向連接圖的度矩陣；
S380分析度矩陣，研究無向連接圖中每個節點的度，尋找聚類中心；
S390根據獲得的詞的距離和獲得的聚類中心進行聚類。
6.根據權利要求4所述...

【專利技術屬性】
技術研發人員：王理，藍俊，邵勁松，施維，薛均，張遠鵬，董建成，姚敏，姚登福，
申請(專利權)人：南通大學，
類型：發明
國別省市：江蘇;32

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術