【技術實現步驟摘要】
本專利技術涉及數據挖掘領域,特別涉及一種公共衛生事件預警知識庫的構建方法。
技術介紹
近年來,突發公共衛生事件不斷產生,并且呈現出間隔時間短、傳染病毒多樣的特點。2003年,我國內地24個省區市先后發生非典型肺炎疫情(SARS),共波及266個縣和市(區)。2009年3月,墨西哥在“人感染豬流感”疫情中最初發現了甲型H1N1流感病毒,并迅速蔓延。3個月后,WHO宣布將甲型H1N1流感大流行警告級別提升為6級,全球進入流感大流行階段。截至2010年3月31日,全國31個省份累計報告甲型H1N1流感確診病例12.7余萬例,其中死亡病例800例。2013年3月,H7N9禽流感開始在全國范圍內擴散,截止2014年1月全國已累計報告246例,死亡60多例。近10年來,三次大規模的病毒爆發與流行,雖然死亡人數得到控制,但是,國家、政府和個人每次都投入了大量的人力與財力。突發衛生事件發生的突然性,發展的迅速性以及影響的巨大性,決定了事件應對措施必須及時準確。對于突發公共衛生事件,從醫學角度研究疾病的致病因素固然重要,從事件自身內在的角度研究事件也很重要。也就是說,分析突發公共衛生事件,積累其中預警預測,應急處理,過程評估和事態恢復等方面的知識,將會提高對突發公共衛生事件的處理能力。如今,互聯網信息常被作為突發事件研究的信息載體。由于互聯網以及移動終端能夠實現信息的發布,閱讀和轉載,從而為突發事件信息的產生、擴散 ...
【技術保護點】
一種公共衛生事件預警知識庫的構建方法,包括以下步驟:S100構建初始領域知識庫;S200文本分類;S300詞聚類并擴展知識庫。
【技術特征摘要】
1.一種公共衛生事件預警知識庫的構建方法,包括以下步驟:
S100構建初始領域知識庫;
S200文本分類;
S300詞聚類并擴展知識庫。
2.根據權利要求1所述的構建方法,其中步驟S100構建初始領域知識庫包
括:
S110從網絡媒體中搜集關于公共衛生事件的事件文本,分析公共衛生事件
生命周期所涉及的各個領域;
S120通過閱讀文獻人工選擇代表性領域術語作為屬性,構建事件框架;
S130根據文獻中的知識,填充初始領域知識庫中的屬性和值。
3.根據權利要求1所述的構建方法,其中步驟S200文本分類進一步包括:
S210對事件文本進行預處理;
S220依據TF-IDF公式計算各段落中詞的權重;
S230對以段落為單位的文本進行關鍵詞標記,取出關鍵詞的TF-IDF權值;
S240以關鍵詞建立空間向量模型,將段落文本映射到空間中。
4.根據權利要求2所述的構建方法,其中步驟S220依據TF-IDF公式計算
各段落中詞的權重進一步包括:
S221按照文本中的自然段落進行分段,并給定唯一段落編號,建立索引;
S222使用語義分析器對每個段落文本進行分詞、詞性標注、語法結構分析,
整理出段落號與詞構成的序偶<段落號,詞>;
S223按照段落號對序偶進行排序、分組,作為任務組發布到Reducer;
S224統計各個段落中出現詞的詞頻,存儲統計結果,建立索引與段落相對
應;
S225使用數據庫操作技術SQL命令整理得到詞與段落號構成的序偶<詞,
段落號>;
S226按照詞進行序偶排序與任務分組,發布到Reducer;
S227計算倒排文檔頻度,并存儲;
S228再次利用數據庫操作技術SQL命令,求解各個段落中各個詞的TF-IDF
權重值,并輸出結果。
5.根據權利要求1所述的構建方法,其中步驟S300詞聚類并擴展知識庫進
一步包括:
S310解析語法分析的結果;
S320根據段落中具有的句法關系的詞構成的無向連接圖,得出無向連接圖
的鄰接矩陣;
S330求鄰接矩陣的廣義逆矩陣;
S340計算段落中任意兩個詞之間的距離;
S350重復S320-S340,直至該類中所有的段落都得到處理;
S360根據單一段落中詞與詞之間的距離計算該文本集中任意兩個詞的距
離;
S370將所有段落的無向連接圖合并,得到整個文本集的無向連接圖,進而
得到其鄰接矩陣,通過鄰接矩陣得到無向連接圖的度矩陣;
S380分析度矩陣,研究無向連接圖中每個節點的度,尋找聚類中心;
S390根據獲得的詞的距離和獲得的聚類中心進行聚類。
6.根據權利要求4所述...
【專利技術屬性】
技術研發人員:王理,藍俊,邵勁松,施維,薛均,張遠鵬,董建成,姚敏,姚登福,
申請(專利權)人:南通大學,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。