• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>南通大學專利>正文

    一種公共衛生事件預警知識庫的構建方法技術

    技術編號:14869913 閱讀:62 留言:0更新日期:2017-03-21 02:01
    本發明專利技術涉及一種公共衛生事件預警知識庫的構建方法,包括構建初始領域知識庫,文本分類,詞聚類并擴展知識庫。通過本方法構建知識庫節約了人力成本,保證了知識庫的準確性,同時還便于隨時擴展更新,為探究抽取突發公共衛生事件的特征、評估突發公共衛生事件的狀態、分析突發公共衛生事件的演化、以及預測新事件發生提供了數據基礎。

    【技術實現步驟摘要】

    本專利技術涉及數據挖掘領域,特別涉及一種公共衛生事件預警知識庫的構建方法
    技術介紹
    近年來,突發公共衛生事件不斷產生,并且呈現出間隔時間短、傳染病毒多樣的特點。2003年,我國內地24個省區市先后發生非典型肺炎疫情(SARS),共波及266個縣和市(區)。2009年3月,墨西哥在“人感染豬流感”疫情中最初發現了甲型H1N1流感病毒,并迅速蔓延。3個月后,WHO宣布將甲型H1N1流感大流行警告級別提升為6級,全球進入流感大流行階段。截至2010年3月31日,全國31個省份累計報告甲型H1N1流感確診病例12.7余萬例,其中死亡病例800例。2013年3月,H7N9禽流感開始在全國范圍內擴散,截止2014年1月全國已累計報告246例,死亡60多例。近10年來,三次大規模的病毒爆發與流行,雖然死亡人數得到控制,但是,國家、政府和個人每次都投入了大量的人力與財力。突發衛生事件發生的突然性,發展的迅速性以及影響的巨大性,決定了事件應對措施必須及時準確。對于突發公共衛生事件,從醫學角度研究疾病的致病因素固然重要,從事件自身內在的角度研究事件也很重要。也就是說,分析突發公共衛生事件,積累其中預警預測,應急處理,過程評估和事態恢復等方面的知識,將會提高對突發公共衛生事件的處理能力。如今,互聯網信息常被作為突發事件研究的信息載體。由于互聯網以及移動終端能夠實現信息的發布,閱讀和轉載,從而為突發事件信息的產生、擴散乃至泛濫提供了環境,形成了主流新聞媒體和門戶網站為主導,博客以及社交網絡為重要補充和并存的多樣化信息獲取來源。這就造成了突發公共衛生事件信息具有分布廣泛、數據量大、快速傳播和不斷更新的特點。這樣的信息分布結構與特點給突發事件的信息采集獲取帶來了極大困難。而且,突發事件的信息形成階段極其隱蔽,發展階段速度極快,轉折點難于捕獲,由此帶來的問題難以用傳統的數據挖掘方法解決。一方面,目前傳統的數據挖掘方法基于統計學,該類方法只適于不再產生增量的文本數據集進行處理,當面對增量文本以及大數據量的文本時會遇到了很大的問題。在面對增量文本時,當前處理得出的結果和下一刻有增量文本加入后處理得出的結果可能有較大偏差;在面對大數據量文本時,計算機運算所需要的時間將達到一個駭人的程度、為得出結果所花費的時間代價是我們無法承受的。另一方面,當前是大數據與云存儲的時代,大量關于事件的相關信息存在于互聯網中,為事件挖掘提供了豐富的素材,事件挖掘研究開始面向大規模的實時動態事件新聞信息流。所以,事件挖掘研究不僅僅滿足于傳統研究中對話題與命名實體的提取,開始向挖掘事件本身內部隱含的信息深入。為此,一種有效的解決方法是以知識庫為基礎,規則與機器學習相結合,建立網絡信息流中新聞文本處理模型,以實現對特征項集的挖掘、分類、聚類、變化及異常發現等數據流分析工作,進一步能夠追溯突發公共衛生事件發生前的潛在現象與誘發因素,探究抽取突發公共衛生事件的特征,評估突發公共衛生事件的狀態,分析突發公共衛生事件的演化,以及預測新事件發生。然而目前的問題是現有技術有沒有有效的方法來構建公共衛生事件預警知識庫,人工構建知識庫存在工作量大且不能自動擴展和完善的問題。
    技術實現思路
    為此,本專利技術的目的是提供一種可以自動實現的公共衛生事件預警知識庫的構建方法,使用該方法可以使得知識庫實現自擴展、自完善。本專利技術提供的一種公共衛生事件預警知識庫的構建方法,包括以下步驟:S100構建初始領域知識庫;S200文本分類;S300詞聚類并擴展知識庫。通過本專利技術的方法,具有以下優點:(1)由于整個方法大部分可以通過計算機實現,節約了人力成本;(2)由于計算機實現不易出錯,因此可以確保知識庫構建的準確性;(3)由于公共衛生事件具備突發性,且其輿情、疫情隨時變化,本方法具有可擴展性,可以隨著事件發展隨時更新知識庫。附圖說明圖1是突發公共衛生事件知識庫構建總體流程圖;圖2是初步構建領域知識庫的流程圖;圖3是文本分類的流程圖;圖4是計算各段落中詞的權重的流程圖;圖5是詞聚類的流程圖;圖6是聚類算法的流程圖;具體實施方式下面結合附圖對本專利技術的具體實施方式作進一步說明,但不作為對本專利技術的限定。在本實施例中,以H7N9為目標事件為例,先通過Wikipedia以及利用專家知識等建立一并不完善的領域知識庫。通過分析事件文本的內容屬性,實現知識庫自身結構與內容方面的擴展。參見圖1,對H7N9事件的知識庫的構建可以劃分為以下幾個步驟:S100:構建初始領域知識庫;S200:文本分類;S300:詞聚類并擴展知識庫。這些步驟的具體實現將在下文中詳細給出。需要指出的是:為了敘述嚴謹,在執行某些步驟前我們指明進行文本預處理操作,而絕大部分的文本預處理結果(如無特殊說明)在起初的預處理中便已得到,在實驗中使用這些結果即可,不需要將原語料文本重新處理。圖2為構建初始領域知識庫的流程,從圖中可以看到,首先我們獲取一定數量的H7N9事件文本,將其分類并提取出詞組或詞,最后將提取的詞組或詞進行結構化處理,得出知識庫的屬性和值。該步驟具體包括:S110:領域分析。從網絡媒體中,包括新浪網,騰訊網與新華網上搜集關于H7N9病毒突發衛生事件的事件文本,分析H7N9流感事件生命周期所涉及的各個領域;S120:框架建立。包括通過閱讀文獻人工選擇代表性領域術語作為屬性,構建事件框架;S130:根據文獻中的知識等,填充初始領域知識庫中的屬性和值。在領域知識庫初步構建后,接下來對抓取到的文本進行分類,具體步驟結合圖3說明如下:S210:對事件文本進行預處理(包括文本分段、分詞、詞性標注以及語法結構分析)這里主要使用分段、分詞的結果;S220:依據TF-IDF公式計算各段落中詞的權重;S230:對以段落為單位的文本進行關鍵詞標記,取出關鍵詞的TF-IDF權值;S240:以關鍵詞建立空間向量模型,將段落文本映射到空間中。參見圖4,其中步驟S220依據TF-IDF公式計算各段落中詞的權重進一步包括:S221:新聞文本預處理。按照文本中的自然段落進行分段,并給定唯一段落編號,建立索引;S222:使用語義分析器對每個段落文本進行分詞、詞性標注、語法結構分析,整理出段落號與詞構成的序偶<段落號,詞>;S223:按照段落號對序偶進行排序、分組,作為任務本文檔來自技高網
    ...

    【技術保護點】
    一種公共衛生事件預警知識庫的構建方法,包括以下步驟:S100構建初始領域知識庫;S200文本分類;S300詞聚類并擴展知識庫。

    【技術特征摘要】
    1.一種公共衛生事件預警知識庫的構建方法,包括以下步驟:
    S100構建初始領域知識庫;
    S200文本分類;
    S300詞聚類并擴展知識庫。
    2.根據權利要求1所述的構建方法,其中步驟S100構建初始領域知識庫包
    括:
    S110從網絡媒體中搜集關于公共衛生事件的事件文本,分析公共衛生事件
    生命周期所涉及的各個領域;
    S120通過閱讀文獻人工選擇代表性領域術語作為屬性,構建事件框架;
    S130根據文獻中的知識,填充初始領域知識庫中的屬性和值。
    3.根據權利要求1所述的構建方法,其中步驟S200文本分類進一步包括:
    S210對事件文本進行預處理;
    S220依據TF-IDF公式計算各段落中詞的權重;
    S230對以段落為單位的文本進行關鍵詞標記,取出關鍵詞的TF-IDF權值;
    S240以關鍵詞建立空間向量模型,將段落文本映射到空間中。
    4.根據權利要求2所述的構建方法,其中步驟S220依據TF-IDF公式計算
    各段落中詞的權重進一步包括:
    S221按照文本中的自然段落進行分段,并給定唯一段落編號,建立索引;
    S222使用語義分析器對每個段落文本進行分詞、詞性標注、語法結構分析,
    整理出段落號與詞構成的序偶<段落號,詞>;
    S223按照段落號對序偶進行排序、分組,作為任務組發布到Reducer;
    S224統計各個段落中出現詞的詞頻,存儲統計結果,建立索引與段落相對
    應;
    S225使用數據庫操作技術SQL命令整理得到詞與段落號構成的序偶<詞,
    段落號>;
    S226按照詞進行序偶排序與任務分組,發布到Reducer;
    S227計算倒排文檔頻度,并存儲;
    S228再次利用數據庫操作技術SQL命令,求解各個段落中各個詞的TF-IDF
    權重值,并輸出結果。
    5.根據權利要求1所述的構建方法,其中步驟S300詞聚類并擴展知識庫進
    一步包括:
    S310解析語法分析的結果;
    S320根據段落中具有的句法關系的詞構成的無向連接圖,得出無向連接圖
    的鄰接矩陣;
    S330求鄰接矩陣的廣義逆矩陣;
    S340計算段落中任意兩個詞之間的距離;
    S350重復S320-S340,直至該類中所有的段落都得到處理;
    S360根據單一段落中詞與詞之間的距離計算該文本集中任意兩個詞的距
    離;
    S370將所有段落的無向連接圖合并,得到整個文本集的無向連接圖,進而
    得到其鄰接矩陣,通過鄰接矩陣得到無向連接圖的度矩陣;
    S380分析度矩陣,研究無向連接圖中每個節點的度,尋找聚類中心;
    S390根據獲得的詞的距離和獲得的聚類中心進行聚類。
    6.根據權利要求4所述...

    【專利技術屬性】
    技術研發人員:王理藍俊邵勁松施維薛均張遠鵬董建成姚敏姚登福
    申請(專利權)人:南通大學
    類型:發明
    國別省市:江蘇;32

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 亚洲精品无码AV人在线播放 | 国产成人无码AⅤ片在线观看| 免费无码又爽又刺激网站| 蜜桃成人无码区免费视频网站| 内射中出无码护士在线| 亚洲AV综合色区无码另类小说| 国产成人精品无码专区| 精品无码国产自产在线观看水浒传| 亚洲?V无码乱码国产精品| 无码专区久久综合久中文字幕| 亚洲Av无码乱码在线观看性色 | 亚洲热妇无码AV在线播放| 亚洲爆乳无码专区www| 亚洲AV无码成人精品区蜜桃| 亚洲?V无码乱码国产精品| 精品久久久久久无码人妻| 亚洲AV综合色区无码二区爱AV| 亚洲人成网亚洲欧洲无码久久| 亚洲午夜AV无码专区在线播放| 黑人巨大无码中文字幕无码| 97久久精品无码一区二区天美| 丰满熟妇人妻Av无码区| 亚洲国产精品无码AAA片| 免费无码一区二区| 亚洲精品无码久久久| 粉嫩大学生无套内射无码卡视频 | 日韩美无码五月天| 国产午夜av无码无片久久96| 精品久久久无码人妻中文字幕| 久久久无码精品亚洲日韩蜜桃| 国产台湾无码AV片在线观看| 国产无码网页在线观看| 久久精品无码免费不卡| 黄A无码片内射无码视频| 久久久久久无码国产精品中文字幕| 亚洲精品无码激情AV| 国产产无码乱码精品久久鸭| 少妇无码一区二区三区| 亚洲中文字幕无码中文| 亚洲中文字幕久久精品无码VA|