• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>北京大學(xué)專利>正文

    一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法技術(shù)

    技術(shù)編號(hào):9034073 閱讀:178 留言:0更新日期:2013-08-15 00:54
    一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法。包括:利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語詞切分和詞性標(biāo)注;留下內(nèi)容詞,過濾掉其它詞;獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理,保留內(nèi)容詞;從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞;對(duì)線索詞集聚類,形成突發(fā)事件描述。利用本發(fā)明專利技術(shù)提供的技術(shù)方案,可以將事件空間還原到線索詞空間,通過聚類的方法輸出的線索詞子集合,一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)提出了一種基于可比時(shí)間段文檔集合中詞匯特征變化的突發(fā)事件檢測(cè)方法,通過分析可比時(shí)間段文檔集合中詞匯使用的不同,推斷可能的新事件,特別是突發(fā)事件。本專利技術(shù)屬于文本挖掘和信息檢索領(lǐng)域。
    技術(shù)介紹
    網(wǎng)絡(luò)信息化為人們傳 遞消息、表達(dá)觀點(diǎn)、獲取信息提供了非常方便的手段。網(wǎng)絡(luò)已經(jīng)成為了信息的海洋。如何充分利用網(wǎng)絡(luò)信息資源,挖掘感興趣的信息,追蹤熱點(diǎn)事件,已經(jīng)成為人們非常關(guān)注的問題。突發(fā)事件是一種可能給社會(huì)的安寧帶來沖擊的事件,歷來受到政府機(jī)構(gòu)和相關(guān)企業(yè)部門的高度重視。在當(dāng)今社會(huì),網(wǎng)絡(luò)成為事件報(bào)道和信息傳播的主要途徑。一旦出現(xiàn)突發(fā)事件,通常會(huì)有大量的跟進(jìn)報(bào)道。從網(wǎng)上快速檢測(cè)突發(fā)事件、跟蹤事件的發(fā)展過程,對(duì)于政府決策和維護(hù)社會(huì)穩(wěn)定有著重要的作用。由于事件的突然性和特殊性,相關(guān)報(bào)道在用詞和語言的表達(dá)方面也會(huì)存在不同之處。本專利技術(shù)就是針對(duì)文檔集合,通過分析用詞規(guī)律的變化來檢測(cè)可能的突發(fā)事件。
    技術(shù)實(shí)現(xiàn)思路
    為了便于說明,先約定下列概念:內(nèi)容詞:這里指名詞、動(dòng)詞和形容詞。線索詞:也叫區(qū)分詞,是能夠用于檢測(cè)突發(fā)事件、并表達(dá)事件內(nèi)容的詞語。突發(fā)線索詞可以區(qū)分普通報(bào)道,特別是規(guī)律性的報(bào)道。在這里,突發(fā)線索詞屬于內(nèi)容詞。目標(biāo)文檔集:待挖掘的文檔集合。目標(biāo)文檔集包含若干文檔,每一文檔對(duì)應(yīng)于一篇網(wǎng)上時(shí)政新聞文章。比較文檔集:用于同目標(biāo)文檔集作對(duì)比的文檔集,通過對(duì)比來檢測(cè)目標(biāo)文檔在用詞方面的變化情況,以判斷目標(biāo)文檔是否含有突發(fā)事件。一般使用目標(biāo)文檔之前若干年同一時(shí)間段的新聞文章作為比較文檔集。突發(fā)事件:指目標(biāo)文檔集中與比較文檔集差異較大的一組文檔的集合共同表達(dá)的內(nèi)容,可以由一組線索詞來代表。在新聞文檔集合中,發(fā)生在A年份但在之前若干年份同一時(shí)期沒有發(fā)生的事件可以看成是突發(fā)事件。本專利技術(shù)的目的是提供一種簡(jiǎn)單的方法,在沒有人工干預(yù)的情況下,容易檢測(cè)目標(biāo)文檔集中所含的突發(fā)事件。本專利技術(shù)的原理是:利用某種度量方法計(jì)算目標(biāo)文檔集與比較文檔集中差異明顯的詞,將它們作為突發(fā)線索詞;再對(duì)線索詞集進(jìn)行聚類處理,然后將聚類結(jié)果映射到事件,從而找到目標(biāo)文檔集的突發(fā)事件。度量方法可以根據(jù)需要選擇,例如選擇TF-1DF方法,也可以是自己編寫的其他方法。這里提到的TF-1DF方法是信息檢索中一種經(jīng)典的計(jì)算方法,其中,TF(t)表示詞t在一個(gè)文檔中出現(xiàn)的頻率(Term Frequency), DF(t)表示詞t在多少個(gè)文檔中出現(xiàn)(Document Frequency), IDF(t)稱為t的逆文檔頻率(Inverse DocumentFrequency),可以是DF(t)的倒數(shù)或其它變形的計(jì)算方法。如果詞t在某個(gè)文檔中出現(xiàn)得非常頻繁,同時(shí),很少在其它文檔中出現(xiàn),那么,這一個(gè)詞就是差異明顯的詞,也度量了所在文檔與其它文檔的某種差異。在后面的實(shí)施部分將詳細(xì)說明TF和IDF的計(jì)算方法。本專利技術(shù)的技術(shù)方案如下:(參圖1),其特征是,包括如下步驟:步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站(例如騰訊、新浪)上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段(例如,某一天)的新聞文章,每一篇文章表示為一個(gè)文檔,時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語詞切分和詞性標(biāo)注;留下內(nèi)容詞,過濾掉其它詞;把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫中;步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理,保留內(nèi)容詞,將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中;這里的k值和r值可以根據(jù)需要設(shè)置;步驟三:從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞;步驟四:對(duì)線索詞集聚類,形成突發(fā)事件描述。所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟三,如下實(shí)現(xiàn):S31:從數(shù)據(jù)庫中獲取 目標(biāo)文檔集、比較文檔集的所有內(nèi)容詞以及詞頻;S32:用一定的信息衡量標(biāo)準(zhǔn)計(jì)算目標(biāo)文檔集合中的內(nèi)容詞與比較文檔集中相同詞的差異性;S33:根據(jù)一定的順序排列,把排在前面的部分詞語篩選出來,作為目標(biāo)文檔集的線索詞。所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟四,如下實(shí)現(xiàn):S41:構(gòu)建線索詞之間的相關(guān)度矩陣;S42:在步驟S41構(gòu)建的相關(guān)度矩陣基礎(chǔ)上,對(duì)線索詞集進(jìn)行聚類處理,得到若干個(gè)子集合,每個(gè)子集合表示一個(gè)類,對(duì)應(yīng)于一個(gè)事件;S43:將聚類后得到的所有類別排序,然后再輸出排在前面的若干個(gè)類,表示若干個(gè)關(guān)發(fā)事件。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟一中,利用網(wǎng)絡(luò)爬蟲每天從指定新聞網(wǎng)站爬取新聞文檔。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S32中,使用TF-1DF值作為信息衡量標(biāo)準(zhǔn),也可以使用自己編寫的其它信息衡量標(biāo)準(zhǔn)方法。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S33中,根據(jù)TF-1DF值降序進(jìn)行排列。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S41中,兩個(gè)線索詞之間的相關(guān)程度計(jì)算方法可以是各種有效的方法,如互信息或卡方值等;若有η個(gè)線索詞,那么相關(guān)度矩陣就是ηΧη的矩陣,用V(nXn)表示;于是,V(i,j)便是線索詞i與線索詞j之間的相關(guān)度。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S42中,聚類的方法為現(xiàn)有的典型算法,如層次聚類或基于圖的聚類等,也可以是自己編寫的其它聚類算法。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S43中,按照詞語集合在目標(biāo)文檔集中頻次的大小降序,也可以是其它準(zhǔn)則。利用本專利技術(shù)提供的技術(shù)方案,可以將事件空間還原到線索詞空間,通過聚類的方法輸出的線索詞子集合,一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。附圖說明圖1是本專利技術(shù)所述方法流程示意2是突發(fā)事件獲取示例具體實(shí)施例方式下面通過實(shí)例對(duì)本專利技術(shù)做進(jìn)一步的說明,但是需要注意的是,給出實(shí)例的目的在于幫助進(jìn)一步理解本專利技術(shù),但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本專利技術(shù)及所附的權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本專利技術(shù)不應(yīng)局限于實(shí)例所公開的內(nèi)容,本專利技術(shù)要求保護(hù)的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。假定本例中,目標(biāo)文檔集為2008年5月的新聞文檔集合(如,從騰訊網(wǎng)上獲取的時(shí)政新聞),比較文檔集為2000年到2007年所有5月的新聞文檔的集合。那么需要檢測(cè)的突發(fā)事件是發(fā)生在2008年5月同時(shí)又不是每個(gè)5月周期性發(fā)生的事件。這里特別需要說明的是,在實(shí)際分析突發(fā)事件時(shí),一般以一天的新聞文檔集作為目標(biāo)文檔集,比較文檔集可以選取前后一定時(shí)間窗口的文檔。例如,若要分析2008年5月12日的突發(fā)事件,在選擇比較文檔集合時(shí),可以選擇從5月12日前!■天(如前面10天)到后r天的文檔集合。首先需要獲得詞的信息,這里采用帶詞性信息的詞作為文檔中詞的信息。比如,有一個(gè)詞是“地震”,對(duì)應(yīng)的詞性是名詞(表示為“NN”),那么用“地震#NN”代表這個(gè)特定的詞。只考慮文檔中的內(nèi)容詞。 衡量差異性的標(biāo)準(zhǔn)可以選擇現(xiàn)有的標(biāo)準(zhǔn),也可以選擇自定義的標(biāo)準(zhǔn)。這里采用TF-1DF值作為標(biāo)準(zhǔn)。TF-1DF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞具有很好的類別區(qū)分能力。本專利技術(shù)將具有區(qū)分能力的詞作為目標(biāo)文檔的突發(fā)線索詞。在計(jì)算TF的時(shí)候,將目標(biāo)文檔集合看成一個(gè)單獨(dú)的目標(biāo)文檔(一般以I天為I個(gè)集合單元)。不妨設(shè)其中的內(nèi)容詞出現(xiàn)的總次數(shù)為N,內(nèi)容詞t出現(xiàn)的次數(shù)為n,則詞t在目標(biāo)文檔集中的頻率為:丁丨.:(本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】
    一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法,其特征是,包括如下步驟:步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章,每一篇文章表示為一個(gè)文檔,時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語詞切分和詞性標(biāo)注;留下內(nèi)容詞,過濾掉其它詞;把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫中;步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理,保留內(nèi)容詞,將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中;步驟三:從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞;步驟四:對(duì)線索詞集聚類,形成突發(fā)事件描述。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王厚峰張龍凱
    申請(qǐng)(專利權(quán))人:北京大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 中文有码无码人妻在线| 国产成人无码精品久久久小说| 日韩精品无码免费专区午夜| 无码人妻精品一区二区| 少妇人妻偷人精品无码AV| 国产成年无码久久久久毛片| 亚洲av无码专区在线观看亚| 国产成人无码av| 无码人妻一区二区三区兔费| 无码人妻精品一区二区三区东京热 | 无码人妻少妇久久中文字幕蜜桃 | 午夜无码视频一区二区三区| 久久人妻少妇嫩草AV无码专区 | 无码视频免费一区二三区| 久久久久久AV无码免费网站下载| 国产高清不卡无码视频| 无码熟妇人妻在线视频| 中文无码热在线视频| 无码AV波多野结衣久久| 亚洲爆乳无码一区二区三区| 亚洲一级Av无码毛片久久精品| 久久AV无码精品人妻出轨| 久久亚洲AV成人无码| 日韩精品久久无码人妻中文字幕| 国产成人AV一区二区三区无码| 成在人线av无码免费高潮水| 国产免费黄色无码视频| 国产成人无码精品久久久久免费 | 无码精品国产VA在线观看| 国产成年无码AV片在线韩国| 亚洲一级特黄大片无码毛片| 人妻无码aⅴ不卡中文字幕| 日韩精品中文字幕无码专区| 国产成人无码免费视频97| 无码精品人妻一区二区三区免费| 亚洲最大av无码网址| 亚洲欧洲无码AV电影在线观看 | 国产精品亚洲专区无码牛牛| 亚洲a∨无码一区二区| 成人免费无码大片A毛片抽搐色欲 成人免费无码大片a毛片 | 少妇无码AV无码专区在线观看|