一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法。包括:利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語詞切分和詞性標(biāo)注;留下內(nèi)容詞,過濾掉其它詞;獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理,保留內(nèi)容詞;從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞;對(duì)線索詞集聚類,形成突發(fā)事件描述。利用本發(fā)明專利技術(shù)提供的技術(shù)方案,可以將事件空間還原到線索詞空間,通過聚類的方法輸出的線索詞子集合,一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)提出了一種基于可比時(shí)間段文檔集合中詞匯特征變化的突發(fā)事件檢測(cè)方法,通過分析可比時(shí)間段文檔集合中詞匯使用的不同,推斷可能的新事件,特別是突發(fā)事件。本專利技術(shù)屬于文本挖掘和信息檢索領(lǐng)域。
技術(shù)介紹
網(wǎng)絡(luò)信息化為人們傳 遞消息、表達(dá)觀點(diǎn)、獲取信息提供了非常方便的手段。網(wǎng)絡(luò)已經(jīng)成為了信息的海洋。如何充分利用網(wǎng)絡(luò)信息資源,挖掘感興趣的信息,追蹤熱點(diǎn)事件,已經(jīng)成為人們非常關(guān)注的問題。突發(fā)事件是一種可能給社會(huì)的安寧帶來沖擊的事件,歷來受到政府機(jī)構(gòu)和相關(guān)企業(yè)部門的高度重視。在當(dāng)今社會(huì),網(wǎng)絡(luò)成為事件報(bào)道和信息傳播的主要途徑。一旦出現(xiàn)突發(fā)事件,通常會(huì)有大量的跟進(jìn)報(bào)道。從網(wǎng)上快速檢測(cè)突發(fā)事件、跟蹤事件的發(fā)展過程,對(duì)于政府決策和維護(hù)社會(huì)穩(wěn)定有著重要的作用。由于事件的突然性和特殊性,相關(guān)報(bào)道在用詞和語言的表達(dá)方面也會(huì)存在不同之處。本專利技術(shù)就是針對(duì)文檔集合,通過分析用詞規(guī)律的變化來檢測(cè)可能的突發(fā)事件。
技術(shù)實(shí)現(xiàn)思路
為了便于說明,先約定下列概念:內(nèi)容詞:這里指名詞、動(dòng)詞和形容詞。線索詞:也叫區(qū)分詞,是能夠用于檢測(cè)突發(fā)事件、并表達(dá)事件內(nèi)容的詞語。突發(fā)線索詞可以區(qū)分普通報(bào)道,特別是規(guī)律性的報(bào)道。在這里,突發(fā)線索詞屬于內(nèi)容詞。目標(biāo)文檔集:待挖掘的文檔集合。目標(biāo)文檔集包含若干文檔,每一文檔對(duì)應(yīng)于一篇網(wǎng)上時(shí)政新聞文章。比較文檔集:用于同目標(biāo)文檔集作對(duì)比的文檔集,通過對(duì)比來檢測(cè)目標(biāo)文檔在用詞方面的變化情況,以判斷目標(biāo)文檔是否含有突發(fā)事件。一般使用目標(biāo)文檔之前若干年同一時(shí)間段的新聞文章作為比較文檔集。突發(fā)事件:指目標(biāo)文檔集中與比較文檔集差異較大的一組文檔的集合共同表達(dá)的內(nèi)容,可以由一組線索詞來代表。在新聞文檔集合中,發(fā)生在A年份但在之前若干年份同一時(shí)期沒有發(fā)生的事件可以看成是突發(fā)事件。本專利技術(shù)的目的是提供一種簡(jiǎn)單的方法,在沒有人工干預(yù)的情況下,容易檢測(cè)目標(biāo)文檔集中所含的突發(fā)事件。本專利技術(shù)的原理是:利用某種度量方法計(jì)算目標(biāo)文檔集與比較文檔集中差異明顯的詞,將它們作為突發(fā)線索詞;再對(duì)線索詞集進(jìn)行聚類處理,然后將聚類結(jié)果映射到事件,從而找到目標(biāo)文檔集的突發(fā)事件。度量方法可以根據(jù)需要選擇,例如選擇TF-1DF方法,也可以是自己編寫的其他方法。這里提到的TF-1DF方法是信息檢索中一種經(jīng)典的計(jì)算方法,其中,TF(t)表示詞t在一個(gè)文檔中出現(xiàn)的頻率(Term Frequency), DF(t)表示詞t在多少個(gè)文檔中出現(xiàn)(Document Frequency), IDF(t)稱為t的逆文檔頻率(Inverse DocumentFrequency),可以是DF(t)的倒數(shù)或其它變形的計(jì)算方法。如果詞t在某個(gè)文檔中出現(xiàn)得非常頻繁,同時(shí),很少在其它文檔中出現(xiàn),那么,這一個(gè)詞就是差異明顯的詞,也度量了所在文檔與其它文檔的某種差異。在后面的實(shí)施部分將詳細(xì)說明TF和IDF的計(jì)算方法。本專利技術(shù)的技術(shù)方案如下:(參圖1),其特征是,包括如下步驟:步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站(例如騰訊、新浪)上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段(例如,某一天)的新聞文章,每一篇文章表示為一個(gè)文檔,時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語詞切分和詞性標(biāo)注;留下內(nèi)容詞,過濾掉其它詞;把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫中;步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理,保留內(nèi)容詞,將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中;這里的k值和r值可以根據(jù)需要設(shè)置;步驟三:從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞;步驟四:對(duì)線索詞集聚類,形成突發(fā)事件描述。所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟三,如下實(shí)現(xiàn):S31:從數(shù)據(jù)庫中獲取 目標(biāo)文檔集、比較文檔集的所有內(nèi)容詞以及詞頻;S32:用一定的信息衡量標(biāo)準(zhǔn)計(jì)算目標(biāo)文檔集合中的內(nèi)容詞與比較文檔集中相同詞的差異性;S33:根據(jù)一定的順序排列,把排在前面的部分詞語篩選出來,作為目標(biāo)文檔集的線索詞。所述的突發(fā)事件檢測(cè)方法,其特征是,所述步驟四,如下實(shí)現(xiàn):S41:構(gòu)建線索詞之間的相關(guān)度矩陣;S42:在步驟S41構(gòu)建的相關(guān)度矩陣基礎(chǔ)上,對(duì)線索詞集進(jìn)行聚類處理,得到若干個(gè)子集合,每個(gè)子集合表示一個(gè)類,對(duì)應(yīng)于一個(gè)事件;S43:將聚類后得到的所有類別排序,然后再輸出排在前面的若干個(gè)類,表示若干個(gè)關(guān)發(fā)事件。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟一中,利用網(wǎng)絡(luò)爬蟲每天從指定新聞網(wǎng)站爬取新聞文檔。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S32中,使用TF-1DF值作為信息衡量標(biāo)準(zhǔn),也可以使用自己編寫的其它信息衡量標(biāo)準(zhǔn)方法。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S33中,根據(jù)TF-1DF值降序進(jìn)行排列。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S41中,兩個(gè)線索詞之間的相關(guān)程度計(jì)算方法可以是各種有效的方法,如互信息或卡方值等;若有η個(gè)線索詞,那么相關(guān)度矩陣就是ηΧη的矩陣,用V(nXn)表示;于是,V(i,j)便是線索詞i與線索詞j之間的相關(guān)度。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S42中,聚類的方法為現(xiàn)有的典型算法,如層次聚類或基于圖的聚類等,也可以是自己編寫的其它聚類算法。所述的突發(fā)事件檢測(cè)方法,其特征是,步驟S43中,按照詞語集合在目標(biāo)文檔集中頻次的大小降序,也可以是其它準(zhǔn)則。利用本專利技術(shù)提供的技術(shù)方案,可以將事件空間還原到線索詞空間,通過聚類的方法輸出的線索詞子集合,一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。附圖說明圖1是本專利技術(shù)所述方法流程示意2是突發(fā)事件獲取示例具體實(shí)施例方式下面通過實(shí)例對(duì)本專利技術(shù)做進(jìn)一步的說明,但是需要注意的是,給出實(shí)例的目的在于幫助進(jìn)一步理解本專利技術(shù),但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本專利技術(shù)及所附的權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本專利技術(shù)不應(yīng)局限于實(shí)例所公開的內(nèi)容,本專利技術(shù)要求保護(hù)的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。假定本例中,目標(biāo)文檔集為2008年5月的新聞文檔集合(如,從騰訊網(wǎng)上獲取的時(shí)政新聞),比較文檔集為2000年到2007年所有5月的新聞文檔的集合。那么需要檢測(cè)的突發(fā)事件是發(fā)生在2008年5月同時(shí)又不是每個(gè)5月周期性發(fā)生的事件。這里特別需要說明的是,在實(shí)際分析突發(fā)事件時(shí),一般以一天的新聞文檔集作為目標(biāo)文檔集,比較文檔集可以選取前后一定時(shí)間窗口的文檔。例如,若要分析2008年5月12日的突發(fā)事件,在選擇比較文檔集合時(shí),可以選擇從5月12日前!■天(如前面10天)到后r天的文檔集合。首先需要獲得詞的信息,這里采用帶詞性信息的詞作為文檔中詞的信息。比如,有一個(gè)詞是“地震”,對(duì)應(yīng)的詞性是名詞(表示為“NN”),那么用“地震#NN”代表這個(gè)特定的詞。只考慮文檔中的內(nèi)容詞。 衡量差異性的標(biāo)準(zhǔn)可以選擇現(xiàn)有的標(biāo)準(zhǔn),也可以選擇自定義的標(biāo)準(zhǔn)。這里采用TF-1DF值作為標(biāo)準(zhǔn)。TF-1DF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞具有很好的類別區(qū)分能力。本專利技術(shù)將具有區(qū)分能力的詞作為目標(biāo)文檔的突發(fā)線索詞。在計(jì)算TF的時(shí)候,將目標(biāo)文檔集合看成一個(gè)單獨(dú)的目標(biāo)文檔(一般以I天為I個(gè)集合單元)。不妨設(shè)其中的內(nèi)容詞出現(xiàn)的總次數(shù)為N,內(nèi)容詞t出現(xiàn)的次數(shù)為n,則詞t在目標(biāo)文檔集中的頻率為:丁丨.:(本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法,其特征是,包括如下步驟:步驟一:利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章,每一篇文章表示為一個(gè)文檔,時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合;對(duì)每一個(gè)文檔進(jìn)行預(yù)處理,包括漢語詞切分和詞性標(biāo)注;留下內(nèi)容詞,過濾掉其它詞;把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫中;步驟二:獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集;對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理,保留內(nèi)容詞,將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中;步驟三:從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞;步驟四:對(duì)線索詞集聚類,形成突發(fā)事件描述。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王厚峰,張龍凱,
申請(qǐng)(專利權(quán))人:北京大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。