一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法技術(shù)

技術(shù)編號(hào)：9034073 閱讀：178 留言：0更新日期：2013-08-15 00:54

一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法。包括：利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章；對(duì)每一個(gè)文檔進(jìn)行預(yù)處理，包括漢語詞切分和詞性標(biāo)注；留下內(nèi)容詞，過濾掉其它詞；獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集；對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理，保留內(nèi)容詞；從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞；對(duì)線索詞集聚類，形成突發(fā)事件描述。利用本發(fā)明專利技術(shù)提供的技術(shù)方案，可以將事件空間還原到線索詞空間，通過聚類的方法輸出的線索詞子集合，一個(gè)子集合對(duì)應(yīng)著一個(gè)突發(fā)事件的描述。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)提出了一種基于可比時(shí)間段文檔集合中詞匯特征變化的突發(fā)事件檢測(cè)方法，通過分析可比時(shí)間段文檔集合中詞匯使用的不同，推斷可能的新事件，特別是突發(fā)事件。本專利技術(shù)屬于文本挖掘和信息檢索領(lǐng)域。
技術(shù)介紹
網(wǎng)絡(luò)信息化為人們傳遞消息、表達(dá)觀點(diǎn)、獲取信息提供了非常方便的手段。網(wǎng)絡(luò)已經(jīng)成為了信息的海洋。如何充分利用網(wǎng)絡(luò)信息資源，挖掘感興趣的信息，追蹤熱點(diǎn)事件，已經(jīng)成為人們非常關(guān)注的問題。突發(fā)事件是一種可能給社會(huì)的安寧帶來沖擊的事件，歷來受到政府機(jī)構(gòu)和相關(guān)企業(yè)部門的高度重視。在當(dāng)今社會(huì)，網(wǎng)絡(luò)成為事件報(bào)道和信息傳播的主要途徑。一旦出現(xiàn)突發(fā)事件，通常會(huì)有大量的跟進(jìn)報(bào)道。從網(wǎng)上快速檢測(cè)突發(fā)事件、跟蹤事件的發(fā)展過程，對(duì)于政府決策和維護(hù)社會(huì)穩(wěn)定有著重要的作用。由于事件的突然性和特殊性，相關(guān)報(bào)道在用詞和語言的表達(dá)方面也會(huì)存在不同之處。本專利技術(shù)就是針對(duì)文檔集合，通過分析用詞規(guī)律的變化來檢測(cè)可能的突發(fā)事件。
技術(shù)實(shí)現(xiàn)思路
為了便于說明，先約定下列概念:內(nèi)容詞:這里指名詞、動(dòng)詞和形容詞。線索詞:也叫區(qū)分詞，是能夠用于檢測(cè)突發(fā)事件、并表達(dá)事件內(nèi)容的詞語。突發(fā)線索詞可以區(qū)分普通報(bào)道，特別是規(guī)律性的報(bào)道。在這里，突發(fā)線索詞屬于內(nèi)容詞。目標(biāo)文檔集:待挖掘的文檔集合。目標(biāo)文檔集包含若干文檔，每一文檔對(duì)應(yīng)于一篇網(wǎng)上時(shí)政新聞文章。比較文檔集:用于同目標(biāo)文檔集作對(duì)比的文檔集，通過對(duì)比來檢測(cè)目標(biāo)文檔在用詞方面的變化情況，以判斷目標(biāo)文檔是否含有突發(fā)事件。一般使用目標(biāo)文檔之前若干年同一時(shí)間段的新聞文章作為比較文檔集。突發(fā)事件:指目標(biāo)文檔集中與比較文檔集差異較大的一組文檔的集合共同表達(dá)的內(nèi)容，可以由一組線...

【技術(shù)保護(hù)點(diǎn)】
一種基于文檔詞匯特征變化的突發(fā)事件檢測(cè)方法，其特征是，包括如下步驟：步驟一：利用計(jì)算機(jī)從新聞網(wǎng)站上的時(shí)政新聞報(bào)道中爬取指定時(shí)間段的新聞文章，每一篇文章表示為一個(gè)文檔，時(shí)間段內(nèi)的全部文檔構(gòu)成目標(biāo)文檔集合；對(duì)每一個(gè)文檔進(jìn)行預(yù)處理，包括漢語詞切分和詞性標(biāo)注；留下內(nèi)容詞，過濾掉其它詞；把每一個(gè)目標(biāo)文檔及其處理結(jié)果存儲(chǔ)到計(jì)算機(jī)的數(shù)據(jù)庫中；步驟二：獲取前面k年與目標(biāo)文檔相同時(shí)間段及前r天和后r天的新聞文檔作為比較文檔集；對(duì)比較文檔集同樣進(jìn)行漢語切詞和詞性標(biāo)注處理，保留內(nèi)容詞，將每一個(gè)對(duì)比文檔及其處理結(jié)果存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中；步驟三：從數(shù)據(jù)庫中提取目標(biāo)文檔集中的所有線索詞；步驟四：對(duì)線索詞集聚類，形成突發(fā)事件描述。

【技術(shù)特征摘要】

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：王厚峰，張龍凱，
申請(qǐng)(專利權(quán))人：北京大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)

高校突發(fā)事件的特征是技術(shù)

突發(fā)事件的特征技術(shù)

詞匯特征技術(shù)