本發(fā)明專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,本發(fā)明專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)第一關(guān)鍵詞和第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,詞向量文件包括第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。本發(fā)明專利技術(shù)的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,通過考慮文本的語義信息來擴(kuò)展事件的關(guān)鍵詞,并通過擴(kuò)展后的關(guān)鍵詞進(jìn)行微博突發(fā)事件的檢測(cè),可以準(zhǔn)確的檢測(cè)微博突發(fā)事件,避免了將同一事件分成兩個(gè)微博事件,并可以進(jìn)行在線檢測(cè)。
【技術(shù)實(shí)現(xiàn)步驟摘要】
基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置
本專利技術(shù)涉及微博技術(shù),尤其涉及一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置。
技術(shù)介紹
微博的社會(huì)化特性及其可以被迅速、及時(shí)的傳播,吸引了大量對(duì)信息實(shí)時(shí)性有高需求的網(wǎng)民。微博使得世界上的每一個(gè)人都能夠成為信息源,并使之在全球傳播,這就使得微博本身所承載的信息量大大增加。微博已經(jīng)集合了海量的新聞、事件和信息,并且每天都在更新,每天都在流傳,對(duì)現(xiàn)實(shí)的社會(huì)產(chǎn)生巨大的影響。尤其是在突發(fā)事件的信息傳播上,微博更是超越了傳統(tǒng)媒體,成為了信息快速傳播的渠道。微博上的信息不僅發(fā)布及時(shí),而且也是現(xiàn)實(shí)社會(huì)生活的縮影,挖掘微博上的信息有利于從不同角度分析現(xiàn)實(shí)世界的情況。因此,從海量的微博數(shù)據(jù)檢測(cè)事件具有十分重要的意義。現(xiàn)有技術(shù)中的微博事件檢測(cè)的方法可以分為兩類,一類是針對(duì)特定事件的微博事件檢測(cè)方法,一類是通用的微博事件檢測(cè)方法。對(duì)于對(duì)特定事件的微博事件檢測(cè)方法,通常需要對(duì)事件具有一定的先驗(yàn)知識(shí),比如針對(duì)地震的微博事件檢測(cè),需要首先通過地震相關(guān)的關(guān)鍵詞找出相關(guān)微博,然后對(duì)這部分微博進(jìn)行分析,但是對(duì)于突發(fā)事件很難具有先驗(yàn)的信息,因此,該種微博事件檢測(cè)方法具有很強(qiáng)的局限性。對(duì)于通用的微博事件檢測(cè)方法不需要事件的先驗(yàn)知識(shí),主要包括基于突發(fā)特征檢測(cè)、主題模型、聚類或者圖的方法,但是這些方法普遍需要離線檢測(cè),不能處理流式數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,以解決上述技術(shù)問題。本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。如上所述的方法,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的方法,在所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件之前,還包括:獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。如上所述的方法,在所述采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件之后,還包括:每隔預(yù)設(shè)周期更新所述詞向量文件,得到更新后的詞向量文件;相應(yīng)地,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述更新后的詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的方法,所述每隔預(yù)設(shè)周期更新所述詞向量文件,包括:每隔所述預(yù)設(shè)周期重新獲取多個(gè)文本,并對(duì)各重新獲取的文本進(jìn)行文本分詞,得到更新后的訓(xùn)練詞語;采用word2vec方法對(duì)所述更新后的訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述更新后的詞向量文件。如上所述的方法,所述根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件,包括:獲取所述多個(gè)微博被檢測(cè)出來的檢測(cè)時(shí)間;獲取所述多個(gè)微博的相關(guān)度,將相關(guān)度位于前N名的N個(gè)微博作為所述微博突發(fā)事件的相關(guān)微博,并獲取所述相關(guān)微博的摘要;獲取各所述相關(guān)微博的屬性,所述屬性包括:微博中出現(xiàn)的地點(diǎn)以及參與者,并獲取出現(xiàn)次數(shù)最多的目標(biāo)地點(diǎn)和出現(xiàn)次數(shù)最多的目標(biāo)參與者;根據(jù)所述相關(guān)微博的語義表達(dá),采用語義擴(kuò)展的Embedding細(xì)胞詞庫(kù)和支持向量機(jī)SVM方法,獲取所述微博突發(fā)事件的分類;采用基于所述SVM的情感分類方法,獲取所述微博突發(fā)事件的情感;根據(jù)所述檢測(cè)時(shí)間、相關(guān)微博、摘要、目標(biāo)地點(diǎn)、目標(biāo)參與者、微博突發(fā)事件的分類以及微博突發(fā)事件的情感,得到所述微博突發(fā)事件。如上所述的方法,所述獲取所述相關(guān)微博的摘要,包括:采用NLPIR分詞系統(tǒng)獲取對(duì)所述相關(guān)微博的第一描述;查詢所述相關(guān)微博中是否含有主體標(biāo)簽,所述第一描述中是否含有所述主體標(biāo)簽;若所述相關(guān)微博和所述第一描述中均含有主體標(biāo)簽,則將第一描述作為所述摘要;若所述相關(guān)微博中包含主體標(biāo)簽,第一描述中不包括主體標(biāo)簽,則將所述主體標(biāo)簽作為所述摘要;若所述相關(guān)微博中不包含主體標(biāo)簽,則獲取相關(guān)微博中包含最多關(guān)鍵詞的語句,將所述語句作為所述摘要;其中,所述關(guān)鍵詞是指所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞。本專利技術(shù)還提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)裝置,包括:第一關(guān)鍵詞獲取模塊,所述第一關(guān)鍵詞獲取模塊用于獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;微博突發(fā)事件檢測(cè)模塊,所述微博突發(fā)事件檢測(cè)模塊用于根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。如上所述的裝置,所述微博突發(fā)事件檢測(cè)模塊包括:第二關(guān)鍵詞獲取單元,所述第二關(guān)鍵詞獲取單元用于根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;微博獲取單元,所述微博獲取單元用于根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;微博突發(fā)事件獲取單元,所述微博突發(fā)事件獲取單元用于根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的裝置,所述裝置還包括:訓(xùn)練詞語獲取模塊,所述訓(xùn)練詞語獲取模塊用于獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;詞向量文件獲取模塊,所述詞向量文件獲取模塊用于采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法包括:獲取與待檢測(cè)的微博事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)第一關(guān)鍵詞和第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博事件;其中,第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,詞向量文件包括第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。本專利技術(shù)的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,通過考慮文本的語義信息來擴(kuò)展事件的關(guān)鍵詞,并通過擴(kuò)展后的關(guān)鍵詞進(jìn)行微博突發(fā)事件的檢測(cè),可以準(zhǔn)確的檢測(cè)到微博突發(fā)事件,避免將同一事件分成兩個(gè)微博事件,并可以進(jìn)行在線檢測(cè)。附圖說明為了更清楚地說明本專利技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本專利技術(shù)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法的流程圖一;圖2為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法的流程圖二;圖3為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)裝置實(shí)施例一本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,其特征在于,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。
【技術(shù)特征摘要】
1.一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,其特征在于,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件之前,還包括:獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件之后,還包括:每隔預(yù)設(shè)周期更新所述詞向量文件,得到更新后的詞向量文件;相應(yīng)地,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述更新后的詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述每隔預(yù)設(shè)周期更新所述詞向量文件,包括:每隔所述預(yù)設(shè)周期重新獲取多個(gè)文本,并對(duì)各重新獲取的文本進(jìn)行文本分詞,得到更新后的訓(xùn)練詞語;采用word2vec方法對(duì)所述更新后的訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述更新后的詞向量文件。6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件,包括:獲取所述多個(gè)微博被檢測(cè)出來的檢測(cè)時(shí)間;獲取所述多個(gè)微博的相關(guān)度,將相關(guān)度位于前N名的N個(gè)微博作為所述微博突發(fā)事件的相關(guān)微博,并獲取所述相關(guān)微博的摘要;獲取各所述相關(guān)微博的屬性,所述屬性包括:微博中出現(xiàn)的地點(diǎn)以及參與者,并獲...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡春明,吳博,彭浩,張日崇,李建欣,
申請(qǐng)(專利權(quán))人:北京航空航天大學(xué),
類型:發(fā)明
國(guó)別省市:北京,11
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。