• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置制造方法及圖紙

    技術(shù)編號(hào):15704880 閱讀:244 留言:0更新日期:2017-06-26 10:12
    本發(fā)明專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,本發(fā)明專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)第一關(guān)鍵詞和第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,詞向量文件包括第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。本發(fā)明專利技術(shù)的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,通過考慮文本的語義信息來擴(kuò)展事件的關(guān)鍵詞,并通過擴(kuò)展后的關(guān)鍵詞進(jìn)行微博突發(fā)事件的檢測(cè),可以準(zhǔn)確的檢測(cè)微博突發(fā)事件,避免了將同一事件分成兩個(gè)微博事件,并可以進(jìn)行在線檢測(cè)。

    【技術(shù)實(shí)現(xiàn)步驟摘要】
    基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置
    本專利技術(shù)涉及微博技術(shù),尤其涉及一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置。
    技術(shù)介紹
    微博的社會(huì)化特性及其可以被迅速、及時(shí)的傳播,吸引了大量對(duì)信息實(shí)時(shí)性有高需求的網(wǎng)民。微博使得世界上的每一個(gè)人都能夠成為信息源,并使之在全球傳播,這就使得微博本身所承載的信息量大大增加。微博已經(jīng)集合了海量的新聞、事件和信息,并且每天都在更新,每天都在流傳,對(duì)現(xiàn)實(shí)的社會(huì)產(chǎn)生巨大的影響。尤其是在突發(fā)事件的信息傳播上,微博更是超越了傳統(tǒng)媒體,成為了信息快速傳播的渠道。微博上的信息不僅發(fā)布及時(shí),而且也是現(xiàn)實(shí)社會(huì)生活的縮影,挖掘微博上的信息有利于從不同角度分析現(xiàn)實(shí)世界的情況。因此,從海量的微博數(shù)據(jù)檢測(cè)事件具有十分重要的意義。現(xiàn)有技術(shù)中的微博事件檢測(cè)的方法可以分為兩類,一類是針對(duì)特定事件的微博事件檢測(cè)方法,一類是通用的微博事件檢測(cè)方法。對(duì)于對(duì)特定事件的微博事件檢測(cè)方法,通常需要對(duì)事件具有一定的先驗(yàn)知識(shí),比如針對(duì)地震的微博事件檢測(cè),需要首先通過地震相關(guān)的關(guān)鍵詞找出相關(guān)微博,然后對(duì)這部分微博進(jìn)行分析,但是對(duì)于突發(fā)事件很難具有先驗(yàn)的信息,因此,該種微博事件檢測(cè)方法具有很強(qiáng)的局限性。對(duì)于通用的微博事件檢測(cè)方法不需要事件的先驗(yàn)知識(shí),主要包括基于突發(fā)特征檢測(cè)、主題模型、聚類或者圖的方法,但是這些方法普遍需要離線檢測(cè),不能處理流式數(shù)據(jù)。
    技術(shù)實(shí)現(xiàn)思路
    本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,以解決上述技術(shù)問題。本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。如上所述的方法,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的方法,在所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件之前,還包括:獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。如上所述的方法,在所述采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件之后,還包括:每隔預(yù)設(shè)周期更新所述詞向量文件,得到更新后的詞向量文件;相應(yīng)地,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述更新后的詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的方法,所述每隔預(yù)設(shè)周期更新所述詞向量文件,包括:每隔所述預(yù)設(shè)周期重新獲取多個(gè)文本,并對(duì)各重新獲取的文本進(jìn)行文本分詞,得到更新后的訓(xùn)練詞語;采用word2vec方法對(duì)所述更新后的訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述更新后的詞向量文件。如上所述的方法,所述根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件,包括:獲取所述多個(gè)微博被檢測(cè)出來的檢測(cè)時(shí)間;獲取所述多個(gè)微博的相關(guān)度,將相關(guān)度位于前N名的N個(gè)微博作為所述微博突發(fā)事件的相關(guān)微博,并獲取所述相關(guān)微博的摘要;獲取各所述相關(guān)微博的屬性,所述屬性包括:微博中出現(xiàn)的地點(diǎn)以及參與者,并獲取出現(xiàn)次數(shù)最多的目標(biāo)地點(diǎn)和出現(xiàn)次數(shù)最多的目標(biāo)參與者;根據(jù)所述相關(guān)微博的語義表達(dá),采用語義擴(kuò)展的Embedding細(xì)胞詞庫(kù)和支持向量機(jī)SVM方法,獲取所述微博突發(fā)事件的分類;采用基于所述SVM的情感分類方法,獲取所述微博突發(fā)事件的情感;根據(jù)所述檢測(cè)時(shí)間、相關(guān)微博、摘要、目標(biāo)地點(diǎn)、目標(biāo)參與者、微博突發(fā)事件的分類以及微博突發(fā)事件的情感,得到所述微博突發(fā)事件。如上所述的方法,所述獲取所述相關(guān)微博的摘要,包括:采用NLPIR分詞系統(tǒng)獲取對(duì)所述相關(guān)微博的第一描述;查詢所述相關(guān)微博中是否含有主體標(biāo)簽,所述第一描述中是否含有所述主體標(biāo)簽;若所述相關(guān)微博和所述第一描述中均含有主體標(biāo)簽,則將第一描述作為所述摘要;若所述相關(guān)微博中包含主體標(biāo)簽,第一描述中不包括主體標(biāo)簽,則將所述主體標(biāo)簽作為所述摘要;若所述相關(guān)微博中不包含主體標(biāo)簽,則獲取相關(guān)微博中包含最多關(guān)鍵詞的語句,將所述語句作為所述摘要;其中,所述關(guān)鍵詞是指所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞。本專利技術(shù)還提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)裝置,包括:第一關(guān)鍵詞獲取模塊,所述第一關(guān)鍵詞獲取模塊用于獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;微博突發(fā)事件檢測(cè)模塊,所述微博突發(fā)事件檢測(cè)模塊用于根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。如上所述的裝置,所述微博突發(fā)事件檢測(cè)模塊包括:第二關(guān)鍵詞獲取單元,所述第二關(guān)鍵詞獲取單元用于根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;微博獲取單元,所述微博獲取單元用于根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;微博突發(fā)事件獲取單元,所述微博突發(fā)事件獲取單元用于根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。如上所述的裝置,所述裝置還包括:訓(xùn)練詞語獲取模塊,所述訓(xùn)練詞語獲取模塊用于獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;詞向量文件獲取模塊,所述詞向量文件獲取模塊用于采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。本專利技術(shù)提供一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法包括:獲取與待檢測(cè)的微博事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)第一關(guān)鍵詞和第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博事件;其中,第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,詞向量文件包括第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。本專利技術(shù)的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置,通過考慮文本的語義信息來擴(kuò)展事件的關(guān)鍵詞,并通過擴(kuò)展后的關(guān)鍵詞進(jìn)行微博突發(fā)事件的檢測(cè),可以準(zhǔn)確的檢測(cè)到微博突發(fā)事件,避免將同一事件分成兩個(gè)微博事件,并可以進(jìn)行在線檢測(cè)。附圖說明為了更清楚地說明本專利技術(shù)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本專利技術(shù)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法的流程圖一;圖2為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法的流程圖二;圖3為本專利技術(shù)提供的基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)裝置實(shí)施例一本文檔來自技高網(wǎng)...
    基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法及裝置

    【技術(shù)保護(hù)點(diǎn)】
    一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,其特征在于,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。

    【技術(shù)特征摘要】
    1.一種基于語義擴(kuò)展的微博突發(fā)事件檢測(cè)方法,其特征在于,包括:獲取與待檢測(cè)的微博突發(fā)事件對(duì)應(yīng)的第一關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件;其中,所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件是采用word2vec方法對(duì)訓(xùn)練集中的訓(xùn)練詞語進(jìn)行訓(xùn)練得到的,所述詞向量文件包括所述第一關(guān)鍵詞與其它訓(xùn)練詞語之間的語義相似度。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件之前,還包括:獲取多個(gè)文本,并對(duì)各所述文本進(jìn)行文本分詞,得到所述訓(xùn)練詞語;采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述采用word2vec方法對(duì)所述訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述詞向量文件之后,還包括:每隔預(yù)設(shè)周期更新所述詞向量文件,得到更新后的詞向量文件;相應(yīng)地,所述根據(jù)所述第一關(guān)鍵詞和所述第一關(guān)鍵詞關(guān)聯(lián)的詞向量文件,得到微博突發(fā)事件,包括:根據(jù)所述更新后的詞向量文件獲取與所述第一關(guān)鍵詞語義相似度滿足第一閾值的第二關(guān)鍵詞;根據(jù)所述第一關(guān)鍵詞和所述第二關(guān)鍵詞,獲取包含所述第一關(guān)鍵詞和/或所述第二關(guān)鍵詞的多個(gè)微博;根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述每隔預(yù)設(shè)周期更新所述詞向量文件,包括:每隔所述預(yù)設(shè)周期重新獲取多個(gè)文本,并對(duì)各重新獲取的文本進(jìn)行文本分詞,得到更新后的訓(xùn)練詞語;采用word2vec方法對(duì)所述更新后的訓(xùn)練詞語進(jìn)行訓(xùn)練,得到所述更新后的詞向量文件。6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述多個(gè)微博,得到所述微博突發(fā)事件,包括:獲取所述多個(gè)微博被檢測(cè)出來的檢測(cè)時(shí)間;獲取所述多個(gè)微博的相關(guān)度,將相關(guān)度位于前N名的N個(gè)微博作為所述微博突發(fā)事件的相關(guān)微博,并獲取所述相關(guān)微博的摘要;獲取各所述相關(guān)微博的屬性,所述屬性包括:微博中出現(xiàn)的地點(diǎn)以及參與者,并獲...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:胡春明吳博彭浩張日崇李建欣
    申請(qǐng)(專利權(quán))人:北京航空航天大學(xué)
    類型:發(fā)明
    國(guó)別省市:北京,11

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 无码永久免费AV网站| 亚洲AV无码成人精品区蜜桃| 中文AV人妻AV无码中文视频| 日韩一区二区三区无码影院| 午夜无码性爽快影院6080| 亚洲精品一级无码中文字幕| 久久久久亚洲Av无码专| 亚洲中文字幕伊人久久无码| 麻豆亚洲AV永久无码精品久久| 国产精品无码久久av不卡| 日韩免费人妻AV无码专区蜜桃| 日韩久久无码免费毛片软件| 精品亚洲AV无码一区二区| 一夲道无码人妻精品一区二区| 久久久无码精品午夜| 无码播放一区二区三区| 丰满熟妇乱又伦在线无码视频| 久久av高潮av无码av喷吹| 日韩精品人妻系列无码av东京| 中文字幕无码乱码人妻系列蜜桃| 国产成年无码AV片在线韩国| 日韩人妻无码免费视频一区二区三区| 亚洲一区二区三区无码国产| 亚洲AV综合色区无码一区爱AV | 亚洲?V无码成人精品区日韩 | 亚洲韩国精品无码一区二区三区| 国产免费AV片无码永久免费| 亚洲精品无码久久久久久| 亚洲日韩精品无码专区| 精品久久亚洲中文无码| 久久无码高潮喷水| 97久久精品亚洲中文字幕无码| 无码AV天堂一区二区三区| 亚洲AV无码久久精品狠狠爱浪潮| 久久久久久AV无码免费网站 | 亚洲国产精品无码久久久| 无码成人一区二区| 亚洲中文无码亚洲人成影院| 97免费人妻无码视频| 亚洲中文字幕久久无码| 色综合久久久无码中文字幕波多|