本發明專利技術涉及一種輿情事件中提取重要觀點的方法。本發明專利技術利用了機器學習和算法模型,基于互信息和左右交叉熵從海量文本中抽取出行業內特定短語和專有名詞,基于glove模型利用行業內語料訓練詞向量模型,利用詞向量召回與“說”和“表示”的近義詞,抽取出來的專有名詞詞典,并依據專家規則把屬于言論觀點的句子進行召回,利用NER模型判斷觀點中表述者字段是否包含業務指定的實體類型,對觀點進行篩選利用句法依存樹分析表述者字段的詞匯依賴關系,從中表述者實體關系,作為重要觀點依據。本技術可擴展至多個行業多種類型事件,不局限于單一數據類型,支持多種數據類型,對大數據量下的多種觀點進行了聚類,便于查看理解。便于查看理解。便于查看理解。
【技術實現步驟摘要】
一種輿情事件中提取重要觀點的方法
[0001]本專利技術涉及網絡信息處理
,具體為一種輿情事件中提取重要觀點的方法。
技術介紹
[0002]目前主要的幾種觀點提取及識別的技術主要是通過詞向量,情感分析,關鍵詞聚類等技術手段,這些技術主要是針對網絡論壇數據或用戶評論數據進行觀點提取,或特定場景下的觀點提取方法,如電商等等場景。
[0003]現有技術的識別手段,局限于文本數據的觀點提取,隨著新型媒體的發展,網民表達訴求不再局限于論壇,微博等以文本為主要表達訴求的平臺,更集中在視頻,語音,圖片等領域。另一方面缺少對于觀點的分級與重要性高低進行劃分,有一些觀點可能無足輕重,反而作為主要的觀點提取。進行海量數據處理后,所抽取的觀點數據繁多,缺少一種手段對提取的觀點進行有效分類和識別。
[0004]專利CN108363725A公開了一種用戶評論觀點提取和觀點標簽生成的方法,該方法首先基于用戶評論構建初始的觀點詞性規則庫,然后通過不斷迭代的方法自動發現新的用戶觀點詞性規則,通過詞性規則匹配的方法得到用戶評論觀點。這種方法更多的關注評論數據,并沒有結合其他各類數據類型,也沒有給出方法如何對觀點進行分類,有其局限性。
[0005]專利CN201210038746一種中文的觀點、評價信息的屬性
?
觀點對抽取方法,公開了一種不需要標注和訓練模型、準確率較高、具有較高的魯棒性的中文的觀點、評價信息的屬性
?
觀點對抽取方法。該方法主要是針對元數據本身進行觀點抽取,同時未考慮在不同事件中,觀點區分邏輯,很可能在某一事件中是觀點,而在另一事件中不是觀點,觀點未能與事件本身相結合。
[0006]專利CN101408883B公開了一種網絡輿情觀點收集方法,通過在網絡論壇中提取熱點詞,根據熱點詞提取相關的信息文檔,構成該熱點詞相關的熱點事件文檔集,并對其中的關鍵句進行聚類,得到某一熱點事件的多個觀點主題句集。這種方法只針對了互聯網上的論壇數據進行了分析,不夠全面。目前新型媒體的發展已經取代了網絡論壇地位,基于網絡論壇進行觀點提取,已不再適用現在互聯網的發展,同時也未給出方法如何區分觀點重要程度。
[0007]如何解決在如今互聯網形式下從輿情事件中的分析出于事件本身相關的觀點,且進行有效分類,并能結合不同事件的情況分析出該事件中觀點重要性高低和影響力大的代表性觀點成為了主要需要解決的問題。
技術實現思路
[0008]鑒于現有技術中所存在的問題,本專利技術公開了一種輿情事件中提取重要觀點的方法,包括步驟如下:步驟一、聚合輿情事件數據:將網絡輿情事件以實體、發生地、事件三方面來描述
事件主題并據此提煉出主關鍵詞,通過主關鍵詞對已提煉出的關鍵詞進行與或非的組合,通過這些關鍵詞從輿情數據庫中進行檢索,可以得到與該事件的相關的數據集;步驟二、利用互信息與左右交叉熵算法抽取頻次最高的短語、詞句:從海量數據中基于互信息與左右交叉熵算法模型,抽取在事件數據集中出現次數不低于兩次的短語、詞句,作為代表相應事件的專有名詞,通過互信息與左右交叉熵算法計算已抽取的專有名詞的向量值;步驟三、基于glove模型與抽取的短語專有名詞組成詞典集:根據得到的相應事件專有名詞的向量值,通過結合glove模型結合專有詞匯和行業特定短語庫,構建共現矩陣,矩陣中每個元素以X
ij
代表單詞i和上下文單詞j在特定大小的上下文中共同出現的次數;一般而言,這個次數的最小單位是1,但是基于glove模型,根據兩個關鍵詞在上下文中距離d,通過衰減函數decay=1/d用于計算權重,其中公式如下:基于此公式構建其損失函數:經過機器學習的模型訓練后,即獲得了與事件相匹配的或相近視的詞典集,選取得分較高的前30個;步驟四、專家規則過濾非言論觀點:通過專家人工篩選出不符合主觀言論表達的觀點的表述的詞,從詞典中剔除;步驟五、基于詞典抽取候選觀點上下文:基于已篩選的詞典,通過分詞器進行分詞后,從事件數據集中抽取與觀點相關的上下文句子,并認為這些數據為候選觀點;步驟六、基于NER模型和句法依存樹抽取實體:NER系統就是從非結構化的輸入文本中抽取出實體,并且按照業務需求識別出更多類別的實體。通常在業務場景表述觀點,是由表述者與表述內容組成。表述者除具體的人物,還會包括其組織,頭銜,職位。通過NER和句法依存樹對表述內容進行實體抽取,根據表述者實體所在組織,頭銜,職位進行分類。分類規則采用預先已經整理的碼表庫,通過與碼表庫的比對明確其實體重要性。如權威觀點、官方觀點、大V觀點。
[0009]作為本專利技術的一種優選方案,步驟二中所述互信息公式為:交叉熵損失函數公式為:
[0010]作為本專利技術的一種優選方案,步驟六中所述NER又稱作專名識別,是自然語言處理中的一項基礎任務,應用范圍非常廣泛;實體一般指的是文本中具有特定意義或者指代性強的實體,通常包括人名、組織機構名、專有名詞等。
[0011]本專利技術的有益效果:本專利技術利用了機器學習和算法模型,基于互信息和左右交叉熵從海量文本中抽取出行業內特定短語和專有名詞,基于glove模型利用行業內語料訓練詞向量模型,利用詞向量召回與“說”和“表示”的近義詞,抽取出來的專有名詞詞典,并依據
專家規則把屬于言論觀點的句子進行召回,利用NER模型判斷觀點中表述者字段是否包含業務指定的實體類型,對觀點進行篩選利用句法依存樹分析表述者字段的詞匯依賴關系,從中表述者實體關系,作為重要觀點依據。關鍵點在于結合了機器學習算法模型,訓練了一批各行業及事件相關的專有名詞及短語模型,表述者實體模型等。通過這些模型與實際輿情事件的向量關系有效抽取重要觀點及影響力大的觀點。本技術可擴展至多個行業多種類型事件,不局限于單一數據類型,支持多種數據類型,對大數據量下的多種觀點進行了聚類,便于查看理解,基于影響力判別觀點重要程度,為決策提供依據,與客觀事實進行區分,準確提取主觀觀點,消除雜音。
附圖說明
[0012]圖1為專利技術的步驟框圖;
[0013]圖2為專利技術的方法流程框圖;
具體實施方式
[0014]實施例1
[0015]本專利技術公開了一種輿情事件中提取重要觀點的方法,包括步驟如下:步驟一、聚合輿情事件數據:將網絡輿情事件以實體、發生地、事件三方面來描述事件主題并據此提煉出主關鍵詞,通過主關鍵詞對已提煉出的關鍵詞進行與或非的組合,通過這些關鍵詞從輿情數據庫中進行檢索,可以得到與該事件的相關的數據集;比如:李某某XX服輿情事件,其中李某某作為實體關鍵詞,XX作為事件關鍵詞,新品發布會作為發生地關鍵詞。通過李某某+新品發布會+XX的關鍵詞組合關聯,即可從輿情庫中檢索到了該事件相關的所有數據結果,即完成第一步的事件聚集。理論上只要有相關關鍵詞可以代表該事件,那么就應該將其納入關鍵詞組合范圍,最大化聚集事件數據;
[0016]步驟二、利用互信息與左右交叉熵算法抽取頻次最高的短語、詞句:從海量數據中基于互信息與左右交叉熵算法模型,抽取在事件數據集中出現次數不低于兩次本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種輿情事件中提取重要觀點的方法,其特征在于,包括步驟如下:步驟一、聚合輿情事件數據:將網絡輿情事件以實體、發生地、事件三方面來描述事件主題并據此提煉出主關鍵詞,通過主關鍵詞對已提煉出的關鍵詞進行與或非的組合,通過這些關鍵詞從輿情數據庫中進行檢索,可以得到與該事件的相關的數據集;步驟二、利用互信息與左右交叉熵算法抽取頻次最高的短語、詞句:從海量數據中基于互信息與左右交叉熵算法模型,抽取在事件數據集中出現次數不低于兩次的短語、詞句,作為代表相應事件的專有名詞,通過互信息與左右交叉熵算法計算已抽取的專有名詞的向量值;步驟三、基于glove模型與抽取的短語專有名詞組成詞典集:根據得到的相應事件專有名詞的向量值,通過結合glove模型結合專有詞匯和行業特定短語庫,構建共現矩陣,矩陣中每個元素以X
ij
代表單詞i和上下文單詞j在特定大小的上下文中共同出現的次數;一般而言,這個次數的最小單位是1,但是基于glove模型,根據兩個關鍵詞在上下文中距離d,通...
【專利技術屬性】
技術研發人員:陳學言,田平,王壘,
申請(專利權)人:廣東數源智匯科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。