本發(fā)明專利技術(shù)涉及網(wǎng)絡(luò)信息處理技術(shù),公開了一種輿情垂直搜索分析系統(tǒng),該系統(tǒng)應(yīng)用于基于文本的網(wǎng)絡(luò)輿情搜索分析,包括垂直搜索引擎爬蟲模塊、基于模板的信息抽取模塊、基于短語抽取的文本傾向性分析模塊、基于詞匯統(tǒng)計模式的文本傾向性分析模塊;與現(xiàn)有技術(shù)相比,本發(fā)明專利技術(shù)采用的基于短語模式和詞匯統(tǒng)計模式的信息情感傾向性的算法準(zhǔn)確率較現(xiàn)有技術(shù)對比,提高了5個百分點左右,算法改進(jìn)的效果比較明顯步驟;同時,多線程的方法設(shè)計提高了處理的執(zhí)行效率,因此,對于輿情搜索分析達(dá)成了更快,更準(zhǔn)確的搜索分析效果。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及網(wǎng)絡(luò)信息處理技術(shù),特別是涉及一種網(wǎng)絡(luò)輿情搜索和分析系統(tǒng)和方法。
技術(shù)介紹
本專利技術(shù)所涉及的主要技術(shù)包括I.與網(wǎng)絡(luò)輿情監(jiān)測相關(guān)的關(guān)鍵性技術(shù)(I)網(wǎng)絡(luò)輿情采集與提取技木網(wǎng)絡(luò)輿情主要通過新聞、論壇/BBS、博客、即時通信軟件等渠道形成和傳播,這些通道的承載體主要為動態(tài)網(wǎng)頁,它們承載著松散的結(jié)構(gòu)化信息,使得輿情信息的有效抽取很有難度。通過全自動生成網(wǎng)頁信息抽取Wrapper的方法在一定程度上實現(xiàn)了動態(tài)網(wǎng)頁數(shù)據(jù)的抽取與集成,具有一定的處理準(zhǔn)確率以及抽取效率。(2)網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)與追蹤技術(shù)網(wǎng)民討論的話題繁多,涵蓋社會方方面面,如何從海量信息中找到熱點、敏感話題,并對其趨勢變化進(jìn)行追蹤成為研究熱點。(3)網(wǎng)絡(luò)輿情傾向性分析技術(shù)通過傾向性分析可以明確網(wǎng)絡(luò)傳播者所蘊(yùn)涵的感情、態(tài)度、觀點、立場、意圖等主觀反映。對輿情文本進(jìn)行傾向性分析,實際上就是試圖用計算機(jī)實現(xiàn)根據(jù)文本的內(nèi)容提煉出文本作者的情感方向的目標(biāo)。(4)多文檔自動文摘技木新聞、帖子、博文等頁面都包含著垃圾信息,多文檔自動摘要技術(shù)能對頁面內(nèi)容進(jìn)行過濾,并提煉成概要信息,便于查詢和檢索。2.信息抽取技術(shù)垂直搜索引擎實現(xiàn)流程是spider爬取網(wǎng)頁,對網(wǎng)頁進(jìn)行分類、信息提取,即將網(wǎng)頁的非結(jié)構(gòu)化數(shù)據(jù)抽取成特定的結(jié)構(gòu)化數(shù)據(jù),將這些數(shù)據(jù)存儲到數(shù)據(jù)庫,進(jìn)行進(jìn)ー步的加 エ處理,如去重、分析比較等,最后通過分詞索引提供用戶搜索。上述流程中最關(guān)鍵的就是將非結(jié)構(gòu)化數(shù)據(jù)按照需求抽取成結(jié)構(gòu)化數(shù)據(jù),這也是垂直搜索引擎和通用搜索引擎的最大區(qū)別。目前主要有兩種方式實現(xiàn)結(jié)構(gòu)化信息抽取(I)基于網(wǎng)頁庫級的結(jié)構(gòu)化信息抽取方式采用頁面結(jié)構(gòu)分析與智能節(jié)點分析轉(zhuǎn)換的方法,自動抽取結(jié)構(gòu)化數(shù)據(jù)。該方式可對任意的正常網(wǎng)頁進(jìn)行抽取,完全自動化,智能抽取準(zhǔn)確率高。但由于需要通用性良好,其技術(shù)實現(xiàn)難度較高,前期研發(fā)成本高、周期長,僅適合高端應(yīng)用。⑵模板方式模板方式是事先對數(shù)據(jù)源的網(wǎng)頁結(jié)構(gòu)進(jìn)行分析,針對不同的結(jié)構(gòu),進(jìn)行模板匹配。 在抽取模板中運(yùn)用特定的正則表達(dá)式,對有限網(wǎng)站的信息進(jìn)行精確采集。該方式的實現(xiàn)過程較為簡易,針對數(shù)據(jù)源的網(wǎng)頁結(jié)構(gòu),可輕松地配置模板,準(zhǔn)確率高、實時性強(qiáng)、方便快捷部暑。但在信息源多祥性和不穩(wěn)定的情況下維護(hù)量巨大,故這種方式適合相對固定的有限信息源的信息處理。3.基于語義的文本傾向性研究方法目前,基于語義的文本傾向性研究方法主要有兩種。(I)第一種是先對待分析文本中的形容詞或能夠體現(xiàn)主觀色彩的短語進(jìn)行抽取, 然后對抽取出來的形容詞或短語逐一進(jìn)行傾向性判斷并賦予ー個傾向值,最后將上述所有傾向值累加起來得到文章的總體文本傾向性。即I)利用連接形容詞的連詞的語言學(xué)約束來判斷所連接的兩個形容詞表達(dá)的感情是否一致,然后用類聚方法來獲得表示情感傾向的兩個形容詞類。Turney等人使用PMI_ IR(Pointwise Mutual Information and Information Retrieval)萬法來估計組語與表不情感的兩個立場的基準(zhǔn)詞(如“好”與“壞”)的相似度,相似度計算用逐點互信息。判斷詞的傾向性還有ー類方法是基于一個現(xiàn)存的本體知識庫,如英文的WordNet及中文的HowNet, 來計算待估詞與已選定的基準(zhǔn)詞對的語義距離,進(jìn)而判斷待估詞的傾向性。2)利用HowNet提供的語相似度和語義相關(guān)場的計算功能,計算待估詞與預(yù)先選好的褒貶基準(zhǔn)詞對組的相關(guān)性,從而得到該詞的傾向性。(2)第二種基于語義的文本傾向性的研究方法預(yù)先建立ー個傾向性語義模式庫,有時還會附帯ー個傾向性字典。然后將待估文檔參照語義模式庫做模式匹配,最后累加所有匹配模式對應(yīng)的傾向性值從而得到整個文檔的傾向性。劉永丹等人將已有的語義分析技術(shù)用于傾向性判斷,用精簡的格語法和語義框架表達(dá)文本中的語義關(guān)系并進(jìn)行傾向性分祈。而鄭宇等人采用了傾向性詞典和語義規(guī)則匹配相結(jié)合的分析方法來進(jìn)行傾向性文本過濾。
技術(shù)實現(xiàn)思路
基于上述現(xiàn)有技術(shù),本專利技術(shù)提出一種輿情垂直捜索分析系統(tǒng)及方法,在web2.0網(wǎng)絡(luò)環(huán)境下,實現(xiàn)了基于廣度優(yōu)先搜索策略與基于網(wǎng)頁拓?fù)浜完P(guān)鍵字過濾算法的網(wǎng)頁爬取處理及基于文本語義傾向性(特別是基于短語模式和詞匯統(tǒng)計模式的信息情感傾向性)的分析處理,以實現(xiàn)快速和更具深度的輿情垂直捜索分析。本專利技術(shù)提出一種輿情垂直捜索分析系統(tǒng),該系統(tǒng)應(yīng)用于基于文本的網(wǎng)絡(luò)輿情捜索分析,該系統(tǒng)包括垂直搜索引擎爬蟲模塊、基于模板的信息抽取模塊、基于短語抽取的文本傾向性分析模塊、基于詞匯統(tǒng)計模式的文本傾向性分析模塊,其中垂直搜索引擎爬蟲模塊,利用爬蟲算法通過基于網(wǎng)絡(luò)拓?fù)浜途W(wǎng)頁內(nèi)容關(guān)鍵字的過濾技術(shù)及廣度優(yōu)先捜索的網(wǎng)頁爬取,有選擇的搜索并下載與輿情主題相關(guān)的互聯(lián)網(wǎng)網(wǎng)頁;基于模板的信息抽取模塊,從網(wǎng)頁源代碼信息中抽取出結(jié)構(gòu)化的數(shù)據(jù),并以所需的固定形式存儲到數(shù)據(jù)庫中;基于短語抽取的文本傾向性分析模塊,基于短語抽取模式得到結(jié)構(gòu)化信息,并分別對結(jié)構(gòu)化信息文本語料進(jìn)行傾向性分析,得到文本語料的最終傾向度 Sensibility (Text);該模塊的處理包括詞匯A與詞匯B的情感傾向權(quán)值,記為Sensibility(A)或Sensibility (B);判斷詞匯A與詞匯B是否存在于“程度副詞”及“否定副詞”詞表中若詞匯A與詞匯B均不在,則該短語的情感傾向權(quán)值為Sensibility (A+B) = Sensibility (A)+Sensibility (B);若詞匯A存在干“否定副詞”詞表中,則短語中心詞為詞匯B,計算詞匯B的情感權(quán)7值為 Sensibility (B),則該短語的情感權(quán)值Sensibility (A+B) = (-1) X Sensibility (B);反之,若詞匯B存在于“否定副詞”詞表中,則該短語中心詞為詞匯A,該短語的情感權(quán)值 Sensibility (A+B) = (-1) XSensibility (A);若詞匯A存在干“程度副詞”詞表中,則短語中心詞為詞匯B,用Ievel(A)表示作為程度副詞的詞匯A的程度倍數(shù),該短語的情感權(quán)值Sensibility (A+B) = level (A)X Sensibility (B);反之,用level (B)表示作為程度副詞的詞匯B的程度倍數(shù),該短語的情感權(quán)值Sensibility (A+B) = level (B)X Sensibility (A);分別計算所有褒義傾向與貶義詞傾向的短語權(quán)值和,用Positive(words)與 Negative (words)分別表示有褒義傾向與貶義詞傾向的短語權(quán)值將所有短語情感權(quán)值求和,所得結(jié)果小于0的作為貶義詞傾向的短語權(quán)值 權(quán)利要求1.一種輿情垂直捜索分析系統(tǒng),該系統(tǒng)應(yīng)用于基于文本的網(wǎng)絡(luò)輿情捜索分析,其特征在干,該系統(tǒng)包括垂直搜索引擎爬蟲模塊、基于模板的信息抽取模塊、基于短語抽取的文本傾向性分析模塊、基于詞匯統(tǒng)計模式的文本傾向性分析模塊,其中垂直搜索引擎爬蟲模塊,利用爬蟲算法通過基于網(wǎng)絡(luò)拓?fù)浜途W(wǎng)頁內(nèi)容關(guān)鍵字的過濾技術(shù)及廣度優(yōu)先搜索的網(wǎng)頁爬取,有選擇的搜索并下載與輿情主題相關(guān)的互聯(lián)網(wǎng)網(wǎng)頁;基于模板的信息抽取模塊,從網(wǎng)頁源代碼信息中抽取出結(jié)構(gòu)化的數(shù)據(jù),并以所需的固定形式存儲到數(shù)據(jù)庫中;基于短語抽取的文本傾向性分析模塊,基于短語抽取模式得到結(jié)構(gòu)化信息,井分別對本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:饒國政,賈彪,馮志勇,
申請(專利權(quán))人:天津大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。