• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種政務輿情知識圖譜的構建方法技術

    技術編號:37601667 閱讀:23 留言:0更新日期:2023-05-18 11:52
    本發明專利技術涉及一種政務輿情知識圖譜的構建方法。本發明專利技術基于bert模型,將實體抽取任務轉換成問答任務,同時基于機制,通過構建領域內問答模板,從而提高模型的泛化能力,并且在圖譜生成階段通過前處理和后處理構建專業的政務輿情知識圖譜。在數據的抽取上通過政務標簽抽取出了政務輿情相關性比較強的輿情數據,增強了標注工作的有效性;本方法在實體對齊中使用了實體向量提取和合并的技術,在準確性得到保證的情況下,減少了標注和模型訓練的工作量;在圖譜生成的過程中針對性的使用了前后處理的規則,有效過濾了雜質。有效過濾了雜質。有效過濾了雜質。

    【技術實現步驟摘要】
    一種政務輿情知識圖譜的構建方法


    [0001]本專利技術涉及網絡信息處理
    ,具體為一種政務輿情知識圖譜的構建方法。

    技術介紹

    [0002]知識圖譜,在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。
    [0003]知識圖譜,是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。
    [0004]現有的知識圖譜提取方法,依賴現有通用數據集,客戶有政務領域的輿情知識圖譜識別需求時,無法準確的提取政務領域的實體和描述政務領域實體之間的關系,以往的的政務知識圖譜多是描述政府工作流和辦事流程的圖譜,對于輿情事件中政務實體的提取的描述有很大的不足。

    技術實現思路

    [0005]鑒于現有技術中所存在的問題,本專利技術公開了一種政務輿情知識圖譜的構建方法,包括步驟如下:步驟一、算法建模,具體包括:步驟11、從數據輸入模塊獲取數據:采集全網新聞、論壇、微博、微信、視頻、APP、紙媒的數據,數據入庫的時候會打上政務各個分類相關的標簽,根據設定的標簽獲取政務輿情數據;步驟12、通用模型抽取:使用現有的通用實體抽取模型抽取政務輿情數據中的實體;步驟13、數據標注:確定標注規范,對通過通用實體抽取模型抽取的政務數據進行標注,把標注的數據放入模型進行訓練;步驟14、實體對齊:對抽取的數據生成實體向量,并將通用知識圖譜和政務知識圖譜映射到同一個特征空間,進行實體對齊最后生成算法模型;步驟二、圖譜生成,具體包括:在藍鷹風險預警平臺生成專項分析,將生成數據傳給知識圖譜子系統,知識圖譜子系統對數據進行如下步驟的處理:步驟21、數據前處理:對輸入內容進行過濾,過濾掉輸入的內容中出現的雜聲;步驟22、實體抽?。焊鶕嶓w識別模型,識別內容中出現的品牌、地名、文娛作品、人名、組織名;步驟23、關系抽?。喊褜嶓w識別抽取到的品牌、地名、文娛作品、人名、組織名,分別作為主語,與文章一起作為輸入,抽取與該主語有關的謂語和賓語,形成三元組知識;步驟24、后處理:把關系抽取模塊抽取到的三元組知識,進行清洗和過濾,最終輸
    出可以導入到Neo4j的節點csv和關系csv;步驟25、圖譜系統展示:把數據導出到圖數據庫,圖譜產品調用然后展示。
    [0006]作為本專利技術的一種優選方案,步驟21中的過濾規則為:根據內容去重、根據標題去除雜質、根據內容中時間出現次數去除雜志、根據命中關鍵字進行去重。
    [0007]本專利技術的有益效果:本專利技術基于bert模型,將實體抽取任務轉換成問答任務,同時基于機制,通過構建領域內問答模板,從而提高模型的泛化能力,并且在圖譜生成階段通過前處理和后處理構建專業的政務輿情知識圖譜。在數據的抽取上通過政務標簽抽取出了政務輿情相關性比較強的輿情數據,增強了標注工作的有效性;本方法在實體對齊中使用了實體向量提取和合并的技術,在準確性得到保證的情況下,減少了標注和模型訓練的工作量;在圖譜生成的過程中針對性的使用了前后處理的規則,有效過濾了雜質。
    附圖說明
    [0008]圖1為專利技術的政務知識圖譜流程圖;
    [0009]圖2為專利技術的采集的數據輸入狀態示例;
    [0010]圖3為專利技術的實體抽取過程的數據示例;
    [0011]圖4為專利技術的關系抽取過程的數據示例;
    [0012]圖5為專利技術的數據導出到圖數據庫后得到的圖譜系統示例。
    具體實施方式
    [0013]實施例1
    [0014]如圖1、圖2所示,本專利技術公開了一種政務輿情知識圖譜的構建方法,以藍鷹風險預警平臺構建和使用政務知識圖譜過程為例,具體步驟如下:步驟一、算法建模,具體包括:步驟11、從數據庫通過政務標簽拉取輿情數據,標簽主要分類為社會民生、司法公正、政府治理、教育醫療衛生、公共安全、社會治安、城市形象、公共政策、環保情況、涉交通、食品安全;對數據做基礎的ETL處理;步驟12、使用現有的通用實體提取模型來提取實體;步驟13、對文章和通用模型提取出來的實體進行數據標注,標注的節點定義如下:實體:人名、組織名、人群、地名;屬性key:一般為名詞或動詞,表達單個意思,不包含連詞;屬性value:一般為其它實體,時間地點等有確切意思的詞組;標簽:一般為實體的特征、實體的類型、描述實體的形容詞,可以是名詞或形容詞為結尾的描述,不包含連詞;別稱:一般為實體的其它形式稱呼,一般為外語名、昵稱、外號、名字、簡稱,只標注可以從原文推測出的別稱;把標注完的數據丟進知識圖譜模型進行訓練;步驟14、實體對齊:對通用知識圖譜模型抽取的實體生成實體向量,對政務知識圖譜模型抽取的實體生成實體向量,把2個不同圖譜的實體向量映射到同一個特征空間;步驟二、圖譜生成,具體包括:在藍鷹風險預警平臺生成專項分析,將生成數據傳
    給知識圖譜子系統,知識圖譜子系統對數據進行如下步驟的處理:步驟21、數據前處理:由于輸入的數據會出現很多雜音,該模塊主要用于過濾部分輸入;過濾邏輯具體為:根據內容進行去重:取文章的前50個字,并去掉
    \n\s等符號后進行去重;根據標題去除雜報:過濾掉標題中出現“早餐”,“日報”,“大主播串場”,“華爾街見聞”,“分鐘新聞”,“朝聞天下”,“60秒新聞”,“看世界”,“讀懂世界”,“悅讀新鮮事”,“早報”,“早知道”,“熱搜榜”,“早讀”,“早新聞”,“一分鐘新聞”,“速覽”,“早報”,“速看”,“39號視頻”,“周五嘉賓”,“微語微報”,“簡報”,“晚報”,“朝聞報”,“一周文藝”,“資訊”的文章;根據內容中時間出現次數去除雜報:過濾掉內容列出現4個以上時間的文章;根據命中關鍵字進行去重:過濾掉命中關鍵詞不是在同一句話中命中的文章;步驟22、實體抽?。焊鶕嶓w識別模型,識別內容中出現的品牌、地名、文娛作品、人名、組織名,如圖3所示;步驟23、關系抽取:把實體識別抽取到的品牌、地名、文娛作品、人名、組織名,分別作為主語,與文章一起作為輸入,抽取與該主語有關的謂語和賓語,形成三元組知識,如圖4所示;步驟24、后處理:把關系抽取模塊抽取到的三元組知識,進行清洗和過濾,最終輸出可以導入到Neo4j的節點csv和關系csv;過濾邏輯為:同一篇文章相同的三元組只保留一個;對主謂賓去特殊符號;對主謂賓繁轉簡;規則洗掉部分三元組,如過濾謂語出現主編、記者、編輯等三元組、過濾主語或賓語出現微博等三元組;過濾雙邊關系,保留聲量大的那個反向的三元組;過濾掉聲量小于3且賓語類型不等于“其他”的三元組;同一個主語和賓語,只保留聲量最高的關系;節點只保留聲量前20的出度關系;去掉節點數少于5的連通圖;步驟25、圖譜系統展示:把數據導出到圖數據庫,圖譜產品調用然后展示,如圖5所示。
    [0015]本文中未詳細說明的部分為現有技術。
    [0016]上述雖然對本專利技術的具體實施例作了詳細說明,本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種政務輿情知識圖譜的構建方法,其特征在于,包括步驟如下:步驟一、算法建模,具體包括:步驟11、從數據輸入模塊獲取數據:采集全網新聞、論壇、微博、微信、視頻、APP、紙媒的數據,數據入庫的時候會打上政務各個分類相關的標簽,根據設定的標簽獲取政務輿情數據;步驟12、通用模型抽取:使用現有的通用實體抽取模型抽取政務輿情數據中的實體;步驟13、數據標注:確定標注規范,對通過通用實體抽取模型抽取的政務數據進行標注,把標注的數據放入模型進行訓練;步驟14、實體對齊:對抽取的數據生成實體向量,并將通用知識圖譜和政務知識圖譜映射到同一個特征空間,進行實體對齊最后生成算法模型;步驟二、圖譜生成,具體包括:進行專項分析,將生成數據傳給知識圖譜子系統,知識圖譜子系統對數據進行如下步驟的處理:步驟21...

    【專利技術屬性】
    技術研發人員:陳學言田平王波,
    申請(專利權)人:廣東數源智匯科技有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 国产精品亚韩精品无码a在线| 无码中文字幕乱码一区| 最新高清无码专区| 无码精油按摩潮喷在播放| 免费无码H肉动漫在线观看麻豆| 精品国产V无码大片在线看| 免费无码黄网站在线看| 国产午夜激无码av毛片| 永久免费AV无码国产网站| 亚洲V无码一区二区三区四区观看| 九九在线中文字幕无码| 久久久无码一区二区三区| 综合国产在线观看无码| 伊人蕉久中文字幕无码专区| 精品无码久久久久国产动漫3d| 亚洲乱亚洲乱妇无码麻豆| 亚洲?V无码成人精品区日韩 | 精品人无码一区二区三区| 高潮潮喷奶水飞溅视频无码| 少妇中文无码高清| 免费无遮挡无码视频网站| 激情无码亚洲一区二区三区| 亚洲综合久久精品无码色欲| 精品无码人妻夜人多侵犯18| 日韩国产成人无码av毛片| 无码人妻AV一二区二区三区| 久久无码专区国产精品s| 久久久久无码专区亚洲av| 精品国产毛片一区二区无码| 免费A级毛片无码A| 黑人无码精品又粗又大又长| 久久精品无码专区免费| 国产成人午夜无码电影在线观看 | 狠狠精品干练久久久无码中文字幕 | 2019亚洲午夜无码天堂| 亚洲AV无码一区二区大桥未久| 伊人久久大香线蕉无码| 成人麻豆日韩在无码视频| 国产av激情无码久久| 亚洲一区二区三区无码影院|