本發明專利技術涉及數據處理技術領域,提出了一種基于知識圖譜技術的全棧式電價咨詢與管理系統,包括:獲取原始矩陣及當前詞性矩陣;獲取歷史詞性矩陣;對原始矩陣進行奇異值分解,獲取每個奇異值的第一重構矩陣,根據歷史詞性矩陣獲取詞性分布曲線,根據第一重構矩陣的詞性分布及當前詞性矩陣,與詞性分布曲線的差異獲取每個奇異值的干擾信息程度;獲取每個奇異值的若干第二重構矩陣,根據第二重構矩陣之間的相似程度獲取每個奇異值的語義信息量;獲取每個奇異值的選擇程度,得到第三重構矩陣;獲取歷史重構矩陣,根據第三重構矩陣及歷史重構矩陣進行聚類,生成知識圖譜。本發明專利技術旨在對政策文檔進行降維并聚類以提高知識圖譜準確性。檔進行降維并聚類以提高知識圖譜準確性。檔進行降維并聚類以提高知識圖譜準確性。
【技術實現步驟摘要】
一種基于知識圖譜技術的全棧式電價咨詢與管理系統
[0001]本專利技術涉及數據處理領域,具體涉及一種基于知識圖譜技術的全棧式電價咨詢與管理系統。
技術介紹
[0002]構建新能源為主的新型電力系統是實現可持續發展,推動碳達峰和碳中和目標的重要措施;隨著新能源建設的大力發展,可再生能源的政策也在不斷發生變化;由于其發電類型及消納方式等因素不同,其享受的補助標準及適用撥付原則也不盡相同;全棧式平臺是打破“信息孤島”,實現資源信息共享,構建完整高效體系結構的一種有效方式;而知識圖譜技術通過可視化技術來完整地描述知識資源信息及其之間的相互聯系。因此本專利技術創新地應用知識圖譜技術構建全棧式電價咨詢與管理系統,形成新能源政策文件池,支持智能查詢、信息提取、關聯分析等功能,實現政策體系完整、政策歷史脈絡清晰展現等目的,幫助相關人員切實弄通悟透政策要點,進而規避政策執行風險。
[0003]在根據采集的政策文檔構建知識圖譜的過程中,往往是對采集的政策文檔進行處理,并通過數據預處理及知識融合等操作,把具有相關聯系的政策文檔進行聚類;而在聚類過程中,由于文本數據的特性,存在文本向量維度高且干擾信息較大的缺點,使得在進行相關聯系的政策文檔聚類時,得到的聚類結果不準確,因此往往需要在前處理過程中對政策文檔中的文本數據進行降維。
[0004]奇異值分解是一種應用較為廣泛的數據降維方法,對政策文檔得到的詞矩陣進行奇異值分解,通過保存較大奇異值對應的子矩陣并進行重構即可得到降維后的詞矩陣;然而在奇異值分解過程中,由于較大的奇異值對應的子矩陣中包含的信息較多,這些子矩陣中在包含有效信息的同時還包含較多干擾信息;同時可能出現由于奇異值較小,但其對應的子矩陣中包含重要語義信息而被刪除,進而使重構后的詞矩陣包含有干擾信息且一些重要語義信息丟失,造成在政策文檔聚類過程中的錯誤分類,進而使知識圖譜不夠準確而影響到全棧式電價咨詢與管理系統的正常應用。
技術實現思路
[0005]本專利技術提供一種基于知識圖譜技術的全棧式電價咨詢與管理系統,以解決現有的政策文檔降維后丟失重要信息的問題,所采用的技術方案具體如下:本專利技術一個實施例提供了一種基于知識圖譜技術的全棧式電價咨詢與管理系統,該系統包括:政策文檔采集模塊:采集當前政策文檔數據,獲取原始矩陣及當前詞性矩陣;獲取若干歷史政策文檔數據,得到每個歷史政策文檔數據的歷史詞矩陣及歷史詞性矩陣;數據降維重構模塊:對原始矩陣進行奇異值分解,獲取若干奇異值及對應子矩陣,分別將每個奇異值對應子矩陣去除后進行矩陣重構得到每個奇異值的第一重構矩陣,根據第一重構矩陣中每個矩陣元素在原始矩陣中相同矩陣元素所對應分詞的詞性,獲取第一重
構矩陣的第一詞性矩陣;根據當前詞性矩陣及第一詞性矩陣獲取每一行的當前詞性曲線及第一詞性曲線,根據歷史詞性矩陣獲取每一行的詞性分布曲線,根據第一詞性曲線及當前詞性曲線與詞性分布曲線的差異獲取每個奇異值及對應子矩陣的干擾信息程度;根據組合奇異值數量獲取每個奇異值對應的包含該奇異值的奇異值組合,根據奇異值組合獲取每個奇異值的若干第二重構矩陣,根據第二重構矩陣中每個矩陣元素在原始矩陣中相同矩陣元素所對應分詞的詞性,獲取第二重構矩陣的第二詞性矩陣,獲取第二詞性矩陣中每一行的第二詞性曲線,獲取第二重構矩陣中每一行的句向量,根據兩個第二重構矩陣中相同行之間的第二詞性曲線及句向量之間的關系獲取兩個第二重構矩陣之間的語義相似程度,將任意一個奇異值的所有任意兩個第二重構矩陣之間的語義相似程度的均值作為該奇異值及對應子矩陣的語義信息量;根據干擾信息程度及語義信息量獲取每個奇異值及對應子矩陣的選擇程度,將所有選擇程度降序排列,選取較大的組合奇異值數量的選擇程度,根據選取的選擇程度對應的奇異值及對應子矩陣獲取第三重構矩陣;知識圖譜生成模塊,對每個歷史政策文檔數據降維得到歷史重構矩陣,根據第三重構矩陣及歷史重構矩陣進行聚類,根據聚類結果生成知識圖譜。
[0006]可選的,所述獲取原始矩陣及當前詞性矩陣,包括的具體方法為:通過分詞處理獲取當前政策文檔數據的若干分詞,以當前政策文檔數據中的每個句子為一行,將每個句子中的分詞利用數字進行排序,每個矩陣元素代表一個分詞,得到的矩陣記為原始矩陣;獲取當前政策文檔數據中每個分詞的詞性,以當前政策文檔數據中的每個句子為一行,將每個句子中的分詞的詞性利用數字進行排序,每個矩陣元素代表一個分詞的詞性,得到的矩陣記為當前詞性矩陣。
[0007]可選的,所述根據當前詞性矩陣及第一詞性矩陣獲取每一行的當前詞性曲線及第一詞性曲線,包括的具體方法為:根據當前詞性矩陣及第一詞性矩陣,以橫坐標為列數,縱坐標為詞性數值,分別獲取第一詞性矩陣中每一行的第一詞性曲線,及當前詞性矩陣中每一行的當前詞性曲線。
[0008]可選的,所述根據歷史詞性矩陣獲取每一行的詞性分布曲線,包括的具體方法為:獲取歷史詞性矩陣中每一行的歷史詞性曲線,對所有歷史詞性矩陣中的相同行的歷史詞性曲線,通過最小二乘法進行擬合,得到的曲線記為該行的詞性分布曲線。
[0009]可選的,所述獲取每個奇異值及對應子矩陣的干擾信息程度,包括的具體方法為:其中,表示第個奇異值及對應子矩陣的干擾信息程度,表示詞性矩陣中的行數,表示第行的詞性分布曲線,表示第行的當前詞性曲線,表示第個奇異值第行的第一詞性曲線,表示兩條曲線之間的DTW距離。
[0010]可選的,所述獲取兩個第二重構矩陣之間的語義相似程度,包括的具體方法為:
其中,表示第個奇異值的第個第二重構矩陣和第個第二重構矩陣之間的語義相似程度,表示語義信息常量,表示第個奇異值的第個第二重構矩陣中第行的句向量,表示第個奇異值的第個第二重構矩陣中第行的句向量,表示第個奇異值的第個第二詞性矩陣中第行的第二詞性曲線,表示第個奇異值的第個第二詞性矩陣中第行的第二詞性曲線,表示兩個向量之間的余弦相似度,表示兩條曲線的之間DTW距離。
[0011]可選的,所述對每個歷史政策文檔數據降維得到歷史重構矩陣,包括的具體方法為:以任意一個歷史政策文檔數據為例,獲取該歷史政策文檔數據的歷史詞矩陣及歷史詞性矩陣,對歷史詞矩陣進行奇異值分解,按照干擾信息程度及語義信息量的獲取方法得到該歷史詞矩陣中每個奇異值的干擾信息程度及語義信息量,進而得到每個奇異值的選擇程度,重構得到該歷史詞矩陣對應的歷史政策文檔數據的歷史重構矩陣。
[0012]本專利技術的有益效果是:本專利技術通過分析政策文檔獲取詞矩陣,并對詞矩陣進行奇異值分解后,根據每個奇異值及對應子矩陣進行重構詞矩陣,根據重構前后詞矩陣的干擾信息差異及語義信息差異,來量化每個奇異值及對應子矩陣的干擾信息程度以及語義信息量,進而獲取每個奇異值及對應的矩陣的選擇程度;避免了傳統的奇異值分解進行降維的過程中,僅保留較大的奇異值而不考慮其中含有干擾信息的缺點,并刪除包含有部分有效信息的較小奇異值而使得有效信息被刪除的錯誤操作;使得降維后的政策文檔數據表征的語義信息更加準確,進而實現政策文檔精準聚類。
附圖說明
[0013]為了更清楚地說明本本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于知識圖譜技術的全棧式電價咨詢與管理系統,其特征在于,該系統包括:政策文檔采集模塊:采集當前政策文檔數據,獲取原始矩陣及當前詞性矩陣;獲取若干歷史政策文檔數據,得到每個歷史政策文檔數據的歷史詞矩陣及歷史詞性矩陣;數據降維重構模塊:對原始矩陣進行奇異值分解,獲取若干奇異值及對應子矩陣,分別將每個奇異值對應子矩陣去除后進行矩陣重構得到每個奇異值的第一重構矩陣,根據第一重構矩陣中每個矩陣元素在原始矩陣中相同矩陣元素所對應分詞的詞性,獲取第一重構矩陣的第一詞性矩陣;根據當前詞性矩陣及第一詞性矩陣獲取每一行的當前詞性曲線及第一詞性曲線,根據歷史詞性矩陣獲取每一行的詞性分布曲線,根據第一詞性曲線及當前詞性曲線與詞性分布曲線的差異獲取每個奇異值及對應子矩陣的干擾信息程度;根據組合奇異值數量獲取每個奇異值對應的包含該奇異值的奇異值組合,根據奇異值組合獲取每個奇異值的若干第二重構矩陣,根據第二重構矩陣中每個矩陣元素在原始矩陣中相同矩陣元素所對應分詞的詞性,獲取第二重構矩陣的第二詞性矩陣,獲取第二詞性矩陣中每一行的第二詞性曲線,獲取第二重構矩陣中每一行的句向量,根據兩個第二重構矩陣中相同行之間的第二詞性曲線及句向量之間的關系獲取兩個第二重構矩陣之間的語義相似程度,將任意一個奇異值的所有任意兩個第二重構矩陣之間的語義相似程度的均值作為該奇異值及對應子矩陣的語義信息量;根據干擾信息程度及語義信息量獲取每個奇異值及對應子矩陣的選擇程度,將所有選擇程度降序排列,選取較大的組合奇異值數量的選擇程度,根據選取的選擇程度對應的奇異值及對應子矩陣獲取第三重構矩陣;知識圖譜生成模塊,對每個歷史政策文檔數據降維得到歷史重構矩陣,根據第三重構矩陣及歷史重構矩陣進行聚類,根據聚類結果生成知識圖譜。2.根據權利要求1所述的一種基于知識圖譜技術的全棧式電價咨詢與管理系統,其特征在于,所述獲取原始矩陣及當前詞性矩陣,包括的具體方法為:通過分詞處理獲取當前政策文檔數據的若干分詞,以當前政策文檔數據中的每個句子為一行,將每個句子中的分詞利用數字進行排序,每個矩陣元素代表一個分詞,得到的矩陣記為原始矩陣;獲取當前政策文檔數據中每個分詞的詞性,以當前政策文檔數據中的每個句子為一行,將每個句子中的分詞的詞性利用數字進行排序,每個矩陣元素代表一個分詞的詞性,得...
【專利技術屬性】
技術研發人員:洪楊,羅衛,
申請(專利權)人:北京智蟻楊帆科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。