System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于自然語言處理,具體的說是數據挖掘及知識圖譜構建方法、系統、電子設備及介質。
技術介紹
1、內部審計作為企業決策科學化、管理規范化、風險防控常態化的一項重要制度設計,是企業強化內部控制不可或缺的重要手段。
2、在內部審計資源投入有限的現實條件下,需要內部審計通過技術創新進一步提高現有審計團隊的審計效率,聚焦企業內部核心風險,擴展審計覆蓋面,這成為當前內部審計創新與質量提升的重要課題。此時,積極創新大數據環境下的審計方式和工作模式、提升數據存儲管理效率和規范化水平、加快實現信息技術與審計業務的深度融合、推進審計全覆蓋具有很強的現實意義。
3、如授權公告號為cn112347265b的中國專利公開了一種知識圖譜構建方法,包括:對待處理的句子進行分詞,得到多個單獨詞;識別所述多個單獨詞中的實體,得到兩個一組的實體對;對于每個所述實體對,獲取所述句子的句向量;根據所述句向量,提取所述句子的表示特征;對所述表示特征進行特征篩選,屏蔽其中的噪聲特征;根據所述表示特征預測所述實體對的實體關系;根據所述實體對和對應的實體關系構建知識圖譜。該專利技術能夠有效地在構建知識圖譜的過程中,將句子中的無用噪聲特征濾除,提高實體關系預測的準確性。
4、如授權公告號為cn109189943b的中國專利公開了一種能力知識抽取方法,包括:數據采集,從網絡以及被網絡連接的物體中獲取文本數據;數據識別,采用自然語言處理方法對所述文本數據進行處理;數據理解,根據具體規則對經過自然語言處理的文本數據進行標簽;數據篩選,通過多
5、上述專利的缺陷與不足:1)無法針對電力工程內審領域的結構化文本數據、半結構化文本數據和非結構化文本數據進行處理;2)無法應用在電力工程內審領域中。
技術實現思路
1、針對現有技術的不足,本專利技術提出了數據挖掘及知識圖譜構建方法、系統、電子設備及介質,利用數據挖掘技術,收集電力工程內審領域的相關數據,對收集到的電力工程內審領域的相關數據進行預處理,對預處理后的電力工程內審領域的相關數據中的實體和實體關系信息識別抽取,利用自然語言模型提取預處理后的電力工程內審領域的相關數據中的特征詞,并通過特征機器學習模型對特征詞進行分類,生成電力工程內審領域的知識圖譜,并把控生成電力工程內審領域知識圖譜的質量,進行補缺和優化,利用先進的數字化管理手段提升工程項目智能審計水平,實現內部審計智能化、規范化,提高數據分析質量和工作效率,并為后期輔助決策和高級應用提供智慧支撐,對預防和降低電力企業的經營風險具有深刻的理論和現實意義。
2、為實現上述目的,本專利技術提供如下技術方案:
3、數據挖掘及知識圖譜構建方法,包括以下具體步驟:
4、步驟s1:利用數據挖掘技術,收集電力工程內審領域的相關數據;
5、步驟s2:對收集到的電力工程內審領域的相關數據進行預處理;
6、步驟s3:對預處理后的電力工程內審領域的相關數據中的實體和實體關系信息識別抽取;
7、步驟s4:利用自然語言模型提取預處理后的電力工程內審領域的相關數據中的特征詞,并通過特征機器學習模型對特征詞進行分類;
8、步驟s5:生成電力工程內審領域的知識圖譜,并把控生成電力工程內審領域知識圖譜的質量,進行補缺和優化。
9、具體的,所述步驟s1中的電力工程內審領域的相關數據包括:結構化文本數據、半結構化文本數據和非結構化文本數據。
10、具體的,所述步驟s2中的預處理包括:數據清洗和處理半結構化文本數據和非結構化文本數據,數據清洗用于去除重復值和補充缺失值,
11、所述處理半結構化文本數據和非結構化文本數據具體步驟包括:
12、(a)輸入采集的電力工程內審領域的相關數據,并識別所有半結構化文本數據和非結構化文本數據中涉及的特征屬性;
13、(b)對半結構化文本數據和非結構化文本數據中段落進行識別和劃分;
14、(c)利用分詞技術,對半結構化文本數據和非結構化文本數據進行分詞。
15、具體的,所述步驟s4的具體步驟為:
16、步驟s401:利用分詞算法,對預處理后的電力工程內審領域的相關數據進行分詞和提取;
17、步驟s402:通過tf-idf算法提取分詞后的電力工程內審領域的相關數據的特征詞;
18、步驟s403:利用詞聚類組件將提取出的電力工程內審領域的相關數據的特征詞進行聚類,當出現新的特征詞,根據特征詞聚類和聚類組件,對語義進行識別;
19、步驟s404:對電力工程內審領域的相關數據的特征詞進行加權計算,得到加權計算的電力工程內審領域的相關數據特征后,放入分類器中進行分類,分類器由決策樹組成。
20、具體的,所述步驟s5的具體步驟為:
21、步驟s501:基于業務知識特征庫中的業務特征實體數據、文本特征數據進行聚類劃分,從業務知識特征庫中提取出業務知識;
22、步驟s502:將業務知識根據電力工程單位的結構建立關聯關系,形成電力工程單位的整個財務業務體系;
23、步驟s503:將具有框架體系的業務知識按照結構化數據存儲的方式,存儲在內審知識圖譜中,構建成電力工程內審領域的知識圖譜。
24、數據挖掘及知識圖譜構建系統,包括:數據采集模塊,數據預處理模塊,實體和實體關系識別模塊,特征詞分類模塊和知識圖譜生成優化模塊;
25、所述數據采集模塊,用于利用數據挖掘技術,收集電力工程內審領域的相關數據;
26、所述數據預處理模塊,用于對收集到的電力工程內審領域的相關數據進行預處理;
27、所述實體和實體關系識別模塊,用于對預處理后的電力工程內審領域的相關數據中的實體和實體關系信息識別抽取;
28、所述特征詞分類模塊,用于利用自然語言模型提取預處理后的電力工程內審領域的相關數據中的特征詞,并通過特征機器學習模型對特征詞進行分類;
29、所述知識圖譜生成優化模塊,用于生成電力工程內審領域的知識圖譜,并把控生成電力工程內審領域知識圖譜的質量,進行補缺和優化。
30、一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現數據挖掘及知識圖譜構建方法的步驟。
31、一種計算機可讀存儲介質,其上存儲有計算機指令,當計算機指令運行時執行數據挖掘及知識圖譜構建方法的步驟。
32、與現有技術相比,本專利技術的有本文檔來自技高網...
【技術保護點】
1.數據挖掘及知識圖譜構建方法,其特征在于,應用于電力工程內審領域,包括以下具體步驟:
2.如權利要求1所述的數據挖掘及知識圖譜構建方法,其特征在于,所述步驟S1中的電力工程內審領域的相關數據包括:結構化文本數據、半結構化文本數據和非結構化文本數據。
3.如權利要求2所述的數據挖掘及知識圖譜構建方法,其特征在于,所述步驟S2中的預處理包括:數據清洗和處理半結構化文本數據和非結構化文本數據,數據清洗用于去除重復值和補充缺失值,
4.如權利要求3所述的數據挖掘及知識圖譜構建方法,其特征在于,所述步驟S4的具體步驟為:
5.如權利要求4所述的數據挖掘及知識圖譜構建方法,其特征在于,所述步驟S5的具體步驟為:
6.數據挖掘及知識圖譜構建系統,其基于權利要求1-5中任一項所述的數據挖掘及知識圖譜構建方法實現,其特征在于,包括:數據采集模塊,數據預處理模塊,實體和實體關系識別模塊,特征詞分類模塊和知識圖譜生成優化模塊;
7.一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機
8.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機指令,當計算機指令運行時執行權利要求1-5中任一項所述的數據挖掘及知識圖譜構建方法的步驟。
...【技術特征摘要】
1.數據挖掘及知識圖譜構建方法,其特征在于,應用于電力工程內審領域,包括以下具體步驟:
2.如權利要求1所述的數據挖掘及知識圖譜構建方法,其特征在于,所述步驟s1中的電力工程內審領域的相關數據包括:結構化文本數據、半結構化文本數據和非結構化文本數據。
3.如權利要求2所述的數據挖掘及知識圖譜構建方法,其特征在于,所述步驟s2中的預處理包括:數據清洗和處理半結構化文本數據和非結構化文本數據,數據清洗用于去除重復值和補充缺失值,
4.如權利要求3所述的數據挖掘及知識圖譜構建方法,其特征在于,所述步驟s4的具體步驟為:
5.如權利要求4所述的數據挖掘及知識圖譜構建方...
【專利技術屬性】
技術研發人員:仲昊,王燕燕,楊棟,李立鴻,施圣東,魏來,顏志雷,張小惠,蔣衛芳,王雨,韓雨,錢明慧,祝穎,
申請(專利權)人:南京遠能電力工程有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。