System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及資源大數據,尤其涉及一種圖譜構建方法和裝置、電子設備及存儲介質。
技術介紹
1、文化數據屬于核心信息資源,特別是文化基因數據,地位同生物基因數據一樣重要,如何從海量的現有文獻和不斷產生的最新文獻中了解這些文化數據,已然成為了一個極富有挑戰性的問題。
2、相關技術中,現有的分析文化數據構建基因庫圖譜的方法存在構建周期長、消耗大量的人力資源以及數據的準確性難以保證的問題。
3、綜上,相關技術中存在的技術問題有待得到改善。
技術實現思路
1、本申請實施例的主要目的在于提出一種圖譜構建方法和裝置、電子設備及存儲介質,旨在縮短基因庫圖譜的構建周期,并且提高數據的準確性。
2、為實現上述目的,本申請實施例的一方面提出了一種圖譜構建方法,所述方法包括以下步驟:
3、獲取文本數據,拆分所述文本數據得到句子數據;
4、對所述句子數據進行語義分析,得到資源數據模型;
5、獲取目標標簽,將所述資源數據模型中的字段與所述目標標簽進行關聯,形成基因圖譜;
6、對所述基因圖譜進行重復節點的檢測和合并,進而進行節點的融合,得到資源基因庫圖譜。
7、在一些實施例中,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
8、對所述句子數據進行分詞處理,得到動詞、名詞和形容詞;
9、從所述句子數據中識別第一時間值,根據第一時間值、所述動詞、所述名詞和所述形容詞形成實體。
1
11、從所述文本數據中提取所述實體的屬性值;
12、根據所述實體以及所述實體的屬性值以所述四元組的形式形成基本實體模型;
13、基于所述基本實體模型構建資源數據模型。
14、在一些實施例中,四元組包括時序、第一所述實體、所述關系和第二所述實體,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
15、從所述文本數據中提取所述實體之間的關系;
16、根據所述實體以及所述實體之間的關系以所述四元組的形式形成基本實體模型;
17、基于所述基本實體模型構建資源數據模型。
18、在一些實施例中,所述獲取目標標簽,將所述資源數據模型中的字段與所述目標標簽進行關聯,形成基因圖譜,包括:
19、聚合檢索所述實體的第一時間值形成唯一性清單,將所述唯一性清單存儲到時間隊列中;
20、根據所述時間隊列進行資源數據模型的數據融合,所述數據融合包括數據合并、數據上下位關系合并、數據的屬性定義合并。
21、在一些實施例中,所述獲取目標標簽,將所述資源數據模型中的字段與所述目標標簽進行關聯,形成基因圖譜,包括:
22、根據目標時間檢索所述資源數據模型,得到檢索結果,所述目標時間屬于所述時間隊列;
23、根據所述目標時間生成目標標簽;
24、在所述資源數據模型中為所述檢索結果添加所述目標標簽。
25、在一些實施例中,所述對所述基因圖譜進行重復節點的檢測和合并,進而進行節點的融合,得到資源基因庫圖譜,包括:
26、對所述基因圖譜進行重復檢測,得到多個重復節點;
27、根據權重計算公式計算所述重復節點的權重;
28、將權重最大的所述重復節點作為結果節點,將其他節點和所述結果節點進行屬性及關聯關系的融合,得到資源基因庫圖譜,所述其他節點為所有所述重復節點中除所述結果節點之外的節點。
29、為實現上述目的,本申請實施例的另一方面提出了一種圖譜構建裝置,所述裝置包括:
30、文本拆分模塊,用于獲取文本數據,拆分所述文本數據得到句子數據;
31、語義分析模塊,用于對所述句子數據進行語義分析,得到資源數據模型;
32、標簽關聯模塊,用于獲取目標標簽,將所述資源數據模型中的字段與所述目標標簽進行關聯,形成基因圖譜,
33、合并模塊,用于對所述基因圖譜進行重復節點的檢測和合并,進而進行節點的融合,得到資源基因庫圖譜。
34、為實現上述目的,本申請實施例的另一方面提出了一種電子設備,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現前面所述的方法。
35、為實現上述目的,本申請實施例的另一方面提出了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現前面所述的方法。
36、本申請實施例至少包括以下有益效果:本申請提供一種圖譜構建方法和裝置、電子設備及存儲介質,該方案通過獲取文本數據,拆分文本數據得到句子數據,通過自動化拆分減少了人工干預,提高了處理速度;對句子數據進行語義分析,得到資源數據模型,有利于理解和分析文本內容,減少人力耗費;獲取目標標簽,將資源數據模型中的字段與目標標簽進行關聯,形成基因圖譜采用算法自動化關聯,有利于縮短基因庫的構建周期;對基因圖譜進行重復節點的檢測和合并,進而進行節點的融合,得到資源基因庫圖譜,提高了基因圖譜中數據的準確性和信息密度,有利于防止數據重復。
本文檔來自技高網...【技術保護點】
1.一種圖譜構建方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
3.根據權利要求2所述的方法,其特征在于,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
4.根據權利要求2所述的方法,其特征在于,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
5.根據權利要求1所述的方法,其特征在于,所述獲取目標標簽,將所述資源數據模型中的字段與所述目標標簽進行關聯,形成基因圖譜,包括:
6.根據權利要求5所述的方法,其特征在于,所述獲取目標標簽,將所述資源數據模型中的字段與所述目標標簽進行關聯,形成基因圖譜,包括:
7.根據權利要求1所述的方法,其特征在于,所述對所述基因圖譜進行重復節點的檢測和合并,進而進行節點的融合,得到資源基因庫圖譜,包括:
8.一種圖譜構建裝置,其特征在于,所述裝置包括:
9.一種電子設備,其特征在于,所述電子設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法。
...【技術特征摘要】
1.一種圖譜構建方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
3.根據權利要求2所述的方法,其特征在于,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
4.根據權利要求2所述的方法,其特征在于,所述對所述句子數據進行語義分析,得到資源數據模型,包括:
5.根據權利要求1所述的方法,其特征在于,所述獲取目標標簽,將所述資源數據模型中的字段與所述目標標簽進行關聯,形成基因圖譜,包括:
6.根據權利要求5所述的方法,其特征在于,所述獲取目標標簽,將...
【專利技術屬性】
技術研發人員:徐學鋒,李昊晨,趙青松,閆樹虎,婁帥威,
申請(專利權)人:中國電信股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。