System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
【國(guó)外來華專利技術(shù)】
本專利技術(shù)涉及工業(yè)領(lǐng)域,特別是工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法、裝置、電子設(shè)備及介質(zhì)。
技術(shù)介紹
1、知識(shí)圖譜(knowledge?graph)以結(jié)構(gòu)化的形式描述客觀世界中的概念、實(shí)體及其關(guān)系。它是融合了認(rèn)知計(jì)算、知識(shí)表示與推理、信息檢索與提取、自然語言處理、web技術(shù)、機(jī)器學(xué)習(xí)與大數(shù)據(jù)挖掘的交叉學(xué)科。
2、近些年工業(yè)領(lǐng)域開始青睞將知識(shí)圖譜作為圖形顯示方法,以實(shí)現(xiàn)工業(yè)設(shè)備數(shù)據(jù)采集、知識(shí)分類、知識(shí)存儲(chǔ)和知識(shí)分析等應(yīng)用。將知識(shí)圖譜引入工業(yè)領(lǐng)域解決了工業(yè)領(lǐng)域的知識(shí)構(gòu)建的問題。但是,工業(yè)領(lǐng)域的信息相比其它領(lǐng)域更加雜亂無序,且很多信息來源于非結(jié)構(gòu)化文本。因此對(duì)此信息進(jìn)行語義分析、提取出可用于繪制知識(shí)圖譜的知識(shí)單元并找出知識(shí)單元之間的聯(lián)系就顯得極為重要。
3、然而,構(gòu)建知識(shí)圖譜需要大量工作。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的實(shí)施方式提出工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法、裝置、電子設(shè)備及介質(zhì)。
2、在第一方面中,提供一種工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法。所述方法包括:
3、從工業(yè)領(lǐng)域的第一子領(lǐng)域中的第一數(shù)據(jù)源獲取第一非結(jié)構(gòu)化數(shù)據(jù),其中第一非結(jié)構(gòu)化數(shù)據(jù)帶有知識(shí)標(biāo)注;
4、對(duì)第一非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行機(jī)器學(xué)習(xí),以生成適于提取知識(shí)的第一模型;
5、基于第一模型,從第一數(shù)據(jù)源提供的第二非結(jié)構(gòu)化數(shù)據(jù)中提取第一知識(shí),其中第二非結(jié)構(gòu)化數(shù)據(jù)不帶有知識(shí)標(biāo)注;
6、從工業(yè)領(lǐng)域的第二子領(lǐng)域中的第二數(shù)據(jù)源獲取第一結(jié)構(gòu)化數(shù)據(jù)和第一半結(jié)構(gòu)化數(shù)據(jù);
8、從第一半結(jié)構(gòu)化數(shù)據(jù)中提取第三知識(shí);以及
9、基于第一知識(shí)、第二知識(shí)和第三知識(shí),構(gòu)建融合第一子領(lǐng)域和第二子領(lǐng)域的知識(shí)圖譜,其中第一知識(shí)、第二知識(shí)和第三知識(shí)均以三元組的形式表示。
10、因此,可以構(gòu)建融合多個(gè)子領(lǐng)域的知識(shí)圖譜。
11、優(yōu)選地,其中第一子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比大于預(yù)定閾值,且第二子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比小于所述閾值。
12、因此,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)占比較大的子領(lǐng)域,從非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí),對(duì)于非結(jié)構(gòu)化數(shù)據(jù)占比較小的子領(lǐng)域,則從結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)。因此,通過融合獲取的知識(shí)圖譜實(shí)現(xiàn)了領(lǐng)域廣泛性、數(shù)據(jù)全面性與實(shí)現(xiàn)難度之間的良好折衷。
13、優(yōu)選地,其中第一子領(lǐng)域與第二子領(lǐng)域?qū)儆谙嗤墓I(yè)類別。
14、因此,對(duì)于相互接近的子領(lǐng)域,通過這種差異化的知識(shí)提取策略,可以取得良好的折衷效果。
15、優(yōu)選地,其中第一子領(lǐng)域與第二子領(lǐng)域?qū)儆谙嗤墓I(yè)子類別。
16、因此,對(duì)于相互特別接近的子領(lǐng)域,通過這種差異化的知識(shí)提取策略,可以取得更好的折衷效果。
17、優(yōu)選地,所述方法還包括:
18、從第一數(shù)據(jù)源獲取第二結(jié)構(gòu)化數(shù)據(jù)和第二半結(jié)構(gòu)化數(shù)據(jù);
19、從第二結(jié)構(gòu)化數(shù)據(jù)中提取第四知識(shí);
20、從第二半結(jié)構(gòu)化數(shù)據(jù)中提取第五知識(shí);
21、其中基于第一知識(shí)、第二知識(shí)和第三知識(shí),構(gòu)建融合第一子領(lǐng)域和第二子領(lǐng)域的知識(shí)圖譜包括:
22、基于第一知識(shí)、第二知識(shí)、第三知識(shí)、第四知識(shí)和第五知識(shí),構(gòu)建知識(shí)圖譜。
23、因此,可以進(jìn)一步豐富知識(shí)圖譜。
24、優(yōu)選地,其中構(gòu)建融合第一子領(lǐng)域和第二子領(lǐng)域的知識(shí)圖譜包括:
25、基于第一知識(shí)、第四知識(shí)和第五知識(shí),構(gòu)建第一子領(lǐng)域的知識(shí)圖譜;
26、基于第二知識(shí)和第三知識(shí),構(gòu)建第二子領(lǐng)域的知識(shí)圖譜;
27、將第一子領(lǐng)域的知識(shí)圖譜和第二子領(lǐng)域的知識(shí)圖譜組合成第一子領(lǐng)域和第二子領(lǐng)域的知識(shí)圖譜;
28、其中將第一子領(lǐng)域的知識(shí)圖譜中的實(shí)體的屬性與第二子領(lǐng)域的知識(shí)圖譜中的實(shí)體的相應(yīng)屬性進(jìn)行對(duì)比,確定第一子領(lǐng)域的知識(shí)圖譜中的實(shí)體與第二子領(lǐng)域的知識(shí)圖譜中的實(shí)體之間的相似度;當(dāng)相似度高于預(yù)設(shè)閾值時(shí),組合第一子領(lǐng)域的知識(shí)圖譜中的實(shí)體與第二子領(lǐng)域的知識(shí)圖譜中的實(shí)體。
29、因此,通過組合相似度高的實(shí)體,提高了知識(shí)圖譜的準(zhǔn)確度。
30、在第二方面中,提供一種工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建裝置,所述裝置包括:
31、第一獲取模塊,其被配置成從工業(yè)領(lǐng)域的第一子領(lǐng)域中的第一數(shù)據(jù)源獲取第一非結(jié)構(gòu)化數(shù)據(jù),其中第一非結(jié)構(gòu)化數(shù)據(jù)帶有知識(shí)標(biāo)注;
32、執(zhí)行模塊,其被配置成對(duì)第一非結(jié)構(gòu)化數(shù)據(jù)執(zhí)行機(jī)器學(xué)習(xí),以生成適于提取知識(shí)的第一模型;
33、第一提取模塊,其被配置成基于第一模型,從第一數(shù)據(jù)源提供的第二非結(jié)構(gòu)化數(shù)據(jù)中提取第一知識(shí),其中第二非結(jié)構(gòu)化數(shù)據(jù)不帶有知識(shí)標(biāo)注;
34、第二獲取模塊,其被配置成從工業(yè)領(lǐng)域的第二子領(lǐng)域中的第二數(shù)據(jù)源獲取第一結(jié)構(gòu)化數(shù)據(jù)和第一半結(jié)構(gòu)化數(shù)據(jù);
35、第二提取模塊,其被配置成從第一結(jié)構(gòu)化數(shù)據(jù)中提取第二知識(shí);
36、第三提取模塊,其被配置成從第一半結(jié)構(gòu)化數(shù)據(jù)中提取第三知識(shí);以及
37、構(gòu)建模塊,其被配置成基于第一知識(shí)、第二知識(shí)和第三知識(shí),構(gòu)建融合第一子領(lǐng)域和第二子領(lǐng)域的知識(shí)圖譜,其中第一知識(shí)、第二知識(shí)和第三知識(shí)均以三元組的形式表示。
38、因此,可以構(gòu)建融合多個(gè)子領(lǐng)域的知識(shí)圖譜。
39、優(yōu)選地,第一子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比大于預(yù)定閾值,且第二子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比小于所述閾值。
40、因此,對(duì)于非結(jié)構(gòu)化數(shù)據(jù)占比較大的子領(lǐng)域,從非結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí),對(duì)于非結(jié)構(gòu)化數(shù)據(jù)占比較小的子領(lǐng)域,則從結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù)中提取知識(shí)。因此,通過融合獲取的知識(shí)圖譜實(shí)現(xiàn)了領(lǐng)域廣泛性、數(shù)據(jù)全面性與實(shí)現(xiàn)難度之間的良好折衷。
41、優(yōu)選地,其中第一子領(lǐng)域與第二子領(lǐng)域?qū)儆谙嗤墓I(yè)類別。
42、因此,對(duì)于相互接近的子領(lǐng)域,通過這種差異化的知識(shí)提取策略,可以取得良好的折衷效果。
43、優(yōu)選地,其中第一子領(lǐng)域與第二子領(lǐng)域?qū)儆谙嗤墓I(yè)子類別。
44、因此,對(duì)于相互特別接近的子領(lǐng)域,通過這種差異化的知識(shí)提取策略,可以取得更好的折衷效果。
45、優(yōu)選地,其中:
46、第一獲取模塊被配置成從第一數(shù)據(jù)源獲取第二結(jié)構(gòu)化數(shù)據(jù)和第二半結(jié)構(gòu)化數(shù)據(jù);
47、第一提取模塊被配置成從第二結(jié)構(gòu)化數(shù)據(jù)中提取第四知識(shí),且從第二半結(jié)構(gòu)化數(shù)據(jù)中提取第五知識(shí);
48、構(gòu)建模塊被配置成基于第一知識(shí)、第二知識(shí)、第三知識(shí)、第四知識(shí)和第五知識(shí),構(gòu)建知識(shí)圖譜。
49、因此,可以進(jìn)一步豐富知識(shí)圖譜。
50、優(yōu)選地,其中構(gòu)建模塊被配置成基于第一知識(shí)、第四知識(shí)和第五知識(shí)構(gòu)建第一子領(lǐng)域的知識(shí)圖譜;基于第二知識(shí)和第三知識(shí)構(gòu)建第二子領(lǐng)域的知識(shí)圖譜;將第一子領(lǐng)域的知識(shí)圖譜和第二子領(lǐng)域的知識(shí)圖譜組合成第一子領(lǐng)域和第二子領(lǐng)域的知識(shí)圖譜;其中將第一子領(lǐng)域的知識(shí)圖譜中的實(shí)體的屬性與第二子領(lǐng)域的知識(shí)圖譜中的實(shí)體的相應(yīng)屬性進(jìn)行對(duì)比,確定第一子領(lǐng)域的知識(shí)圖譜中的實(shí)體與第二子領(lǐng)域的知識(shí)圖譜中本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比大于預(yù)定閾值,且所述第二子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比小于所述閾值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一子領(lǐng)域與所述第二子領(lǐng)域?qū)儆谙嗤墓I(yè)類別。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第一子領(lǐng)域與所述第二子領(lǐng)域?qū)儆谙嗤墓I(yè)子類別。
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述構(gòu)建融合所述第一子領(lǐng)域和所述第二子領(lǐng)域的知識(shí)圖譜包括:
7.一種工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建裝置,其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比大于預(yù)定閾值,且所述第二子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比小于所述閾值。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一子領(lǐng)域與所述第二子領(lǐng)域?qū)儆谙嗤墓I(yè)類別。
10.根據(jù)權(quán)利要求9所述的裝置,其特
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于:
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述構(gòu)建模塊(407)被配置成基于所述第一知識(shí)、所述第四知識(shí)和所述第五知識(shí)構(gòu)建所述第一子領(lǐng)域的知識(shí)圖譜;基于所述第二知識(shí)和所述第三知識(shí)構(gòu)建所述第二子領(lǐng)域的知識(shí)圖譜;將所述第一子領(lǐng)域的所述知識(shí)圖譜和所述第二子領(lǐng)域的所述知識(shí)圖譜組合成所述第一子領(lǐng)域和所述第二子領(lǐng)域的知識(shí)圖譜;其中將所述第一子領(lǐng)域的所述知識(shí)圖譜中的實(shí)體的屬性與所述第二子領(lǐng)域的所述知識(shí)圖譜中的實(shí)體的相應(yīng)屬性進(jìn)行對(duì)比,確定所述第一子領(lǐng)域的所述知識(shí)圖譜中的所述實(shí)體與所述第二子領(lǐng)域的所述知識(shí)圖譜中的所述實(shí)體之間的相似度;當(dāng)所述相似度高于預(yù)設(shè)閾值時(shí),組合所述第一子領(lǐng)域的所述知識(shí)圖譜中的所述實(shí)體與所述第二子領(lǐng)域的所述知識(shí)圖譜中的所述實(shí)體。
13.一種電子設(shè)備,其特征在于,包括處理器(501)和存儲(chǔ)器(502),其中所述處理器(501)能夠執(zhí)行的應(yīng)用程序存儲(chǔ)在所述存儲(chǔ)器(502)中,以用于使所述處理器(501)執(zhí)行根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法。
14.一種計(jì)算機(jī)可讀介質(zhì),其特征在于,包括其上存儲(chǔ)的計(jì)算機(jī)可讀指令,其中所述計(jì)算機(jī)可讀指令用于根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法。
15.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序在被處理器執(zhí)行時(shí)執(zhí)行根據(jù)權(quán)利要求1至6中任一項(xiàng)所述的工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法。
...【技術(shù)特征摘要】
【國(guó)外來華專利技術(shù)】
1.一種工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比大于預(yù)定閾值,且所述第二子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比小于所述閾值。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一子領(lǐng)域與所述第二子領(lǐng)域?qū)儆谙嗤墓I(yè)類別。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第一子領(lǐng)域與所述第二子領(lǐng)域?qū)儆谙嗤墓I(yè)子類別。
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述構(gòu)建融合所述第一子領(lǐng)域和所述第二子領(lǐng)域的知識(shí)圖譜包括:
7.一種工業(yè)領(lǐng)域的知識(shí)圖譜的創(chuàng)建裝置,其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述第一子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比大于預(yù)定閾值,且所述第二子領(lǐng)域中的非結(jié)構(gòu)化數(shù)據(jù)占比小于所述閾值。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述第一子領(lǐng)域與所述第二子領(lǐng)域?qū)儆谙嗤墓I(yè)類別。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一子領(lǐng)域與所述第二子領(lǐng)域?qū)儆谙嗤墓I(yè)子類別。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于:
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張彬,阿明·魯,范順杰,陳智民,
申請(qǐng)(專利權(quán))人:西門子股份公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。