"/>
【技術(shù)實現(xiàn)步驟摘要】
一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法
[0001]本申請涉及大數(shù)據(jù)領(lǐng)域,具體而言,涉及一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法
。
技術(shù)介紹
[0002]在數(shù)據(jù)大量增長的形勢下,文本數(shù)據(jù)也占有不小的比例,且文本數(shù)據(jù)的知識密度高,具有很強的挖掘價值
。
例如,可以通過對數(shù)據(jù)的挖掘?qū)崿F(xiàn)橫向領(lǐng)域或某一垂直領(lǐng)域的知識圖譜的構(gòu)建,從而利用構(gòu)建的知識圖譜完成更貼近實際的應(yīng)用,例如智能問答軟件
。
[0003]現(xiàn)有的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方式,通常是采用
Bert
?
BGRU
?
CRF
聯(lián)合的模型,整體處理過程復(fù)雜,數(shù)據(jù)處理過程中計算量極大,運行效率低,難以應(yīng)用于垂直領(lǐng)域知識圖譜的高效構(gòu)建
。
技術(shù)實現(xiàn)思路
[0004]本申請實施例的目的在于提供一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,以高效地實現(xiàn)垂直領(lǐng)域知識圖譜的構(gòu)建
。
[0005]為了實現(xiàn)上述目的,本申請的實施例通過如下方式實現(xiàn):第一方面,本申請實施例提供一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,知識圖譜本體結(jié)構(gòu)包含實體
、
屬性及實體間關(guān)系,所述方法包括:獲取文本數(shù)據(jù)集,其中,文本數(shù)據(jù)集包含多條文本信息;利用預(yù)設(shè)的知識抽取模型對文本數(shù)據(jù)集中的文本信息進行知識抽取,提取出實體
、
屬性及實體間關(guān)系,其中,知識抽取模型用于對文本信息進行分詞
、
編碼
、
解碼
、
序列標(biāo)注 ...
【技術(shù)保護點】
【技術(shù)特征摘要】
1.
一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,知識圖譜本體結(jié)構(gòu)包含實體
、
屬性及實體間關(guān)系,所述方法包括:獲取文本數(shù)據(jù)集,其中,文本數(shù)據(jù)集包含多條文本信息;利用預(yù)設(shè)的知識抽取模型對文本數(shù)據(jù)集中的文本信息進行知識抽取,提取出實體
、
屬性及實體間關(guān)系,其中,知識抽取模型用于對文本信息進行分詞
、
編碼
、
解碼
、
序列標(biāo)注和知識抽取;基于抽取的知識進行知識融合和存儲,完成知識圖譜的構(gòu)建
。2.
根據(jù)權(quán)利要求1所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,知識抽取模型包括分詞單元
、
編碼單元
、
解碼單元
、
抽取單元,利用預(yù)設(shè)的知識抽取模型對文本數(shù)據(jù)集中的文本信息進行知識抽取,提取出實體
、
屬性及實體間關(guān)系,包括:利用分詞單元對文本信息進行分詞,得到分詞結(jié)果;利用編碼單元對分詞結(jié)果進行特征提取和重編碼,得到文本重編碼結(jié)果;利用解碼單元對文本重編碼結(jié)果進行解碼,得到解碼結(jié)果;利用抽取單元對解碼結(jié)果進行標(biāo)簽概率計算,得到標(biāo)簽序列,并對標(biāo)簽序列進行重排序,最終確定出實體
、
屬性及實體間關(guān)系
。3.
根據(jù)權(quán)利要求2所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,采用
HanLP
工具作為文本信息的分詞單元,利用分詞單元對文本信息進行分詞,得到分詞結(jié)果,包括:對文本信息進行分詞:,,,其中,為輸入的文本信息,表示文本信息的分詞結(jié)果,對應(yīng)文本信息的語義依賴樹,呈有向無環(huán)圖,為節(jié)點集合,為邊集
。4.
根據(jù)權(quán)利要求3所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,利用編碼單元對分詞結(jié)果進行特征提取和重編碼,得到文本重編碼結(jié)果,包括:對分詞結(jié)果進行向量化,對于分詞結(jié)果中的第個詞語,假設(shè)由個單字組成,單字分別由表示,則詞語的特征值為:,則:,其中,為文本信息的特征向量;使用圖卷積神經(jīng)網(wǎng)絡(luò)對特征向量進行重編碼,最終得到文本重編碼結(jié)果:,,
,;其中,為文本重編碼結(jié)果,圖卷積神經(jīng)網(wǎng)絡(luò)共有層,每層個單元,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中每個單元的輸出構(gòu)成的序列向量,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的輸出,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元與第層中第個單元之間的權(quán)重,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的輸出,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的偏置項,為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入
。5.
根據(jù)權(quán)利要求4所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,采用
LSTM
作為解碼單元,利用解碼單元對文本重編碼結(jié)果進行解碼,得到解碼結(jié)果,包括:采用
LSTM
對文本重編碼結(jié)果進行解碼:,,,其中,為第個時間步的輸出門,為激活函數(shù),
、
和為權(quán)重,分別控制當(dāng)前輸入對輸出門的影響程度
、
前一時刻的隱藏狀態(tài)對輸出門的影響程度和當(dāng)前時刻的
LSTM
單元狀態(tài)對輸出門的影響...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:董愛平,戴曄,李彩榮,劉世聞,王飛,顧璇,嚴(yán)典范,
申請(專利權(quán))人:江蘇風(fēng)云科技服務(wù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。