"/>
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法技術(shù)

    技術(shù)編號:39895793 閱讀:19 留言:0更新日期:2023-12-30 13:08
    本申請?zhí)峁┮环N基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,知識圖譜本體結(jié)構(gòu)包含實體

    【技術(shù)實現(xiàn)步驟摘要】
    一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法


    [0001]本申請涉及大數(shù)據(jù)領(lǐng)域,具體而言,涉及一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法
    。

    技術(shù)介紹

    [0002]在數(shù)據(jù)大量增長的形勢下,文本數(shù)據(jù)也占有不小的比例,且文本數(shù)據(jù)的知識密度高,具有很強的挖掘價值

    例如,可以通過對數(shù)據(jù)的挖掘?qū)崿F(xiàn)橫向領(lǐng)域或某一垂直領(lǐng)域的知識圖譜的構(gòu)建,從而利用構(gòu)建的知識圖譜完成更貼近實際的應(yīng)用,例如智能問答軟件
    。
    [0003]現(xiàn)有的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方式,通常是采用
    Bert
    ?
    BGRU
    ?
    CRF
    聯(lián)合的模型,整體處理過程復(fù)雜,數(shù)據(jù)處理過程中計算量極大,運行效率低,難以應(yīng)用于垂直領(lǐng)域知識圖譜的高效構(gòu)建


    技術(shù)實現(xiàn)思路

    [0004]本申請實施例的目的在于提供一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,以高效地實現(xiàn)垂直領(lǐng)域知識圖譜的構(gòu)建

    [0005]為了實現(xiàn)上述目的,本申請的實施例通過如下方式實現(xiàn):第一方面,本申請實施例提供一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,知識圖譜本體結(jié)構(gòu)包含實體

    屬性及實體間關(guān)系,所述方法包括:獲取文本數(shù)據(jù)集,其中,文本數(shù)據(jù)集包含多條文本信息;利用預(yù)設(shè)的知識抽取模型對文本數(shù)據(jù)集中的文本信息進行知識抽取,提取出實體

    屬性及實體間關(guān)系,其中,知識抽取模型用于對文本信息進行分詞

    編碼
    、
    解碼
    、
    序列標(biāo)注和知識抽??;基于抽取的知識進行知識融合和存儲,完成知識圖譜的構(gòu)建

    [0006]結(jié)合第一方面,在第一方面的第一種可能的實現(xiàn)方式中,知識抽取模型包括分詞單元
    、
    編碼單元
    、
    解碼單元
    、
    抽取單元,利用預(yù)設(shè)的知識抽取模型對文本數(shù)據(jù)集中的文本信息進行知識抽取,提取出實體
    、
    屬性及實體間關(guān)系,包括:利用分詞單元對文本信息進行分詞,得到分詞結(jié)果;利用編碼單元對分詞結(jié)果進行特征提取和重編碼,得到文本重編碼結(jié)果;利用解碼單元對文本重編碼結(jié)果進行解碼,得到解碼結(jié)果;利用抽取單元對解碼結(jié)果進行標(biāo)簽概率計算,得到標(biāo)簽序列,并對標(biāo)簽序列進行重排序,最終確定出實體
    、
    屬性及實體間關(guān)系
    。
    [0007]結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第一方面的第二種可能的實現(xiàn)方式中,采用
    HanLP
    工具作為文本信息的分詞單元,利用分詞單元對文本信息進行分詞,得到分詞結(jié)果,包括:對文本信息進行分詞:,,,
    其中,為輸入的文本信息,表示文本信息的分詞結(jié)果,對應(yīng)文本信息的語義依賴樹,呈有向無環(huán)圖,為節(jié)點集合,為邊集

    [0008]結(jié)合第一方面的第二種可能的實現(xiàn)方式,在第一方面的第三種可能的實現(xiàn)方式中,利用編碼單元對分詞結(jié)果進行特征提取和重編碼,得到文本重編碼結(jié)果,包括:對分詞結(jié)果進行向量化,對于分詞結(jié)果中的第個詞語,假設(shè)由個單字組成,單字分別由表示,則詞語的特征值為:,則:,其中,為文本信息的特征向量;使用圖卷積神經(jīng)網(wǎng)絡(luò)對特征向量進行重編碼,最終得到文本重編碼結(jié)果:,,,;其中,為文本重編碼結(jié)果,圖卷積神經(jīng)網(wǎng)絡(luò)共有層,每層個單元,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中每個單元的輸出構(gòu)成的序列向量,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的輸出,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元與第層中第個單元之間的權(quán)重,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的輸出,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的偏置項,為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入
    。
    [0009]結(jié)合第一方面的第三種可能的實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式中,采用
    LSTM
    作為解碼單元,利用解碼單元對文本重編碼結(jié)果進行解碼,得到解碼結(jié)果,包括:采用
    LSTM
    對文本重編碼結(jié)果進行解碼:,,,其中,為第個時間步的輸出門,為激活函數(shù),
    、
    和為權(quán)重,分別控制當(dāng)前輸入對輸出門的影響程度

    前一時刻的隱藏狀態(tài)對輸出門的影響程度和當(dāng)前時刻的
    LSTM
    單元狀態(tài)對輸出門的影響程度,,為當(dāng)前時間步的
    LSTM
    單元狀態(tài),為偏置向量,用于調(diào)整輸出門的輸出值;為第個時間步的
    LSTM
    最終輸出,為解碼結(jié)果
    。
    [0010]結(jié)合第一方面的第四種可能的實現(xiàn)方式,在第一方面的第五種可能的實現(xiàn)方式
    中,采用全連接層和改進的
    softmax
    函數(shù)構(gòu)建抽取單元,全連接層與解碼單元連接,標(biāo)簽?zāi)P筒捎盟脑M,利用抽取單元對解碼結(jié)果進行標(biāo)簽概率計算,得到標(biāo)簽序列,包括:采用全連接層對解碼器的輸出進行線性變換,得到向量:,其中,為與標(biāo)簽數(shù)量相關(guān)的向量,權(quán)重矩陣,為偏置項,;采用改進的
    softmax
    函數(shù)計算標(biāo)簽的概率:,,,其中,為從隨機噪聲分布中采樣的變量,為控制噪聲大小的控制參數(shù),為第個四元組,四元組中為詞語位置標(biāo)簽,表示詞語在句子中的位置;為指標(biāo)類型標(biāo)簽,表示詞語的屬性類型;為主賓類型標(biāo)簽,表示詞語的詞性;為關(guān)系類型標(biāo)簽,表示句子中三元組的關(guān)系類型;為標(biāo)簽序列

    [0011]結(jié)合第一方面的第五種可能的實現(xiàn)方式,在第一方面的第六種可能的實現(xiàn)方式中,對標(biāo)簽序列進行重排序,最終確定出實體

    屬性及實體間關(guān)系,包括:對標(biāo)簽序列中的各詞對應(yīng)的詞語位置標(biāo)簽和主賓類型標(biāo)簽進行分析,確定出實體;對標(biāo)簽序列中的各詞對應(yīng)的關(guān)系類型標(biāo)簽進行分析,確定出實體間關(guān)系;對標(biāo)簽序列中的各詞對應(yīng)的指標(biāo)類型標(biāo)簽計算
    TF
    ?
    IDF
    值,按照
    TF
    ?
    IDF
    值對指標(biāo)類型標(biāo)簽進行重排序,確定出屬性
    。
    [0012]結(jié)合第一方面的第六種可能的實現(xiàn)方式,在第一方面的第七種可能的實現(xiàn)方式中,對標(biāo)簽序列中的各詞對應(yīng)的指標(biāo)類型標(biāo)簽計算
    TF
    ?
    IDF
    值,按照
    TF
    ?
    IDF
    值對指標(biāo)類型標(biāo)簽進行重排序,確定出屬性,包括:對于標(biāo)簽序列中的各詞對應(yīng)的指標(biāo)類型標(biāo)簽采用以下公式計算
    TF
    ?
    IDF
    值:,其中,為標(biāo)簽序列中的第個詞對應(yīng)的指標(biāo)類型標(biāo)簽,為指標(biāo)類型標(biāo)簽在與第個實體在文本信息中共同出現(xiàn)的頻次,為指標(biāo)類型標(biāo)簽與文本信息中所有實體在文本信息中共同出現(xiàn)的頻次,為指標(biāo)類型標(biāo)簽在整個語料庫中出現(xiàn)的總頻次,為指標(biāo)類型標(biāo)簽在文本信息中出現(xiàn)的總頻次;利用
    TF
    ?
    IDF
    值對指標(biāo)類型標(biāo)簽進行重排序,以確定出屬性
    。
    [0013]結(jié)合第一方面,在第一方面的第八種可能的實現(xiàn)方式中,基于抽取的知識進行知識融合和存儲,完成知識圖譜的構(gòu)建,包括:對抽取的知識進行知識融合;采用
    Neo4j
    圖數(shù)據(jù)庫對知識融合后的知識進行存儲
    本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】

    【技術(shù)特征摘要】
    1.
    一種基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,知識圖譜本體結(jié)構(gòu)包含實體
    、
    屬性及實體間關(guān)系,所述方法包括:獲取文本數(shù)據(jù)集,其中,文本數(shù)據(jù)集包含多條文本信息;利用預(yù)設(shè)的知識抽取模型對文本數(shù)據(jù)集中的文本信息進行知識抽取,提取出實體
    、
    屬性及實體間關(guān)系,其中,知識抽取模型用于對文本信息進行分詞
    、
    編碼

    解碼

    序列標(biāo)注和知識抽取;基于抽取的知識進行知識融合和存儲,完成知識圖譜的構(gòu)建
    。2.
    根據(jù)權(quán)利要求1所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,知識抽取模型包括分詞單元
    、
    編碼單元
    、
    解碼單元

    抽取單元,利用預(yù)設(shè)的知識抽取模型對文本數(shù)據(jù)集中的文本信息進行知識抽取,提取出實體
    、
    屬性及實體間關(guān)系,包括:利用分詞單元對文本信息進行分詞,得到分詞結(jié)果;利用編碼單元對分詞結(jié)果進行特征提取和重編碼,得到文本重編碼結(jié)果;利用解碼單元對文本重編碼結(jié)果進行解碼,得到解碼結(jié)果;利用抽取單元對解碼結(jié)果進行標(biāo)簽概率計算,得到標(biāo)簽序列,并對標(biāo)簽序列進行重排序,最終確定出實體

    屬性及實體間關(guān)系
    。3.
    根據(jù)權(quán)利要求2所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,采用
    HanLP
    工具作為文本信息的分詞單元,利用分詞單元對文本信息進行分詞,得到分詞結(jié)果,包括:對文本信息進行分詞:,,,其中,為輸入的文本信息,表示文本信息的分詞結(jié)果,對應(yīng)文本信息的語義依賴樹,呈有向無環(huán)圖,為節(jié)點集合,為邊集
    。4.
    根據(jù)權(quán)利要求3所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,利用編碼單元對分詞結(jié)果進行特征提取和重編碼,得到文本重編碼結(jié)果,包括:對分詞結(jié)果進行向量化,對于分詞結(jié)果中的第個詞語,假設(shè)由個單字組成,單字分別由表示,則詞語的特征值為:,則:,其中,為文本信息的特征向量;使用圖卷積神經(jīng)網(wǎng)絡(luò)對特征向量進行重編碼,最終得到文本重編碼結(jié)果:,,
    ,;其中,為文本重編碼結(jié)果,圖卷積神經(jīng)網(wǎng)絡(luò)共有層,每層個單元,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中每個單元的輸出構(gòu)成的序列向量,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的輸出,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元與第層中第個單元之間的權(quán)重,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的輸出,為圖卷積神經(jīng)網(wǎng)絡(luò)的第層中第個單元的偏置項,為圖卷積神經(jīng)網(wǎng)絡(luò)的輸入
    。5.
    根據(jù)權(quán)利要求4所述的基于文本大數(shù)據(jù)的知識圖譜構(gòu)建方法,其特征在于,采用
    LSTM
    作為解碼單元,利用解碼單元對文本重編碼結(jié)果進行解碼,得到解碼結(jié)果,包括:采用
    LSTM
    對文本重編碼結(jié)果進行解碼:,,,其中,為第個時間步的輸出門,為激活函數(shù),

    和為權(quán)重,分別控制當(dāng)前輸入對輸出門的影響程度
    、
    前一時刻的隱藏狀態(tài)對輸出門的影響程度和當(dāng)前時刻的
    LSTM
    單元狀態(tài)對輸出門的影響...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:董愛平戴曄李彩榮,劉世聞,王飛顧璇,嚴(yán)典范,
    申請(專利權(quán))人:江蘇風(fēng)云科技服務(wù)有限公司,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 爆乳无码AV一区二区三区| 无码AV片在线观看免费| 免费A级毛片无码久久版 | 亚洲av无码不卡私人影院| 波多野结AV衣东京热无码专区| 亚洲爆乳无码一区二区三区| 精品国产一区二区三区无码| 亚洲国产精品无码久久青草 | 久久人妻av无码中文专区| 精品久久久久久无码不卡| 中文字幕乱码人妻无码久久| 无码日韩AV一区二区三区| 人妻少妇乱子伦无码视频专区| 国产人成无码视频在线观看| 无码人妻丰满熟妇区96| 亚洲av无码av制服另类专区| 国产福利电影一区二区三区久久老子无码午夜伦不 | 亚洲av永久无码精品网址| 国产成人无码AV一区二区 | 精品无码中文视频在线观看| 6080YYY午夜理论片中无码| 日日摸日日碰夜夜爽无码| 亚洲日韩中文无码久久| 国产强伦姧在线观看无码| 成人麻豆日韩在无码视频| 一本无码人妻在中文字幕免费| 亚洲av永久无码精品古装片| 国产亚洲精品无码专区| 亚洲Av无码乱码在线观看性色 | 久青草无码视频在线观看| 久久久精品天堂无码中文字幕 | 无码任你躁久久久久久久| 日韩放荡少妇无码视频| 亚洲日韩精品A∨片无码加勒比| 久久精品中文字幕无码绿巨人| 亚洲AV无码一区二区乱子伦| 免费无码又爽又刺激高潮视频| 中文无码字慕在线观看| 中文午夜人妻无码看片| 亚洲精品GV天堂无码男同| 人妻少妇看A偷人无码精品|