• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    產業鏈構建方法、設備及存儲介質技術

    技術編號:33737198 閱讀:25 留言:0更新日期:2022-06-08 21:34
    本申請涉及一種產業鏈構建方法、設備及存儲介質,屬于計算機技術領域,其包括將產業鏈識別詞輸入預先訓練的詞聯想模型,得到詞匯集合;確定詞匯集合中每個產業鏈詞匯與企業詞匯之間的關聯度矩陣;基于關聯度矩陣的矩陣信息確定產業鏈詞匯與企業詞匯之間的關聯程度;對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將企業詞匯所屬的企業樣本數據的標簽設置為產業鏈詞匯對應的產業鏈識別詞;使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈;可以提高產業鏈構建的準確性和全面性;解決模糊匹配的數據結果的不全面和不準確、匹配的數據結果的匹配度高低以及各數據結果之間的關聯度問題。數據結果之間的關聯度問題。數據結果之間的關聯度問題。

    【技術實現步驟摘要】
    產業鏈構建方法、設備及存儲介質


    [0001]本申請涉及一種產業鏈構建方法、設備及存儲介質,屬于計算機


    技術介紹

    [0002]企業的產業鏈往往可以反映企業的經營能力,基于此,用戶往往需要根據企業數據識別對應的產業鏈。
    [0003]傳統的產業鏈構建方法,包括:用戶對獲取到的樣本企業數據打標簽,得到對應的產業鏈識別詞;使用樣本企業數據和對應的產業鏈識別詞訓練得到產業鏈構建模型,以識別企業數據對應的產業鏈。
    [0004]然而,人工打標簽存在數據標記不全的情況,這就會導致產業鏈構建模型的識別效果不佳的問題。

    技術實現思路

    [0005]本申請提供了一種產業鏈構建方法、設備及存儲介質,可以解決人工構建產業鏈識別詞有限,導致產業鏈識別詞覆蓋不全的問題、同時可以解決模糊匹配的數據結果的不全面和不準確問題、匹配的數據結果的匹配度高低問題以及各數據結果之間的關聯度問題。本申請提供如下技術方案:
    [0006]一方面,提供一種產業鏈構建方法,所述方法包括:
    [0007]獲取人工定義的產業鏈識別詞;
    [0008]獲取企業樣本數據;
    [0009]使用已有數據集訓練詞聯想模型,所述詞聯想模型用于生成所述已有數據集中每個詞匯的關聯詞匯;
    [0010]對所述企業樣本數據進行處理,得到企業詞匯;
    [0011]將所述產業鏈識別詞輸入所述詞聯想模型,得到所述產業鏈識別詞的詞匯集合;
    [0012]確定所述詞匯集合中每個產業鏈詞匯與所述企業詞匯之間的關聯度矩陣;
    [0013]基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度;
    [0014]對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將所述企業詞匯所屬的企業樣本數據的標簽設置為所述產業鏈詞匯對應的產業鏈識別詞;
    [0015]確定識別出的產業鏈識別詞是否符合預設訓練要求;
    [0016]在所述識別出的產業鏈識別詞符合所述預設訓練要求的情況下,使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈。
    [0017]可選地,所述使用已有數據集訓練詞聯想模型,包括:
    [0018]將所述已有數據集輸入預先構建的詞向量生成模型,得到詞向量空間;
    [0019]將所述已有數據集輸入預訓練得到的BERT模型,得到所述已有數據集的詞語表述分布;
    [0020]獲取基于所述詞語表述分布輸入的語義修正操作;
    [0021]基于所述語義修正操作修正所述詞向量空間的上下文語義,得到修正后的詞向量空間;
    [0022]使用修正后的詞向量空間修正所述詞向量生成模型,得到所述詞聯想模型。
    [0023]可選地,所述矩陣信息包括至少兩種;所述基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度,包括:
    [0024]獲取每種矩陣信息對應的信息權重;
    [0025]計算各個矩陣信息的量化值與對應的信息權重的乘積之和,得到所述關聯程度。
    [0026]可選地,所述矩陣信息包括以下信息中的至少兩種:
    [0027]所述關聯度矩陣中的關聯度;
    [0028]所述關聯度矩陣的方差;
    [0029]所述關聯度矩陣的均值;
    [0030]所述關聯度矩陣的維度;以及
    [0031]所述關聯度矩陣中每個關聯度對應的詞性。
    [0032]可選地,所述方法還包括:
    [0033]在關聯程度大于或等于預設程度閾值的產業鏈詞匯和企業詞匯為至少兩組的情況下,獲取所述產業鏈識別詞的細分搜索詞和所述細分搜索詞的關聯權重,所述關聯權重用于指示所述細分搜索詞與不同企業詞匯之間的關聯程度;
    [0034]基于所述關聯權重從至少兩組產業鏈詞匯和企業詞匯中篩選出一組產業鏈詞匯和企業詞匯。
    [0035]可選地,所述基于所述關聯權重從至少兩組產業鏈詞匯和企業詞匯中篩選出一組產業鏈詞匯和企業詞匯,包括:
    [0036]獲取每個企業詞匯與細分搜索詞之間的關聯度;
    [0037]將每個企業詞匯和細分搜索詞輸入預設的正則表達式,得到匹配結果;所述匹配結果包括匹配和不匹配;
    [0038]結合所述關聯權重、所述關聯度和所述匹配結果,計算每組產業鏈詞匯和企業詞匯的關聯分值;
    [0039]從至少兩組產業鏈詞匯和企業詞匯中篩選出關聯分值最高的一組產業鏈詞匯和企業詞匯。
    [0040]可選地,所述對所述企業樣本數據進行處理,得到企業詞匯,包括:
    [0041]對所述企業樣本數據進行分詞處理,得到所述企業詞匯;
    [0042]或者,
    [0043]對所述企業樣本數據進行分詞處理及語法分析;去除語法不正確的企業樣本數據,得到所述企業詞匯;
    [0044]或者,
    [0045]對所述企業樣本數據進行分詞處理,并去除所述企業樣本數據中的否定表述,得到所述企業詞匯。
    [0046]可選地,所述方法還包括:
    [0047]在所述識別出的產業鏈識別詞不符合所述預設訓練要求的情況下,對所述詞聯想
    模型進行調整,并觸發執行所述使用已有數據集訓練詞聯想模型的步驟。
    [0048]另一方面,一種電子設備,所述電子設備包括處理器和存儲器;所述存儲器中存儲有程序,所述程序由所述處理器加載并執行以實現上述產業鏈構建方法。
    [0049]另一方面,一種計算機可讀存儲介質,所述存儲介質中存儲有程序,所述程序被處理器執行時用于實現上述產業鏈構建方法。
    [0050]本申請的有益效果至少包括:通過獲取人工定義的產業鏈識別詞;獲取企業樣本數據;使用已有數據集訓練詞聯想模型,詞聯想模型用于生成已有數據集中每個詞匯的關聯詞匯;對企業樣本數據進行處理,得到企業詞匯;將產業鏈識別詞輸入詞聯想模型,得到產業鏈識別詞的詞匯集合;確定詞匯集合中每個產業鏈詞匯與企業詞匯之間的關聯度矩陣;基于關聯度矩陣的矩陣信息,確定產業鏈詞匯與企業詞匯之間的關聯程度;對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將企業詞匯所屬的企業樣本數據的標簽設置為產業鏈詞匯對應的產業鏈識別詞;確定識別出的產業鏈識別詞是否符合預設訓練要求;在識別出的產業鏈識別詞符合預設訓練要求的情況下,使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈;可以解決人工構建產業鏈識別詞有限,導致產業鏈識別詞覆蓋不全的問題;由于可以通過詞聯想模型擴展產業鏈識別詞的關聯詞匯,因此,可以使得產業鏈識別詞覆蓋更多的企業數據,提高產業鏈構建的準確性和全面性。
    [0051]同時,可以數值化關聯度評分顯示數據結果與相應產業鏈標記詞的關聯度高低,并提高確定產業鏈識別詞與企業數據之間關聯程度的準確性。
    [0052]另外,在關聯程度大于或等于預設程度閾值的產業鏈詞匯和企業詞匯為至少兩組的情況下,通過獲取產業鏈識別詞的細分搜索詞和細分搜索詞的關聯權重;基于關聯權重從至少兩組產業鏈詞匯和企業詞匯中篩選出一組產業鏈詞匯和企本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種產業鏈構建方法,其特征在于,所述方法包括:獲取人工定義的產業鏈識別詞;獲取企業樣本數據;使用已有數據集訓練詞聯想模型,所述詞聯想模型用于生成所述已有數據集中每個詞匯的關聯詞匯;對所述企業樣本數據進行處理,得到企業詞匯;將所述產業鏈識別詞輸入所述詞聯想模型,得到所述產業鏈識別詞的詞匯集合;確定所述詞匯集合中每個產業鏈詞匯與所述企業詞匯之間的關聯度矩陣;基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度;對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將所述企業詞匯所屬的企業樣本數據的標簽設置為所述產業鏈詞匯對應的產業鏈識別詞;確定識別出的產業鏈識別詞是否符合預設訓練要求;在所述識別出的產業鏈識別詞符合所述預設訓練要求的情況下,使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈。2.根據權利要求1所述的方法,其特征在于,所述使用已有數據集訓練詞聯想模型,包括:將所述已有數據集輸入預先構建的詞向量生成模型,得到詞向量空間;將所述已有數據集輸入預訓練得到的BERT模型,得到所述已有數據集的詞語表述分布;獲取基于所述詞語表述分布輸入的語義修正操作;基于所述語義修正操作修正所述詞向量空間的上下文語義,得到修正后的詞向量空間;使用修正后的詞向量空間修正所述詞向量生成模型,得到所述詞聯想模型。3.根據權利要求1所述的方法,其特征在于,所述矩陣信息包括至少兩種;所述基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度,包括:獲取每種矩陣信息對應的信息權重;計算各個矩陣信息的量化值與對應的信息權重的乘積之和,得到所述關聯程度。4.根據權利要求3所述的方法,其特征在于,所述矩陣信息包括以下信息中的至少兩種:所述關聯度矩陣中的關聯度;所述關聯度矩陣的方差;所述關聯度矩陣的均值;所述關聯度矩陣的維度;以及所述關聯度矩陣中每個關聯度對應的詞性。5....

    【專利技術屬性】
    技術研發人員:夏曉東戴曄嚴世振儲建洲錢雨辰
    申請(專利權)人:江蘇風云科技服務有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 人妻丰满熟妇AV无码区乱| 亚洲va无码专区国产乱码| 无码国模国产在线无码精品国产自在久国产 | 免费无码作爱视频| 91久久精品无码一区二区毛片| 无码中文人妻在线一区二区三区 | 亚洲国产av高清无码| 无码色AV一二区在线播放| 亚洲av无码一区二区三区观看| 无码精品蜜桃一区二区三区WW| 无码福利写真片视频在线播放| 国产做无码视频在线观看浪潮| 色视频综合无码一区二区三区| 精品国产aⅴ无码一区二区| 国产成A人亚洲精V品无码| 久久国产精品无码网站| 无码人妻aⅴ一区二区三区| 色爱无码AV综合区| 久久青青草原亚洲AV无码麻豆| 国产精品一级毛片无码视频| 精品无码国产一区二区三区麻豆 | 亚洲AV无码乱码麻豆精品国产| 一本无码中文字幕在线观| 久久久久亚洲AV无码专区桃色| 无码精品蜜桃一区二区三区WW| 无码av专区丝袜专区| 色国产色无码色欧美色在线| 亚洲AV成人噜噜无码网站| 亚洲成无码人在线观看| 精品无码人妻一区二区三区品| 亚洲AV无码国产丝袜在线观看| 国精无码欧精品亚洲一区| 中文字幕无码一区二区免费| 中文字幕丰满乱子伦无码专区| 国产午夜无码片免费| 国产精品视频一区二区三区无码 | 无码一区二区三区免费视频| 曰韩无码无遮挡A级毛片| 永久免费无码日韩视频| 久久国产三级无码一区二区| 国产精品无码av在线播放|