本申請涉及一種產業鏈構建方法、設備及存儲介質,屬于計算機技術領域,其包括將產業鏈識別詞輸入預先訓練的詞聯想模型,得到詞匯集合;確定詞匯集合中每個產業鏈詞匯與企業詞匯之間的關聯度矩陣;基于關聯度矩陣的矩陣信息確定產業鏈詞匯與企業詞匯之間的關聯程度;對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將企業詞匯所屬的企業樣本數據的標簽設置為產業鏈詞匯對應的產業鏈識別詞;使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈;可以提高產業鏈構建的準確性和全面性;解決模糊匹配的數據結果的不全面和不準確、匹配的數據結果的匹配度高低以及各數據結果之間的關聯度問題。數據結果之間的關聯度問題。數據結果之間的關聯度問題。
【技術實現步驟摘要】
產業鏈構建方法、設備及存儲介質
[0001]本申請涉及一種產業鏈構建方法、設備及存儲介質,屬于計算機
技術介紹
[0002]企業的產業鏈往往可以反映企業的經營能力,基于此,用戶往往需要根據企業數據識別對應的產業鏈。
[0003]傳統的產業鏈構建方法,包括:用戶對獲取到的樣本企業數據打標簽,得到對應的產業鏈識別詞;使用樣本企業數據和對應的產業鏈識別詞訓練得到產業鏈構建模型,以識別企業數據對應的產業鏈。
[0004]然而,人工打標簽存在數據標記不全的情況,這就會導致產業鏈構建模型的識別效果不佳的問題。
技術實現思路
[0005]本申請提供了一種產業鏈構建方法、設備及存儲介質,可以解決人工構建產業鏈識別詞有限,導致產業鏈識別詞覆蓋不全的問題、同時可以解決模糊匹配的數據結果的不全面和不準確問題、匹配的數據結果的匹配度高低問題以及各數據結果之間的關聯度問題。本申請提供如下技術方案:
[0006]一方面,提供一種產業鏈構建方法,所述方法包括:
[0007]獲取人工定義的產業鏈識別詞;
[0008]獲取企業樣本數據;
[0009]使用已有數據集訓練詞聯想模型,所述詞聯想模型用于生成所述已有數據集中每個詞匯的關聯詞匯;
[0010]對所述企業樣本數據進行處理,得到企業詞匯;
[0011]將所述產業鏈識別詞輸入所述詞聯想模型,得到所述產業鏈識別詞的詞匯集合;
[0012]確定所述詞匯集合中每個產業鏈詞匯與所述企業詞匯之間的關聯度矩陣;
[0013]基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度;
[0014]對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將所述企業詞匯所屬的企業樣本數據的標簽設置為所述產業鏈詞匯對應的產業鏈識別詞;
[0015]確定識別出的產業鏈識別詞是否符合預設訓練要求;
[0016]在所述識別出的產業鏈識別詞符合所述預設訓練要求的情況下,使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈。
[0017]可選地,所述使用已有數據集訓練詞聯想模型,包括:
[0018]將所述已有數據集輸入預先構建的詞向量生成模型,得到詞向量空間;
[0019]將所述已有數據集輸入預訓練得到的BERT模型,得到所述已有數據集的詞語表述分布;
[0020]獲取基于所述詞語表述分布輸入的語義修正操作;
[0021]基于所述語義修正操作修正所述詞向量空間的上下文語義,得到修正后的詞向量空間;
[0022]使用修正后的詞向量空間修正所述詞向量生成模型,得到所述詞聯想模型。
[0023]可選地,所述矩陣信息包括至少兩種;所述基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度,包括:
[0024]獲取每種矩陣信息對應的信息權重;
[0025]計算各個矩陣信息的量化值與對應的信息權重的乘積之和,得到所述關聯程度。
[0026]可選地,所述矩陣信息包括以下信息中的至少兩種:
[0027]所述關聯度矩陣中的關聯度;
[0028]所述關聯度矩陣的方差;
[0029]所述關聯度矩陣的均值;
[0030]所述關聯度矩陣的維度;以及
[0031]所述關聯度矩陣中每個關聯度對應的詞性。
[0032]可選地,所述方法還包括:
[0033]在關聯程度大于或等于預設程度閾值的產業鏈詞匯和企業詞匯為至少兩組的情況下,獲取所述產業鏈識別詞的細分搜索詞和所述細分搜索詞的關聯權重,所述關聯權重用于指示所述細分搜索詞與不同企業詞匯之間的關聯程度;
[0034]基于所述關聯權重從至少兩組產業鏈詞匯和企業詞匯中篩選出一組產業鏈詞匯和企業詞匯。
[0035]可選地,所述基于所述關聯權重從至少兩組產業鏈詞匯和企業詞匯中篩選出一組產業鏈詞匯和企業詞匯,包括:
[0036]獲取每個企業詞匯與細分搜索詞之間的關聯度;
[0037]將每個企業詞匯和細分搜索詞輸入預設的正則表達式,得到匹配結果;所述匹配結果包括匹配和不匹配;
[0038]結合所述關聯權重、所述關聯度和所述匹配結果,計算每組產業鏈詞匯和企業詞匯的關聯分值;
[0039]從至少兩組產業鏈詞匯和企業詞匯中篩選出關聯分值最高的一組產業鏈詞匯和企業詞匯。
[0040]可選地,所述對所述企業樣本數據進行處理,得到企業詞匯,包括:
[0041]對所述企業樣本數據進行分詞處理,得到所述企業詞匯;
[0042]或者,
[0043]對所述企業樣本數據進行分詞處理及語法分析;去除語法不正確的企業樣本數據,得到所述企業詞匯;
[0044]或者,
[0045]對所述企業樣本數據進行分詞處理,并去除所述企業樣本數據中的否定表述,得到所述企業詞匯。
[0046]可選地,所述方法還包括:
[0047]在所述識別出的產業鏈識別詞不符合所述預設訓練要求的情況下,對所述詞聯想
模型進行調整,并觸發執行所述使用已有數據集訓練詞聯想模型的步驟。
[0048]另一方面,一種電子設備,所述電子設備包括處理器和存儲器;所述存儲器中存儲有程序,所述程序由所述處理器加載并執行以實現上述產業鏈構建方法。
[0049]另一方面,一種計算機可讀存儲介質,所述存儲介質中存儲有程序,所述程序被處理器執行時用于實現上述產業鏈構建方法。
[0050]本申請的有益效果至少包括:通過獲取人工定義的產業鏈識別詞;獲取企業樣本數據;使用已有數據集訓練詞聯想模型,詞聯想模型用于生成已有數據集中每個詞匯的關聯詞匯;對企業樣本數據進行處理,得到企業詞匯;將產業鏈識別詞輸入詞聯想模型,得到產業鏈識別詞的詞匯集合;確定詞匯集合中每個產業鏈詞匯與企業詞匯之間的關聯度矩陣;基于關聯度矩陣的矩陣信息,確定產業鏈詞匯與企業詞匯之間的關聯程度;對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將企業詞匯所屬的企業樣本數據的標簽設置為產業鏈詞匯對應的產業鏈識別詞;確定識別出的產業鏈識別詞是否符合預設訓練要求;在識別出的產業鏈識別詞符合預設訓練要求的情況下,使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈;可以解決人工構建產業鏈識別詞有限,導致產業鏈識別詞覆蓋不全的問題;由于可以通過詞聯想模型擴展產業鏈識別詞的關聯詞匯,因此,可以使得產業鏈識別詞覆蓋更多的企業數據,提高產業鏈構建的準確性和全面性。
[0051]同時,可以數值化關聯度評分顯示數據結果與相應產業鏈標記詞的關聯度高低,并提高確定產業鏈識別詞與企業數據之間關聯程度的準確性。
[0052]另外,在關聯程度大于或等于預設程度閾值的產業鏈詞匯和企業詞匯為至少兩組的情況下,通過獲取產業鏈識別詞的細分搜索詞和細分搜索詞的關聯權重;基于關聯權重從至少兩組產業鏈詞匯和企業詞匯中篩選出一組產業鏈詞匯和企本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種產業鏈構建方法,其特征在于,所述方法包括:獲取人工定義的產業鏈識別詞;獲取企業樣本數據;使用已有數據集訓練詞聯想模型,所述詞聯想模型用于生成所述已有數據集中每個詞匯的關聯詞匯;對所述企業樣本數據進行處理,得到企業詞匯;將所述產業鏈識別詞輸入所述詞聯想模型,得到所述產業鏈識別詞的詞匯集合;確定所述詞匯集合中每個產業鏈詞匯與所述企業詞匯之間的關聯度矩陣;基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度;對于關聯程度大于或等于預設程度閾值的一組產業鏈詞匯和企業詞匯,將所述企業詞匯所屬的企業樣本數據的標簽設置為所述產業鏈詞匯對應的產業鏈識別詞;確定識別出的產業鏈識別詞是否符合預設訓練要求;在所述識別出的產業鏈識別詞符合所述預設訓練要求的情況下,使用訓練得到的詞聯想模型構建待處理企業數據的產業鏈。2.根據權利要求1所述的方法,其特征在于,所述使用已有數據集訓練詞聯想模型,包括:將所述已有數據集輸入預先構建的詞向量生成模型,得到詞向量空間;將所述已有數據集輸入預訓練得到的BERT模型,得到所述已有數據集的詞語表述分布;獲取基于所述詞語表述分布輸入的語義修正操作;基于所述語義修正操作修正所述詞向量空間的上下文語義,得到修正后的詞向量空間;使用修正后的詞向量空間修正所述詞向量生成模型,得到所述詞聯想模型。3.根據權利要求1所述的方法,其特征在于,所述矩陣信息包括至少兩種;所述基于所述關聯度矩陣的矩陣信息,確定所述產業鏈詞匯與所述企業詞匯之間的關聯程度,包括:獲取每種矩陣信息對應的信息權重;計算各個矩陣信息的量化值與對應的信息權重的乘積之和,得到所述關聯程度。4.根據權利要求3所述的方法,其特征在于,所述矩陣信息包括以下信息中的至少兩種:所述關聯度矩陣中的關聯度;所述關聯度矩陣的方差;所述關聯度矩陣的均值;所述關聯度矩陣的維度;以及所述關聯度矩陣中每個關聯度對應的詞性。5....
【專利技術屬性】
技術研發人員:夏曉東,戴曄,嚴世振,儲建洲,錢雨辰,
申請(專利權)人:江蘇風云科技服務有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。