System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本文屬于計算機,具體涉及一種基于文本相似度的指標重復建設識別方法及裝置。
技術介紹
1、在企業迅速發展過程中,通常會跨足多個業務領域,隨之而來的是企業建立了眾多的業務系統和業務流程。這些業務系統和業務流程通常互相依賴,使得企業對于指標管理變得日益復雜。第一方面,企業在不同業務線可能使用相同的指標名稱,但這些指標的定義和邏輯可能各不相同,造成了數據取數混亂和誤解,增加了數據分析的困難。第二方面,不同業務部門可能分別開發相同或類似的指標,這就出現了指標重復性建設問題,導致資源浪費和數據不一致性。第三方面,企業在從原有指標派生其他指標時,由于缺乏指標開發邏輯的文檔記錄,開發人員在開發新指標或解釋原有指標時,很難理解或調整指標計算方式。因此,企業需要開發指標相似性識別技術,以應對不一致性指標帶來的挑戰。
2、在通信領域內去除指標的重復性建設具有重要價值:首先,它減輕了各部門的工作負擔,使團隊更專注于核心業務指標的定義和追蹤,有助于更好地實現目標。其次,管理層將獲得更清晰、更一致的數據,從而提高了決策的可靠性。最重要的是,這一舉措將使集團公司的風險防控體系更為簡化和透明,降低管理和監控的復雜性,有助于更有效地應對潛在風險,從而推動公司的高質量發展。
3、對于指標相似性識別的現有方法主要基于業務經驗,該方法依賴于員工的專業領域知識和經驗。員工通過比對不同企業的指標數據,以確定它們之間的相似性。這一方法在一定程度上可以識別相似指標,但也存在一些明顯的缺點。比如員工的專業領域知識是有差異的:不同員工在比對同一指標組時,會
技術實現思路
1、針對現有技術的上述問題,本文的目的在于,提供一種基于文本相似度的指標重復建設識別方法及裝置,可以提高指標建設的準確性。
2、為了解決上述技術問題,本文的具體技術方案如下:
3、一方面,本文提供一種基于文本相似度的指標重復建設識別方法,所述方法包括:
4、根據指標庫中的存量指標,建立指標建設重復識別的規范標準,所述規范標準用于表示應用領域的指定要素組合的相似度計算規則,所述指定要素組合至少包括基本信息要素、描述信息要素以及邏輯結構要素;
5、獲取新增指標,并獲得所述新增指標的指定要素組合對應的要素數據;
6、根據不同要素的相似度計算規則,以及所述新增指標的指定要素組合對應的要素數據,得到所述新增指標和存量指標之間在不同要素上的相似度結果;
7、根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣;
8、根據所述因子載荷矩陣,得到所述新增指標和每個存量指標之間的綜合方面相似度;
9、獲取所述新增指標和所述存量指標在基本信息要素的相似度排名topn、描述信息要素的相似度排名topn、邏輯結構要素的相似度排名topn以及綜合方面的相似度topn,其中n≥3;
10、當所述相似度排名topn中存在基本信息要素、描述信息要素、邏輯結構要素和綜合方面相似度均大于第一預設閾值的指標,則確定所述新增指標為重復指標;
11、當全部所述相似度排名topn中每個相似度排名top1均小于第二預設閾值時,則確定所述新增指標為非重復指標,并將其加入指標庫中,其中所述第二預設閾值小于所述第一預設閾值。
12、進一步地,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:
13、確定指標庫對應的應用領域;
14、根據所述應用領域,確定所述指標庫中指標相關信息,所述指標相關信息至少包括指標定義、計算邏輯和生成方法;
15、根據所述指標相關信息,確定所述指標庫中指標對應的指定要素組合,并建立所述指標要素組合中每個要素的相似度計算規則。
16、進一步地,針對基本信息要素的相似度計算過程如下:
17、確定所述指標庫中指標的基本信息要素對應的基本信息類型;
18、根據所述基本信息類型,分別對所述新增指標和所述存量指標進行分詞處理,得到所述新增指標和所述存量指標的分詞結果;
19、根據所述新增指標和所述存量指標的分詞結果,通過如下公式得到所述新增指標和所述存量指標在基本信息要素上的相似度結果;
20、其中s(i_new.types)為新增指標中基本信息要素的切詞結果,s(i_i.types)為存量指標中基本信息要素的切詞結果,sim為新增指標和存量指標指標在基本信息要素上的相似度結果。
21、進一步地,針對描述信息要素的相似度計算過程如下:
22、分別對所述新增指標和所述存量指標的描述信息要素進行分詞處理,得到所述新增指標和所述存量指標的分詞標記序列;
23、將所述分詞標記序列分別輸入到albert預訓練模型中,得到每個分詞標記序列對應的嵌入向量序列;
24、將所述新增指標和所述存量指標的嵌入向量序列分別輸入到albert模型中的transformer編碼器中,得到編碼后的嵌入向量序列,并將transformer編碼器中最頂層編碼結果中的第一嵌入向量作為目標嵌入向量;
25、根據所述新增指標的目標嵌入向量和所述存量指標的目標嵌入向量,計算得到所述增指標和所述存量指標在描述信息要素上的相似度。
26、進一步地,針對邏輯結構要素的相似度計算過程如下:
27、當所述邏輯結構要素為邏輯結構文本時,利用文本生成技術從所述邏輯結構文本中提取得到標準化要素文本,所述文本生成技術至少包括對邏輯結構文本進行歸類和解析處理;
28、對所述標準化要素文本進行字符轉換、清洗、分割步驟,得到目標文本要素;
29、根據所述新增指標和所述存量指標的目標文本要素,利用余弦距離計算方法計算得到所述新增指標和所述存量指標在邏輯結構要素上的相似度;
30、當所述邏輯結構要素為數學計算公式時,則確定所述數學計算公式中的變量和數學符號;
31、針對公式中給的變量,利用word2vec技術計算公式之間變量的詞義相似度;
32、針對公式中的數學符號,通過對比公式中的代數表達、符號使用和結構組成,得到所述新增指標和所述存量指標在邏輯結構要素上的相似度。
33、進一步地,根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,之前還包括:
34、獲取所述新增指標和每個所述存量指標在所述指定要素組合中每個要素的相似度權重;
<本文檔來自技高網...【技術保護點】
1.一種基于文本相似度的指標重復建設識別方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:
3.根據權利要求1所述的方法,其特征在于,針對基本信息要素的相似度計算過程如下:
4.根據權利要求1所述的方法,其特征在于,針對描述信息要素的相似度計算過程如下:
5.根據權利要求1所述的方法,其特征在于,針對邏輯結構要素的相似度計算過程如下:
6.根據權利要求1所述的方法,其特征在于,根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,之前還包括:
7.根據權利要求6所述的方法,其特征在于,所述根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,包括:
8.根據權利要求7所述的方法,其特征在于,根據所述因子載荷矩陣,得到所述新增指標和存量指標之間的綜合方面相似度,包括:
9.根據權利要求1所述的方法,其特征在于,所述方法還包括:
10.一種基于文本相似度的指標重復建設識別裝置
...【技術特征摘要】
1.一種基于文本相似度的指標重復建設識別方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:
3.根據權利要求1所述的方法,其特征在于,針對基本信息要素的相似度計算過程如下:
4.根據權利要求1所述的方法,其特征在于,針對描述信息要素的相似度計算過程如下:
5.根據權利要求1所述的方法,其特征在于,針對邏輯結構要素的相似度計算過程如下:
6.根據權利要求1所述的方...
【專利技術屬性】
技術研發人員:朱燕平,金憶,
申請(專利權)人:上海理想信息產業集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。