System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲日韩精品无码专区加勒比☆ ,国产精品成人无码久久久久久,亚洲国产精品无码久久一区二区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于文本相似度的指標重復建設識別方法及裝置制造方法及圖紙

    技術編號:44499869 閱讀:4 留言:0更新日期:2025-03-04 18:08
    本文提供了一種基于文本相似度的指標重復建設識別方法及裝置,包括:根據指標庫中的存量指標,建立指標建設重復識別的規范標準;獲取新增指標的要素數據;根據不同要素的相似度計算規則,得到新增指標和存量指標之間在不同要素上的相似度結果;根據相似度結果得到新增指標和每個存量指標之間的綜合方面相似度;獲取基本信息要素、描述信息要素、邏輯結構要素和綜合方面相似度各自的相似度排名TOPN;當相似度排名TOPN存在均大于第一預設閾值的指標,則確定新增指標為重復指標;當相似度排名TOPN中每個相似度排名TOP1均小于第二預設閾值時,則確定新增指標為非重復指標,本文可以提高指標建設的可靠性和準確性。

    【技術實現步驟摘要】

    本文屬于計算機,具體涉及一種基于文本相似度的指標重復建設識別方法及裝置


    技術介紹

    1、在企業迅速發展過程中,通常會跨足多個業務領域,隨之而來的是企業建立了眾多的業務系統和業務流程。這些業務系統和業務流程通常互相依賴,使得企業對于指標管理變得日益復雜。第一方面,企業在不同業務線可能使用相同的指標名稱,但這些指標的定義和邏輯可能各不相同,造成了數據取數混亂和誤解,增加了數據分析的困難。第二方面,不同業務部門可能分別開發相同或類似的指標,這就出現了指標重復性建設問題,導致資源浪費和數據不一致性。第三方面,企業在從原有指標派生其他指標時,由于缺乏指標開發邏輯的文檔記錄,開發人員在開發新指標或解釋原有指標時,很難理解或調整指標計算方式。因此,企業需要開發指標相似性識別技術,以應對不一致性指標帶來的挑戰。

    2、在通信領域內去除指標的重復性建設具有重要價值:首先,它減輕了各部門的工作負擔,使團隊更專注于核心業務指標的定義和追蹤,有助于更好地實現目標。其次,管理層將獲得更清晰、更一致的數據,從而提高了決策的可靠性。最重要的是,這一舉措將使集團公司的風險防控體系更為簡化和透明,降低管理和監控的復雜性,有助于更有效地應對潛在風險,從而推動公司的高質量發展。

    3、對于指標相似性識別的現有方法主要基于業務經驗,該方法依賴于員工的專業領域知識和經驗。員工通過比對不同企業的指標數據,以確定它們之間的相似性。這一方法在一定程度上可以識別相似指標,但也存在一些明顯的缺點。比如員工的專業領域知識是有差異的:不同員工在比對同一指標組時,會出現不一致的判斷和決策;另一方面,現有方法需要企業投入大量的人力資源,這又進一步增加了企業人力資源成本。現有指標相似性的判斷方法基于多項式環的性質或者指標的拆解邏輯,將原始指標轉換成標準計算式或其內在基礎要素的組合。現有方法過于依賴指標的種類、相似性計算方法單一且評估不全,具有計算局限性和實施復雜性,沒有充分利用指標文本信息,導致其無法適應復雜多變的企業運營需求,并不能夠有效減少指標的重復建設,造成企業資源浪費等嚴重結果。


    技術實現思路

    1、針對現有技術的上述問題,本文的目的在于,提供一種基于文本相似度的指標重復建設識別方法及裝置,可以提高指標建設的準確性。

    2、為了解決上述技術問題,本文的具體技術方案如下:

    3、一方面,本文提供一種基于文本相似度的指標重復建設識別方法,所述方法包括:

    4、根據指標庫中的存量指標,建立指標建設重復識別的規范標準,所述規范標準用于表示應用領域的指定要素組合的相似度計算規則,所述指定要素組合至少包括基本信息要素、描述信息要素以及邏輯結構要素;

    5、獲取新增指標,并獲得所述新增指標的指定要素組合對應的要素數據;

    6、根據不同要素的相似度計算規則,以及所述新增指標的指定要素組合對應的要素數據,得到所述新增指標和存量指標之間在不同要素上的相似度結果;

    7、根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣;

    8、根據所述因子載荷矩陣,得到所述新增指標和每個存量指標之間的綜合方面相似度;

    9、獲取所述新增指標和所述存量指標在基本信息要素的相似度排名topn、描述信息要素的相似度排名topn、邏輯結構要素的相似度排名topn以及綜合方面的相似度topn,其中n≥3;

    10、當所述相似度排名topn中存在基本信息要素、描述信息要素、邏輯結構要素和綜合方面相似度均大于第一預設閾值的指標,則確定所述新增指標為重復指標;

    11、當全部所述相似度排名topn中每個相似度排名top1均小于第二預設閾值時,則確定所述新增指標為非重復指標,并將其加入指標庫中,其中所述第二預設閾值小于所述第一預設閾值。

    12、進一步地,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:

    13、確定指標庫對應的應用領域;

    14、根據所述應用領域,確定所述指標庫中指標相關信息,所述指標相關信息至少包括指標定義、計算邏輯和生成方法;

    15、根據所述指標相關信息,確定所述指標庫中指標對應的指定要素組合,并建立所述指標要素組合中每個要素的相似度計算規則。

    16、進一步地,針對基本信息要素的相似度計算過程如下:

    17、確定所述指標庫中指標的基本信息要素對應的基本信息類型;

    18、根據所述基本信息類型,分別對所述新增指標和所述存量指標進行分詞處理,得到所述新增指標和所述存量指標的分詞結果;

    19、根據所述新增指標和所述存量指標的分詞結果,通過如下公式得到所述新增指標和所述存量指標在基本信息要素上的相似度結果;

    20、其中s(i_new.types)為新增指標中基本信息要素的切詞結果,s(i_i.types)為存量指標中基本信息要素的切詞結果,sim為新增指標和存量指標指標在基本信息要素上的相似度結果。

    21、進一步地,針對描述信息要素的相似度計算過程如下:

    22、分別對所述新增指標和所述存量指標的描述信息要素進行分詞處理,得到所述新增指標和所述存量指標的分詞標記序列;

    23、將所述分詞標記序列分別輸入到albert預訓練模型中,得到每個分詞標記序列對應的嵌入向量序列;

    24、將所述新增指標和所述存量指標的嵌入向量序列分別輸入到albert模型中的transformer編碼器中,得到編碼后的嵌入向量序列,并將transformer編碼器中最頂層編碼結果中的第一嵌入向量作為目標嵌入向量;

    25、根據所述新增指標的目標嵌入向量和所述存量指標的目標嵌入向量,計算得到所述增指標和所述存量指標在描述信息要素上的相似度。

    26、進一步地,針對邏輯結構要素的相似度計算過程如下:

    27、當所述邏輯結構要素為邏輯結構文本時,利用文本生成技術從所述邏輯結構文本中提取得到標準化要素文本,所述文本生成技術至少包括對邏輯結構文本進行歸類和解析處理;

    28、對所述標準化要素文本進行字符轉換、清洗、分割步驟,得到目標文本要素;

    29、根據所述新增指標和所述存量指標的目標文本要素,利用余弦距離計算方法計算得到所述新增指標和所述存量指標在邏輯結構要素上的相似度;

    30、當所述邏輯結構要素為數學計算公式時,則確定所述數學計算公式中的變量和數學符號;

    31、針對公式中給的變量,利用word2vec技術計算公式之間變量的詞義相似度;

    32、針對公式中的數學符號,通過對比公式中的代數表達、符號使用和結構組成,得到所述新增指標和所述存量指標在邏輯結構要素上的相似度。

    33、進一步地,根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,之前還包括:

    34、獲取所述新增指標和每個所述存量指標在所述指定要素組合中每個要素的相似度權重;

    <本文檔來自技高網...

    【技術保護點】

    1.一種基于文本相似度的指標重復建設識別方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:

    3.根據權利要求1所述的方法,其特征在于,針對基本信息要素的相似度計算過程如下:

    4.根據權利要求1所述的方法,其特征在于,針對描述信息要素的相似度計算過程如下:

    5.根據權利要求1所述的方法,其特征在于,針對邏輯結構要素的相似度計算過程如下:

    6.根據權利要求1所述的方法,其特征在于,根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,之前還包括:

    7.根據權利要求6所述的方法,其特征在于,所述根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,包括:

    8.根據權利要求7所述的方法,其特征在于,根據所述因子載荷矩陣,得到所述新增指標和存量指標之間的綜合方面相似度,包括:

    9.根據權利要求1所述的方法,其特征在于,所述方法還包括:

    10.一種基于文本相似度的指標重復建設識別裝置,其特征在于,所述裝置包括:

    ...

    【技術特征摘要】

    1.一種基于文本相似度的指標重復建設識別方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:

    3.根據權利要求1所述的方法,其特征在于,針對基本信息要素的相似度計算過程如下:

    4.根據權利要求1所述的方法,其特征在于,針對描述信息要素的相似度計算過程如下:

    5.根據權利要求1所述的方法,其特征在于,針對邏輯結構要素的相似度計算過程如下:

    6.根據權利要求1所述的方...

    【專利技術屬性】
    技術研發人員:朱燕平金憶
    申請(專利權)人:上海理想信息產業集團有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av午夜精品无码专区 | 亚洲午夜无码AV毛片久久| 亚洲伊人成无码综合网| 国产成人无码av在线播放不卡| 日韩经典精品无码一区| 色综合AV综合无码综合网站| 蜜臀亚洲AV无码精品国产午夜. | 国产成人无码18禁午夜福利p | 国产成人AV一区二区三区无码| 无码孕妇孕交在线观看| 中文无码喷潮在线播放| 精品人妻系列无码人妻漫画| 精品无码日韩一区二区三区不卡| 日韩人妻无码一区二区三区综合部| 日日摸日日碰夜夜爽无码| 精品久久久无码中字| 精品无码人妻夜人多侵犯18| 八戒理论片午影院无码爱恋| 超清无码熟妇人妻AV在线电影| 精品无码一区二区三区电影| 亚洲国产精品无码久久SM| 无码AⅤ精品一区二区三区| 中文字幕无码成人免费视频| 亚洲AV成人噜噜无码网站| 日本无码小泬粉嫩精品图| 日韩成人无码影院| 成人免费无码大片A毛片抽搐色欲| 日韩乱码人妻无码中文字幕| 亚洲精品~无码抽插| 亚洲Av无码专区国产乱码DVD| 亚洲Av无码乱码在线znlu| 67194成是人免费无码| 亚洲精品无码mⅴ在线观看| 无码8090精品久久一区| 国产精品亚洲一区二区无码| 精品无码久久久久久国产| 西西人体444www大胆无码视频| 免费a级毛片无码a∨性按摩| 色国产色无码色欧美色在线| 国产精品无码亚洲一区二区三区 | 久久久久无码精品|