System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲日韩精品无码专区加勒比☆ ,国产精品成人无码久久久久久,亚洲国产精品无码久久一区二区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于文本相似度的指標重復建設識別方法及裝置制造方法及圖紙

    技術編號:44499869 閱讀:4 留言:0更新日期:2025-03-04 18:08
    本文提供了一種基于文本相似度的指標重復建設識別方法及裝置,包括:根據指標庫中的存量指標,建立指標建設重復識別的規范標準;獲取新增指標的要素數據;根據不同要素的相似度計算規則,得到新增指標和存量指標之間在不同要素上的相似度結果;根據相似度結果得到新增指標和每個存量指標之間的綜合方面相似度;獲取基本信息要素、描述信息要素、邏輯結構要素和綜合方面相似度各自的相似度排名TOPN;當相似度排名TOPN存在均大于第一預設閾值的指標,則確定新增指標為重復指標;當相似度排名TOPN中每個相似度排名TOP1均小于第二預設閾值時,則確定新增指標為非重復指標,本文可以提高指標建設的可靠性和準確性。

    【技術實現步驟摘要】

    本文屬于計算機,具體涉及一種基于文本相似度的指標重復建設識別方法及裝置


    技術介紹

    1、在企業迅速發展過程中,通常會跨足多個業務領域,隨之而來的是企業建立了眾多的業務系統和業務流程。這些業務系統和業務流程通常互相依賴,使得企業對于指標管理變得日益復雜。第一方面,企業在不同業務線可能使用相同的指標名稱,但這些指標的定義和邏輯可能各不相同,造成了數據取數混亂和誤解,增加了數據分析的困難。第二方面,不同業務部門可能分別開發相同或類似的指標,這就出現了指標重復性建設問題,導致資源浪費和數據不一致性。第三方面,企業在從原有指標派生其他指標時,由于缺乏指標開發邏輯的文檔記錄,開發人員在開發新指標或解釋原有指標時,很難理解或調整指標計算方式。因此,企業需要開發指標相似性識別技術,以應對不一致性指標帶來的挑戰。

    2、在通信領域內去除指標的重復性建設具有重要價值:首先,它減輕了各部門的工作負擔,使團隊更專注于核心業務指標的定義和追蹤,有助于更好地實現目標。其次,管理層將獲得更清晰、更一致的數據,從而提高了決策的可靠性。最重要的是,這一舉措將使集團公司的風險防控體系更為簡化和透明,降低管理和監控的復雜性,有助于更有效地應對潛在風險,從而推動公司的高質量發展。

    3、對于指標相似性識別的現有方法主要基于業務經驗,該方法依賴于員工的專業領域知識和經驗。員工通過比對不同企業的指標數據,以確定它們之間的相似性。這一方法在一定程度上可以識別相似指標,但也存在一些明顯的缺點。比如員工的專業領域知識是有差異的:不同員工在比對同一指標組時,會出現不一致的判斷和決策;另一方面,現有方法需要企業投入大量的人力資源,這又進一步增加了企業人力資源成本。現有指標相似性的判斷方法基于多項式環的性質或者指標的拆解邏輯,將原始指標轉換成標準計算式或其內在基礎要素的組合。現有方法過于依賴指標的種類、相似性計算方法單一且評估不全,具有計算局限性和實施復雜性,沒有充分利用指標文本信息,導致其無法適應復雜多變的企業運營需求,并不能夠有效減少指標的重復建設,造成企業資源浪費等嚴重結果。


    技術實現思路

    1、針對現有技術的上述問題,本文的目的在于,提供一種基于文本相似度的指標重復建設識別方法及裝置,可以提高指標建設的準確性。

    2、為了解決上述技術問題,本文的具體技術方案如下:

    3、一方面,本文提供一種基于文本相似度的指標重復建設識別方法,所述方法包括:

    4、根據指標庫中的存量指標,建立指標建設重復識別的規范標準,所述規范標準用于表示應用領域的指定要素組合的相似度計算規則,所述指定要素組合至少包括基本信息要素、描述信息要素以及邏輯結構要素;

    5、獲取新增指標,并獲得所述新增指標的指定要素組合對應的要素數據;

    6、根據不同要素的相似度計算規則,以及所述新增指標的指定要素組合對應的要素數據,得到所述新增指標和存量指標之間在不同要素上的相似度結果;

    7、根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣;

    8、根據所述因子載荷矩陣,得到所述新增指標和每個存量指標之間的綜合方面相似度;

    9、獲取所述新增指標和所述存量指標在基本信息要素的相似度排名topn、描述信息要素的相似度排名topn、邏輯結構要素的相似度排名topn以及綜合方面的相似度topn,其中n≥3;

    10、當所述相似度排名topn中存在基本信息要素、描述信息要素、邏輯結構要素和綜合方面相似度均大于第一預設閾值的指標,則確定所述新增指標為重復指標;

    11、當全部所述相似度排名topn中每個相似度排名top1均小于第二預設閾值時,則確定所述新增指標為非重復指標,并將其加入指標庫中,其中所述第二預設閾值小于所述第一預設閾值。

    12、進一步地,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:

    13、確定指標庫對應的應用領域;

    14、根據所述應用領域,確定所述指標庫中指標相關信息,所述指標相關信息至少包括指標定義、計算邏輯和生成方法;

    15、根據所述指標相關信息,確定所述指標庫中指標對應的指定要素組合,并建立所述指標要素組合中每個要素的相似度計算規則。

    16、進一步地,針對基本信息要素的相似度計算過程如下:

    17、確定所述指標庫中指標的基本信息要素對應的基本信息類型;

    18、根據所述基本信息類型,分別對所述新增指標和所述存量指標進行分詞處理,得到所述新增指標和所述存量指標的分詞結果;

    19、根據所述新增指標和所述存量指標的分詞結果,通過如下公式得到所述新增指標和所述存量指標在基本信息要素上的相似度結果;

    20、其中s(i_new.types)為新增指標中基本信息要素的切詞結果,s(i_i.types)為存量指標中基本信息要素的切詞結果,sim為新增指標和存量指標指標在基本信息要素上的相似度結果。

    21、進一步地,針對描述信息要素的相似度計算過程如下:

    22、分別對所述新增指標和所述存量指標的描述信息要素進行分詞處理,得到所述新增指標和所述存量指標的分詞標記序列;

    23、將所述分詞標記序列分別輸入到albert預訓練模型中,得到每個分詞標記序列對應的嵌入向量序列;

    24、將所述新增指標和所述存量指標的嵌入向量序列分別輸入到albert模型中的transformer編碼器中,得到編碼后的嵌入向量序列,并將transformer編碼器中最頂層編碼結果中的第一嵌入向量作為目標嵌入向量;

    25、根據所述新增指標的目標嵌入向量和所述存量指標的目標嵌入向量,計算得到所述增指標和所述存量指標在描述信息要素上的相似度。

    26、進一步地,針對邏輯結構要素的相似度計算過程如下:

    27、當所述邏輯結構要素為邏輯結構文本時,利用文本生成技術從所述邏輯結構文本中提取得到標準化要素文本,所述文本生成技術至少包括對邏輯結構文本進行歸類和解析處理;

    28、對所述標準化要素文本進行字符轉換、清洗、分割步驟,得到目標文本要素;

    29、根據所述新增指標和所述存量指標的目標文本要素,利用余弦距離計算方法計算得到所述新增指標和所述存量指標在邏輯結構要素上的相似度;

    30、當所述邏輯結構要素為數學計算公式時,則確定所述數學計算公式中的變量和數學符號;

    31、針對公式中給的變量,利用word2vec技術計算公式之間變量的詞義相似度;

    32、針對公式中的數學符號,通過對比公式中的代數表達、符號使用和結構組成,得到所述新增指標和所述存量指標在邏輯結構要素上的相似度。

    33、進一步地,根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,之前還包括:

    34、獲取所述新增指標和每個所述存量指標在所述指定要素組合中每個要素的相似度權重;

    <本文檔來自技高網...

    【技術保護點】

    1.一種基于文本相似度的指標重復建設識別方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:

    3.根據權利要求1所述的方法,其特征在于,針對基本信息要素的相似度計算過程如下:

    4.根據權利要求1所述的方法,其特征在于,針對描述信息要素的相似度計算過程如下:

    5.根據權利要求1所述的方法,其特征在于,針對邏輯結構要素的相似度計算過程如下:

    6.根據權利要求1所述的方法,其特征在于,根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,之前還包括:

    7.根據權利要求6所述的方法,其特征在于,所述根據所述相似度結果,通過主成分分析得到不同要素的因子載荷矩陣,包括:

    8.根據權利要求7所述的方法,其特征在于,根據所述因子載荷矩陣,得到所述新增指標和存量指標之間的綜合方面相似度,包括:

    9.根據權利要求1所述的方法,其特征在于,所述方法還包括:

    10.一種基于文本相似度的指標重復建設識別裝置,其特征在于,所述裝置包括:

    ...

    【技術特征摘要】

    1.一種基于文本相似度的指標重復建設識別方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,根據指標庫中的存量指標,建立指標建設重復識別的規范標準,包括:

    3.根據權利要求1所述的方法,其特征在于,針對基本信息要素的相似度計算過程如下:

    4.根據權利要求1所述的方法,其特征在于,針對描述信息要素的相似度計算過程如下:

    5.根據權利要求1所述的方法,其特征在于,針對邏輯結構要素的相似度計算過程如下:

    6.根據權利要求1所述的方...

    【專利技術屬性】
    技術研發人員:朱燕平金憶
    申請(專利權)人:上海理想信息產業集團有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费无码一区二区三区蜜桃| 国产成人无码免费视频97 | 亚洲国产精品无码久久九九大片| 无码国产精品一区二区免费式芒果 | 国产爆乳无码视频在线观看| 免费A级毛片无码A∨| 亚洲AV无码成人精品区狼人影院| 久久综合一区二区无码| 亚洲中文无码a∨在线观看| 午夜亚洲av永久无码精品| 无码人妻丰满熟妇区BBBBXXXX| 国产亚洲大尺度无码无码专线| 色综合久久久无码中文字幕| 毛片无码免费无码播放| 亚洲精品高清无码视频| 一本大道久久东京热无码AV| 亚洲精品无码不卡在线播放| 免费A级毛片无码A∨中文字幕下载| 一本大道无码日韩精品影视_| 亚洲av无码专区在线电影天堂| 无码AV波多野结衣久久| 国产成人无码区免费内射一片色欲| 青春草无码精品视频在线观| 久久中文字幕无码一区二区| 中日韩亚洲人成无码网站| 久久国产精品无码一区二区三区| 亚洲精品无码不卡在线播HE | 亚洲?V无码乱码国产精品| 无码一区18禁3D| 精品无码成人片一区二区98| 精品国产aⅴ无码一区二区| 日韩人妻无码中文字幕视频| 亚洲AV无码国产在丝袜线观看| 国产免费无码AV片在线观看不卡| 成年无码av片完整版| 国产成人无码18禁午夜福利p | 日韩夜夜高潮夜夜爽无码| 精品久久久久久久无码久中文字幕 | 无码乱人伦一区二区亚洲| 亚洲AV无码久久寂寞少妇| 久久久久成人精品无码中文字幕|