System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請實(shí)施例涉及編碼,尤其涉及一種數(shù)據(jù)資產(chǎn)的分類方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品。
技術(shù)介紹
1、為了對不同數(shù)據(jù)類別和敏感等級的特異性差異化數(shù)據(jù)資產(chǎn)進(jìn)行數(shù)據(jù)安全管理,對數(shù)據(jù)資產(chǎn)進(jìn)行準(zhǔn)確的層次化分類(包括分級)成為了基礎(chǔ)性前置工作。系統(tǒng)數(shù)據(jù)庫中存在許多未分類的表,其中的表中文名稱、表英文名稱、字段中文名稱、字段英文名稱及備注的描述信息是分類分級的主要依據(jù)。對于此類數(shù)據(jù),由于名稱中蘊(yùn)含有特定的語義信息,且同時存在中英文,因此需要模型準(zhǔn)確提取有效信息,同時由于一個表中的含有的多個字段可能屬于不同的分類,因此需要模型對細(xì)微的名稱變化有較為敏銳的感知。此外,由于數(shù)據(jù)量龐大,且對于表名稱的理解需要專業(yè)電網(wǎng)技術(shù)人員參與,數(shù)據(jù)的標(biāo)注成本高,費(fèi)時費(fèi)力,因此要求模型僅根據(jù)部分領(lǐng)域數(shù)據(jù)就能推理全領(lǐng)域的數(shù)據(jù),這對模型的語義理解提出了更高的要求。
2、具有層次結(jié)構(gòu)的標(biāo)簽文本分類現(xiàn)有兩種技術(shù)方案框架:局部方法和全局方法。局部方法先在層次標(biāo)簽的每一層決定該層的標(biāo)簽分類,隨后將所有層次預(yù)測組合起來以生成最終分類。這個框架是按照自上而下的策略生成分類器的層次結(jié)構(gòu),其中每個分類器負(fù)責(zé)特定標(biāo)簽子樹或特定層次級別的預(yù)測;全局方法與局部方法不同,是使用單個分類器對整個層次標(biāo)簽的結(jié)構(gòu)進(jìn)行建模,使其能夠在預(yù)測時考慮完整的層次結(jié)構(gòu),而無需依賴于不同級別的多個分類器。
3、局部方法存在嚴(yán)重的擴(kuò)展問題,因?yàn)樗璧木植糠诸惼鲾?shù)量完全依賴于層次標(biāo)簽的結(jié)構(gòu)。此外,所有局部方法采用的自頂向下技術(shù)容易出現(xiàn)錯誤傳播問題。如果在特定層次的層次發(fā)生錯誤,除非采取某些措施避
4、全局方法存在時間開銷大,運(yùn)算復(fù)雜度高的效率問題,因?yàn)槿址诸惼餍枰獙φ麄€層次標(biāo)簽結(jié)構(gòu)建模,考慮整體的結(jié)構(gòu)信息,模型計(jì)算推演時常有其他無關(guān)的冗余結(jié)構(gòu)被納入分類分級信息檢索,這些被視為噪音的冗余結(jié)構(gòu)會對模型增加計(jì)算負(fù)擔(dān)。
5、此外,現(xiàn)有技術(shù)應(yīng)用于實(shí)際業(yè)務(wù)場景也存在兩個缺點(diǎn):首先是由于數(shù)據(jù)庫的數(shù)據(jù)量十分龐大,單獨(dú)靠專業(yè)技術(shù)人員進(jìn)行分類難以完成,而且名稱的命名規(guī)則較為復(fù)雜,難以對應(yīng)到具體的類別上去,再者分類分級的標(biāo)準(zhǔn)仍然處于修訂過程中,如果出現(xiàn)新版本的分類標(biāo)準(zhǔn)則會導(dǎo)致之前的分類無效;其次是有標(biāo)簽數(shù)據(jù)稀缺,大量數(shù)據(jù)保持無標(biāo)簽的原始狀態(tài),生成準(zhǔn)確的分類分級標(biāo)簽需要更復(fù)雜的算法設(shè)計(jì),導(dǎo)致算法運(yùn)行速度大打折扣。
6、綜上,如何提高對層次化數(shù)據(jù)資產(chǎn)分類的魯棒性,提高準(zhǔn)確率和計(jì)算效率,成為亟待解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請?zhí)峁┝艘环N數(shù)據(jù)資產(chǎn)的分類方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品,以高效確定合適的編碼參數(shù),提高數(shù)據(jù)資產(chǎn)的分類質(zhì)量和效率。
2、第一方面,本申請實(shí)施例提供了一種數(shù)據(jù)資產(chǎn)的分類方法,包括:
3、獲取待分類的數(shù)據(jù)資產(chǎn)和標(biāo)簽向量庫,所述標(biāo)簽向量庫中存儲有用于對數(shù)據(jù)資產(chǎn)進(jìn)行分類的標(biāo)簽對應(yīng)的向量表示,所述向量表示在雙塔模型的訓(xùn)練過程中得到,所述雙塔模型中包括用于提取標(biāo)簽的特征的第一子網(wǎng)絡(luò)和用于提取樣本數(shù)據(jù)資產(chǎn)的特征的第二子網(wǎng)絡(luò);
4、通過所述雙塔模型中的第一子網(wǎng)絡(luò)提取所述數(shù)據(jù)資產(chǎn)的特征;
5、從所述標(biāo)簽向量庫中查找所述數(shù)據(jù)資產(chǎn)的特征對應(yīng)的向量表示,并根據(jù)所述向量表示對應(yīng)的標(biāo)簽確定所述數(shù)據(jù)資產(chǎn)所屬的分類。
6、第二方面,本申請實(shí)施例還提供了一種數(shù)據(jù)資產(chǎn)的分類裝置,包括:
7、獲取模塊,獲取待分類的數(shù)據(jù)資產(chǎn)和標(biāo)簽向量庫,所述標(biāo)簽向量庫中存儲有用于對數(shù)據(jù)資產(chǎn)進(jìn)行分類的標(biāo)簽對應(yīng)的向量表示,所述向量表示在雙塔模型的訓(xùn)練過程中得到,所述雙塔模型中包括用于提取標(biāo)簽的特征的第一子網(wǎng)絡(luò)和用于提取樣本數(shù)據(jù)資產(chǎn)的特征的第二子網(wǎng)絡(luò);
8、提取模塊,通過所述雙塔模型中的第一子網(wǎng)絡(luò)提取所述數(shù)據(jù)資產(chǎn)的特征;
9、分類模塊,從所述標(biāo)簽向量庫中查找所述數(shù)據(jù)資產(chǎn)的特征對應(yīng)的向量表示,并根據(jù)所述向量表示對應(yīng)的標(biāo)簽確定所述數(shù)據(jù)資產(chǎn)所屬的分類。
10、第三方面,本申請實(shí)施例提供了一種電子設(shè)備,包括:
11、一個或多個處理器;
12、存儲裝置,用于存儲一個或多個程序;
13、當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實(shí)現(xiàn)如第一方面所述的數(shù)據(jù)資產(chǎn)的分類方法。
14、第四方面,本申請實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時實(shí)現(xiàn)如第一方面所述的數(shù)據(jù)資產(chǎn)的分類方法。
15、第四方面,本申請實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序和/或指令,所述計(jì)算機(jī)程序和/或指令被處理器執(zhí)行時實(shí)現(xiàn)如上述任意實(shí)施例所述的數(shù)據(jù)資產(chǎn)的分類方法。
16、本申請實(shí)施例提供了一種數(shù)據(jù)資產(chǎn)的分類方法、裝置、設(shè)備、存儲介質(zhì)及產(chǎn)品,該數(shù)據(jù)資產(chǎn)的分類方法包括:獲取待分類的數(shù)據(jù)資產(chǎn)和標(biāo)簽向量庫,標(biāo)簽向量庫中存儲有用于對數(shù)據(jù)資產(chǎn)進(jìn)行分類的標(biāo)簽對應(yīng)的向量表示,向量表示在雙塔模型的訓(xùn)練過程中得到,雙塔模型中包括用于提取標(biāo)簽的特征的第一子網(wǎng)絡(luò)和用于提取樣本數(shù)據(jù)資產(chǎn)的特征的第二子網(wǎng)絡(luò);通過雙塔模型中的第一子網(wǎng)絡(luò)提取數(shù)據(jù)資產(chǎn)的特征;從標(biāo)簽向量庫中查找數(shù)據(jù)資產(chǎn)的特征對應(yīng)的向量表示,并根據(jù)向量表示對應(yīng)的標(biāo)簽確定數(shù)據(jù)資產(chǎn)所屬的分類。上述技術(shù)方案在雙塔模型的訓(xùn)練過程中可得到標(biāo)簽的向量表示,在實(shí)際推理時提取數(shù)據(jù)資產(chǎn)的文本特征,即可從向量表示中快速匹配相應(yīng)的標(biāo)簽,完成分類,提高分類的魯棒性和效率。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種數(shù)據(jù)資產(chǎn)的分類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)資產(chǎn)包括至少一個文本片段;所述數(shù)據(jù)資產(chǎn)的特征包括每個所述文本片段的語義編碼信息;
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在將各所述分詞序列分別輸入至所述雙塔模型中的第二子網(wǎng)絡(luò)之前,還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過雙塔模型中的第一子網(wǎng)絡(luò)提取所述標(biāo)簽的文本信息特征,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,從所述標(biāo)簽向量庫中查找所述數(shù)據(jù)資產(chǎn)的特征對應(yīng)的向量表示,包括:
7.一種數(shù)據(jù)資產(chǎn)的分類裝置,其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括:
9.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-6中任一所述的數(shù)據(jù)資產(chǎn)的分類方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序和/或指令,其特征在于,所述計(jì)算機(jī)程序和/或指令被處理器執(zhí)行時實(shí)現(xiàn)
...【技術(shù)特征摘要】
1.一種數(shù)據(jù)資產(chǎn)的分類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)資產(chǎn)包括至少一個文本片段;所述數(shù)據(jù)資產(chǎn)的特征包括每個所述文本片段的語義編碼信息;
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在將各所述分詞序列分別輸入至所述雙塔模型中的第二子網(wǎng)絡(luò)之前,還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過雙塔模型中的第一子網(wǎng)絡(luò)提取所述標(biāo)簽的文本信息特征,包括:
6.根據(jù)權(quán)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:程志華,王宏剛,劉圣龍,李依馨,江伊雯,彭瀟,王迪,安冰,安思瑤,馮函宇,
申請(專利權(quán))人:國家電網(wǎng)有限公司大數(shù)據(jù)中心,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。