System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及數(shù)據(jù)處理,更具體的說(shuō)是涉及一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì)。
技術(shù)介紹
1、隨著信息技術(shù)的日新月異,各行各業(yè)在數(shù)字化轉(zhuǎn)型的浪潮中積累了前所未有的海量數(shù)據(jù)資源。這些數(shù)據(jù)不僅是組織決策的寶貴依據(jù),也是推動(dòng)業(yè)務(wù)創(chuàng)新與技術(shù)進(jìn)步的關(guān)鍵力量。然而,面對(duì)數(shù)據(jù)量大、種類(lèi)繁多、更新頻率高的現(xiàn)實(shí)挑戰(zhàn),傳統(tǒng)的人工管理數(shù)據(jù)目錄的方式顯得力不從心。它不僅效率低下,難以滿足快速響應(yīng)業(yè)務(wù)需求的能力,而且在準(zhǔn)確性方面也存在諸多不足,容易引發(fā)數(shù)據(jù)混亂和誤解。
2、數(shù)據(jù)目錄作為數(shù)據(jù)資源管理的核心組成部分,其準(zhǔn)確性和高效性直接關(guān)系到數(shù)據(jù)的檢索效率、分析質(zhì)量以及利用價(jià)值。一個(gè)優(yōu)秀的數(shù)據(jù)目錄能夠幫助用戶迅速定位所需信息,提升數(shù)據(jù)處理的時(shí)效性和準(zhǔn)確性,進(jìn)而為組織的決策支持和業(yè)務(wù)發(fā)展提供有力支撐。
3、然而,當(dāng)前許多組織的數(shù)據(jù)資源目錄鏈卻面臨著諸多問(wèn)題。目錄數(shù)據(jù)結(jié)構(gòu)與系統(tǒng)數(shù)據(jù)之間的匹配關(guān)系混亂不堪,導(dǎo)致數(shù)據(jù)定位困難,難以迅速找到所需資源。同時(shí),數(shù)據(jù)目錄的質(zhì)量參差不齊,存在著大量的重復(fù)、錯(cuò)誤和遺漏信息,嚴(yán)重影響了數(shù)據(jù)的可用性和可信度。此外,由于文本數(shù)據(jù)的復(fù)雜性和多樣性,傳統(tǒng)的匹配方法往往難以有效應(yīng)對(duì),使得數(shù)據(jù)目錄的智能化水平大打折扣。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)以上問(wèn)題,本專(zhuān)利技術(shù)的目的在于提供一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì),通過(guò)對(duì)系統(tǒng)自定義文本數(shù)據(jù)以及數(shù)據(jù)目錄文本的向量化處理并通過(guò)sbert模型進(jìn)行相似度計(jì)算以及智能化推薦,實(shí)現(xiàn)了對(duì)復(fù)雜信息系統(tǒng)目錄匹配結(jié)果的完
2、本專(zhuān)利技術(shù)為實(shí)現(xiàn)上述目的,通過(guò)以下技術(shù)方案實(shí)現(xiàn):
3、第一方面,本專(zhuān)利技術(shù)公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法,包括:
4、獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理;
5、使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量;
6、通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng);
7、基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋。
8、進(jìn)一步,所述獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括:
9、在組織的業(yè)務(wù)信息系統(tǒng)中獲取待治理的管理?xiàng)l例、業(yè)務(wù)公告和自定義文本數(shù)據(jù),作為待優(yōu)化數(shù)據(jù);
10、根據(jù)現(xiàn)有的數(shù)據(jù)目錄以及需提煉的數(shù)據(jù)資源目錄生成資源數(shù)據(jù);
11、對(duì)待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理。
12、進(jìn)一步,所述方法還包括將治理后的文本數(shù)據(jù)輸入大模型以生成智能目錄生成智能目錄。具體流程包括:
13、對(duì)治理后的文本數(shù)據(jù)進(jìn)行語(yǔ)義分析,基于文本數(shù)據(jù)資源生成相關(guān)的數(shù)據(jù)資源目錄;
14、對(duì)相關(guān)的表格數(shù)據(jù)進(jìn)行專(zhuān)業(yè)的表格分析,通過(guò)多模態(tài)理解能力,對(duì)多元的數(shù)據(jù)資源進(jìn)行統(tǒng)一的數(shù)據(jù)資源目錄生成;
15、將生成的數(shù)據(jù)資源目錄進(jìn)行統(tǒng)一導(dǎo)出,對(duì)現(xiàn)有數(shù)據(jù)資源目錄進(jìn)行補(bǔ)充,并且繼續(xù)完善。
16、進(jìn)一步,所述方法還包括:
17、獲取數(shù)據(jù)資源及相關(guān)的數(shù)據(jù)目錄鏈文本資源,使用三元組損失函數(shù)對(duì)sbert模型進(jìn)行訓(xùn)練,以提高模型的深層語(yǔ)義特征捕捉能量;
18、三元組損失函數(shù)為:
19、
20、其中,a是錨點(diǎn)句子的嵌入向量,p是與錨點(diǎn)句子相似的正樣本句子的嵌入向量,n是與錨點(diǎn)句子不相似的負(fù)樣本句子的嵌入向量,函數(shù)d表示兩個(gè)向量之間的距離,m是邊距參數(shù)。
21、進(jìn)一步,所述使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量,包括:
22、基于預(yù)處理后的數(shù)據(jù),使用詞嵌入模型,提取其中的句子,并將句子中的每個(gè)詞轉(zhuǎn)換為詞向量;
23、將詞向量輸入到sbert模型中,通過(guò)其多個(gè)transformer層處理輸入的詞向量,生成句子的嵌入向量。
24、進(jìn)一步,所述sbert模型采用siamese網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化:
25、
26、其中,是輸入和的嵌入向量之間的距離,是一個(gè)標(biāo)簽,表示樣本對(duì)是否相似。
27、進(jìn)一步,所述通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng),包括:
28、通過(guò)如下公式進(jìn)行句子向量化:
29、sentence_embedding?=?(word_embedding_1?+?word_embedding_2?+?...?+word_embedding_n)?/?n
30、其中,n是句子中的詞數(shù),word_embedding_i是句子中第i個(gè)詞的向量表示;
31、使用sbert模型計(jì)算待優(yōu)化數(shù)據(jù)的句子的嵌入向量與資源數(shù)據(jù)的句子的嵌入向量之間的余弦相似度;
32、所述sbert模型采用的余弦相似度計(jì)算公式為:
33、
34、其中,和分別代表兩個(gè)句子的嵌入向量,表示兩個(gè)向量的點(diǎn)積,和分別表示兩個(gè)嵌入向量的模長(zhǎng);
35、對(duì)計(jì)算出的余弦相似度,根據(jù)預(yù)設(shè)的相似度閾值確定出相關(guān)的文本資源;
36、基于相關(guān)的文本資源,對(duì)余弦相似度進(jìn)行排序,選擇最匹配的文本資源,作為推薦的數(shù)據(jù)目錄項(xiàng)。
37、進(jìn)一步,所述基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋,包括:
38、基于推薦的數(shù)據(jù)目錄項(xiàng),檢查數(shù)據(jù)項(xiàng)與其所在目錄或子目錄的語(yǔ)義一致性,利用sbert模型計(jì)算數(shù)據(jù)項(xiàng)與目錄標(biāo)簽的相似度,若低于設(shè)定閾值,則視為匹配不合理,并進(jìn)行反饋;
39、驗(yàn)證數(shù)據(jù)項(xiàng)的關(guān)鍵信息是否完整;
40、利用預(yù)設(shè)的校驗(yàn)邏輯或外部數(shù)據(jù)源驗(yàn)證數(shù)據(jù)項(xiàng)中的具體信息是否準(zhǔn)確。
41、第二方面,本專(zhuān)利技術(shù)還公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成系統(tǒng),包括:
42、數(shù)據(jù)獲取模塊,用于獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理;
43、句子嵌入模塊,用于使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量;
44、智能推薦模塊,用于通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng);
45、校驗(yàn)反饋模塊,用于基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋。
46、第三方面,本專(zhuān)利技術(shù)還公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成裝置,包括:
47、存儲(chǔ)器,用于存儲(chǔ)數(shù)據(jù)目錄匹配優(yōu)化與生成程序;
48、處理器,用于執(zhí)行所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序時(shí)實(shí)現(xiàn)如上文任一項(xiàng)所述數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。
49、第四方面,本專(zhuān)利技術(shù)還公開(kāi)了一種可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)目錄匹配優(yōu)化與生成程序,所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文任一項(xiàng)所述數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。
50、對(duì)比現(xiàn)有技術(shù),本專(zhuān)利技術(shù)有益效果在于:本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括:
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述使用SBERT模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量,包括:
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述SBERT模型采用Siamese網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化:
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng),包括:
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋,包括:
8.一種數(shù)據(jù)目錄匹配優(yōu)化與生成系統(tǒng),其特征在于,包括:
9.一種數(shù)據(jù)目錄匹配優(yōu)化與生成裝置,其特征在于,包括:
10.一種可讀存儲(chǔ)介質(zhì),其特征在于:所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)目錄匹配優(yōu)化與生成程序,所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)權(quán)利要求所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。
...【技術(shù)特征摘要】
1.一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括:
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量,包括:
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述sbert模型采用siamese網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化:
6.根據(jù)權(quán)利...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:賈曉豐,章敏,王宇航,駱亦飛,張健楓,
申請(qǐng)(專(zhuān)利權(quán))人:北京市大數(shù)據(jù)中心,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。