當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>北京市大數(shù)據(jù)中心專(zhuān)利>正文

一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：44184516 閱讀：18 留言：0更新日期：2025-02-06 18:26

本發(fā)明專(zhuān)利技術(shù)提出的一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì)，屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。所述方法包括：獲取待治理的文本數(shù)據(jù)，形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)，并進(jìn)行數(shù)據(jù)預(yù)處理；使用SBERT模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理，生成句子的嵌入向量；通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量，識(shí)別出相關(guān)的內(nèi)容，基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng)；基于推薦的數(shù)據(jù)目錄項(xiàng)，進(jìn)行質(zhì)量校驗(yàn)和反饋。本發(fā)明專(zhuān)利技術(shù)通過(guò)對(duì)系統(tǒng)自定義文本數(shù)據(jù)以及數(shù)據(jù)目錄文本的向量化處理并通過(guò)SBERT模型進(jìn)行相似度計(jì)算以及智能化推薦，實(shí)現(xiàn)了對(duì)復(fù)雜信息系統(tǒng)目錄匹配結(jié)果的完善與優(yōu)化。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)涉及數(shù)據(jù)處理，更具體的說(shuō)是涉及一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì)。

技術(shù)介紹

1、隨著信息技術(shù)的日新月異，各行各業(yè)在數(shù)字化轉(zhuǎn)型的浪潮中積累了前所未有的海量數(shù)據(jù)資源。這些數(shù)據(jù)不僅是組織決策的寶貴依據(jù)，也是推動(dòng)業(yè)務(wù)創(chuàng)新與技術(shù)進(jìn)步的關(guān)鍵力量。然而，面對(duì)數(shù)據(jù)量大、種類(lèi)繁多、更新頻率高的現(xiàn)實(shí)挑戰(zhàn)，傳統(tǒng)的人工管理數(shù)據(jù)目錄的方式顯得力不從心。它不僅效率低下，難以滿足快速響應(yīng)業(yè)務(wù)需求的能力，而且在準(zhǔn)確性方面也存在諸多不足，容易引發(fā)數(shù)據(jù)混亂和誤解。

2、數(shù)據(jù)目錄作為數(shù)據(jù)資源管理的核心組成部分，其準(zhǔn)確性和高效性直接關(guān)系到數(shù)據(jù)的檢索效率、分析質(zhì)量以及利用價(jià)值。一個(gè)優(yōu)秀的數(shù)據(jù)目錄能夠幫助用戶迅速定位所需信息，提升數(shù)據(jù)處理的時(shí)效性和準(zhǔn)確性，進(jìn)而為組織的決策支持和業(yè)務(wù)發(fā)展提供有力支撐。

3、然而，當(dāng)前許多組織的數(shù)據(jù)資源目錄鏈卻面臨著諸多問(wèn)題。目錄數(shù)據(jù)結(jié)構(gòu)與系統(tǒng)數(shù)據(jù)之間的匹配關(guān)系混亂不堪，導(dǎo)致數(shù)據(jù)定位困難，難以迅速找到所需資源。同時(shí)，數(shù)據(jù)目錄的質(zhì)量參差不齊，存在著大量的重復(fù)、錯(cuò)誤和遺漏信息，嚴(yán)重影響了數(shù)據(jù)的可用性和可信度。此外，由于文本數(shù)據(jù)的復(fù)雜性和多樣性，傳統(tǒng)的匹配方法往往難以有效應(yīng)對(duì)，使得數(shù)據(jù)目錄的智能化水平大打折扣。

技術(shù)實(shí)現(xiàn)思路

1、針對(duì)以上問(wèn)題，本專(zhuān)利技術(shù)的目的在于提供一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì)，通過(guò)對(duì)系統(tǒng)自定義文本數(shù)據(jù)以及數(shù)據(jù)目錄文本的向量化處理并通過(guò)sbert模型進(jìn)行相似度計(jì)算以及智能化推薦，實(shí)現(xiàn)了對(duì)復(fù)雜信息系統(tǒng)目錄匹配結(jié)果的完善與優(yōu)化。

2、本專(zhuān)利技術(shù)為實(shí)現(xiàn)上述目的，通過(guò)以下技術(shù)方案實(shí)現(xiàn)：

3、第一方面，本專(zhuān)利技術(shù)公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法，包括：

4、獲取待治理的文本數(shù)據(jù)，形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)，并進(jìn)行數(shù)據(jù)預(yù)處理；

5、使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理，生成句子的嵌入向量；

6、通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量，識(shí)別出相關(guān)的內(nèi)容，基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng)；

7、基于推薦的數(shù)據(jù)目錄項(xiàng)，進(jìn)行質(zhì)量校驗(yàn)和反饋。

8、進(jìn)一步，所述獲取待治理的文本數(shù)據(jù)，形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)，并進(jìn)行數(shù)據(jù)預(yù)處理，包括：

9、在組織的業(yè)務(wù)信息系統(tǒng)中獲取待治理的管理?xiàng)l例、業(yè)務(wù)公告和自定義文本數(shù)據(jù)，作為待優(yōu)化數(shù)據(jù)；

10、根據(jù)現(xiàn)有的數(shù)據(jù)目錄以及需提煉的數(shù)據(jù)資源目錄生成資源數(shù)據(jù)；

11、對(duì)待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理。

12、進(jìn)一步，所述方法還包括將治理后的文本數(shù)據(jù)輸入大模型以生成智能目錄生成智能目錄。具體流程包括：

13、對(duì)治理后的文本數(shù)據(jù)進(jìn)行語(yǔ)義分析，基于文本數(shù)據(jù)資源生成相關(guān)的數(shù)據(jù)資源目錄；

14、對(duì)相關(guān)的表格數(shù)據(jù)進(jìn)行專(zhuān)業(yè)的表格分析，通過(guò)多模態(tài)理解能力，對(duì)多元的數(shù)據(jù)資源進(jìn)行統(tǒng)一的數(shù)據(jù)資源目錄生成；

15、將生成的數(shù)據(jù)資源目錄進(jìn)行統(tǒng)一導(dǎo)出，對(duì)現(xiàn)有數(shù)據(jù)資源目錄進(jìn)行補(bǔ)充，并且繼續(xù)完善。

16、進(jìn)一步，所述方法還包括：

17、獲取數(shù)據(jù)資源及相關(guān)的數(shù)據(jù)目錄鏈文本資源，使用三元組損失函數(shù)對(duì)sbert模型進(jìn)行訓(xùn)練，以提高模型的深層語(yǔ)義特征捕捉能量；

18、三元組損失函數(shù)為：

19、

20、其中，a是錨點(diǎn)句子的嵌入向量，p是與錨點(diǎn)句子相似的正樣本句子的嵌入向量，n是與錨點(diǎn)句子不相似的負(fù)樣本句子的嵌入向量，函數(shù)d表示兩個(gè)向量之間的距離，m是邊距參數(shù)。

21、進(jìn)一步，所述使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理，生成句子的嵌入向量，包括：

22、基于預(yù)處理后的數(shù)據(jù)，使用詞嵌入模型，提取其中的句子，并將句子中的每個(gè)詞轉(zhuǎn)換為詞向量；

23、將詞向量輸入到sbert模型中，通過(guò)其多個(gè)transformer層處理輸入的詞向量，生成句子的嵌入向量。

24、進(jìn)一步，所述sbert模型采用siamese網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化：

25、

26、其中，是輸入和的嵌入向量之間的距離，是一個(gè)標(biāo)簽，表示樣本對(duì)是否相似。

27、進(jìn)一步，所述通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量，識(shí)別出相關(guān)的內(nèi)容，基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng)，包括：

28、通過(guò)如下公式進(jìn)行句子向量化：

29、sentence_embedding?=?(word_embedding_1?+?word_embedding_2?+?...?+word_embedding_n)?/?n

30、其中，n是句子中的詞數(shù)，word_embedding_i是句子中第i個(gè)詞的向量表示；

31、使用sbert模型計(jì)算待優(yōu)化數(shù)據(jù)的句子的嵌入向量與資源數(shù)據(jù)的句子的嵌入向量之間的余弦相似度；

32、所述sbert模型采用的余弦相似度計(jì)算公式為：

33、

34、其中，和分別代表兩個(gè)句子的嵌入向量，表示兩個(gè)向量的點(diǎn)積，和分別表示兩個(gè)嵌入向量的模長(zhǎng)；

35、對(duì)計(jì)算出的余弦相似度，根據(jù)預(yù)設(shè)的相似度閾值確定出相關(guān)的文本資源；

36、基于相關(guān)的文本資源，對(duì)余弦相似度進(jìn)行排序，選擇最匹配的文本資源，作為推薦的數(shù)據(jù)目錄項(xiàng)。

37、進(jìn)一步，所述基于推薦的數(shù)據(jù)目錄項(xiàng)，進(jìn)行質(zhì)量校驗(yàn)和反饋，包括：

38、基于推薦的數(shù)據(jù)目錄項(xiàng)，檢查數(shù)據(jù)項(xiàng)與其所在目錄或子目錄的語(yǔ)義一致性，利用sbert模型計(jì)算數(shù)據(jù)項(xiàng)與目錄標(biāo)簽的相似度，若低于設(shè)定閾值，則視為匹配不合理，并進(jìn)行反饋；

39、驗(yàn)證數(shù)據(jù)項(xiàng)的關(guān)鍵信息是否完整；

40、利用預(yù)設(shè)的校驗(yàn)邏輯或外部數(shù)據(jù)源驗(yàn)證數(shù)據(jù)項(xiàng)中的具體信息是否準(zhǔn)確。

41、第二方面，本專(zhuān)利技術(shù)還公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成系統(tǒng)，包括：

42、數(shù)據(jù)獲取模塊，用于獲取待治理的文本數(shù)據(jù)，形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)，并進(jìn)行數(shù)據(jù)預(yù)處理；

43、句子嵌入模塊，用于使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理，生成句子的嵌入向量；

44、智能推薦模塊，用于通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量，識(shí)別出相關(guān)的內(nèi)容，基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng)；

45、校驗(yàn)反饋模塊，用于基于推薦的數(shù)據(jù)目錄項(xiàng)，進(jìn)行質(zhì)量校驗(yàn)和反饋。

46、第三方面，本專(zhuān)利技術(shù)還公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成裝置，包括：

47、存儲(chǔ)器，用于存儲(chǔ)數(shù)據(jù)目錄匹配優(yōu)化與生成程序；

48、處理器，用于執(zhí)行所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序時(shí)實(shí)現(xiàn)如上文任一項(xiàng)所述數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。

49、第四方面，本專(zhuān)利技術(shù)還公開(kāi)了一種可讀存儲(chǔ)介質(zhì)，所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)目錄匹配優(yōu)化與生成程序，所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文任一項(xiàng)所述數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。

50、對(duì)比現(xiàn)有技術(shù)，本專(zhuān)利技術(shù)有益效果在于：...

【技術(shù)保護(hù)點(diǎn)】

1.一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述獲取待治理的文本數(shù)據(jù)，形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)，并進(jìn)行數(shù)據(jù)預(yù)處理，包括：

3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述方法還包括：

4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述使用SBERT模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理，生成句子的嵌入向量，包括：

5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述SBERT模型采用Siamese網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化：

6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量，識(shí)別出相關(guān)的內(nèi)容，基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng)，包括：

7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述基于推薦的數(shù)據(jù)目錄項(xiàng)，進(jìn)行質(zhì)量校驗(yàn)和反饋，包括：

8.一種數(shù)據(jù)目錄匹配優(yōu)化與生成系統(tǒng)，其特征在于，包括：

9.一種數(shù)據(jù)目錄匹配優(yōu)化與生成裝置，其特征在于，包括：

10.一種可讀存儲(chǔ)介質(zhì)，其特征在于：所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)目錄匹配優(yōu)化與生成程序，所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)權(quán)利要求所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。

...

【技術(shù)特征摘要】

1.一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，包括：

3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述方法還包括：

4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理，生成句子的嵌入向量，包括：

5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法，其特征在于，所述sbert模型采用siamese網(wǎng)絡(luò)結(jié)構(gòu)，通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化：

6.根據(jù)權(quán)利...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：賈曉豐，章敏，王宇航，駱亦飛，張健楓，
申請(qǐng)(專(zhuān)利權(quán))人：北京市大數(shù)據(jù)中心，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)