System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩爆乳一区二区无码,av潮喷大喷水系列无码,亚洲中文无码卡通动漫野外
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì)制造方法及圖紙

    技術(shù)編號(hào):44184516 閱讀:18 留言:0更新日期:2025-02-06 18:26
    本發(fā)明專(zhuān)利技術(shù)提出的一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì),屬于數(shù)據(jù)處理技術(shù)領(lǐng)域。所述方法包括:獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理;使用SBERT模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量;通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng);基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋。本發(fā)明專(zhuān)利技術(shù)通過(guò)對(duì)系統(tǒng)自定義文本數(shù)據(jù)以及數(shù)據(jù)目錄文本的向量化處理并通過(guò)SBERT模型進(jìn)行相似度計(jì)算以及智能化推薦,實(shí)現(xiàn)了對(duì)復(fù)雜信息系統(tǒng)目錄匹配結(jié)果的完善與優(yōu)化。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)涉及數(shù)據(jù)處理,更具體的說(shuō)是涉及一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì)


    技術(shù)介紹

    1、隨著信息技術(shù)的日新月異,各行各業(yè)在數(shù)字化轉(zhuǎn)型的浪潮中積累了前所未有的海量數(shù)據(jù)資源。這些數(shù)據(jù)不僅是組織決策的寶貴依據(jù),也是推動(dòng)業(yè)務(wù)創(chuàng)新與技術(shù)進(jìn)步的關(guān)鍵力量。然而,面對(duì)數(shù)據(jù)量大、種類(lèi)繁多、更新頻率高的現(xiàn)實(shí)挑戰(zhàn),傳統(tǒng)的人工管理數(shù)據(jù)目錄的方式顯得力不從心。它不僅效率低下,難以滿足快速響應(yīng)業(yè)務(wù)需求的能力,而且在準(zhǔn)確性方面也存在諸多不足,容易引發(fā)數(shù)據(jù)混亂和誤解。

    2、數(shù)據(jù)目錄作為數(shù)據(jù)資源管理的核心組成部分,其準(zhǔn)確性和高效性直接關(guān)系到數(shù)據(jù)的檢索效率、分析質(zhì)量以及利用價(jià)值。一個(gè)優(yōu)秀的數(shù)據(jù)目錄能夠幫助用戶迅速定位所需信息,提升數(shù)據(jù)處理的時(shí)效性和準(zhǔn)確性,進(jìn)而為組織的決策支持和業(yè)務(wù)發(fā)展提供有力支撐。

    3、然而,當(dāng)前許多組織的數(shù)據(jù)資源目錄鏈卻面臨著諸多問(wèn)題。目錄數(shù)據(jù)結(jié)構(gòu)與系統(tǒng)數(shù)據(jù)之間的匹配關(guān)系混亂不堪,導(dǎo)致數(shù)據(jù)定位困難,難以迅速找到所需資源。同時(shí),數(shù)據(jù)目錄的質(zhì)量參差不齊,存在著大量的重復(fù)、錯(cuò)誤和遺漏信息,嚴(yán)重影響了數(shù)據(jù)的可用性和可信度。此外,由于文本數(shù)據(jù)的復(fù)雜性和多樣性,傳統(tǒng)的匹配方法往往難以有效應(yīng)對(duì),使得數(shù)據(jù)目錄的智能化水平大打折扣。


    技術(shù)實(shí)現(xiàn)思路

    1、針對(duì)以上問(wèn)題,本專(zhuān)利技術(shù)的目的在于提供一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法、系統(tǒng)、裝置及介質(zhì),通過(guò)對(duì)系統(tǒng)自定義文本數(shù)據(jù)以及數(shù)據(jù)目錄文本的向量化處理并通過(guò)sbert模型進(jìn)行相似度計(jì)算以及智能化推薦,實(shí)現(xiàn)了對(duì)復(fù)雜信息系統(tǒng)目錄匹配結(jié)果的完善與優(yōu)化。

    2、本專(zhuān)利技術(shù)為實(shí)現(xiàn)上述目的,通過(guò)以下技術(shù)方案實(shí)現(xiàn):

    3、第一方面,本專(zhuān)利技術(shù)公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法,包括:

    4、獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理;

    5、使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量;

    6、通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng);

    7、基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋。

    8、進(jìn)一步,所述獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括:

    9、在組織的業(yè)務(wù)信息系統(tǒng)中獲取待治理的管理?xiàng)l例、業(yè)務(wù)公告和自定義文本數(shù)據(jù),作為待優(yōu)化數(shù)據(jù);

    10、根據(jù)現(xiàn)有的數(shù)據(jù)目錄以及需提煉的數(shù)據(jù)資源目錄生成資源數(shù)據(jù);

    11、對(duì)待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理。

    12、進(jìn)一步,所述方法還包括將治理后的文本數(shù)據(jù)輸入大模型以生成智能目錄生成智能目錄。具體流程包括:

    13、對(duì)治理后的文本數(shù)據(jù)進(jìn)行語(yǔ)義分析,基于文本數(shù)據(jù)資源生成相關(guān)的數(shù)據(jù)資源目錄;

    14、對(duì)相關(guān)的表格數(shù)據(jù)進(jìn)行專(zhuān)業(yè)的表格分析,通過(guò)多模態(tài)理解能力,對(duì)多元的數(shù)據(jù)資源進(jìn)行統(tǒng)一的數(shù)據(jù)資源目錄生成;

    15、將生成的數(shù)據(jù)資源目錄進(jìn)行統(tǒng)一導(dǎo)出,對(duì)現(xiàn)有數(shù)據(jù)資源目錄進(jìn)行補(bǔ)充,并且繼續(xù)完善。

    16、進(jìn)一步,所述方法還包括:

    17、獲取數(shù)據(jù)資源及相關(guān)的數(shù)據(jù)目錄鏈文本資源,使用三元組損失函數(shù)對(duì)sbert模型進(jìn)行訓(xùn)練,以提高模型的深層語(yǔ)義特征捕捉能量;

    18、三元組損失函數(shù)為:

    19、

    20、其中,a是錨點(diǎn)句子的嵌入向量,p是與錨點(diǎn)句子相似的正樣本句子的嵌入向量,n是與錨點(diǎn)句子不相似的負(fù)樣本句子的嵌入向量,函數(shù)d表示兩個(gè)向量之間的距離,m是邊距參數(shù)。

    21、進(jìn)一步,所述使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量,包括:

    22、基于預(yù)處理后的數(shù)據(jù),使用詞嵌入模型,提取其中的句子,并將句子中的每個(gè)詞轉(zhuǎn)換為詞向量;

    23、將詞向量輸入到sbert模型中,通過(guò)其多個(gè)transformer層處理輸入的詞向量,生成句子的嵌入向量。

    24、進(jìn)一步,所述sbert模型采用siamese網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化:

    25、

    26、其中,是輸入和的嵌入向量之間的距離,是一個(gè)標(biāo)簽,表示樣本對(duì)是否相似。

    27、進(jìn)一步,所述通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng),包括:

    28、通過(guò)如下公式進(jìn)行句子向量化:

    29、sentence_embedding?=?(word_embedding_1?+?word_embedding_2?+?...?+word_embedding_n)?/?n

    30、其中,n是句子中的詞數(shù),word_embedding_i是句子中第i個(gè)詞的向量表示;

    31、使用sbert模型計(jì)算待優(yōu)化數(shù)據(jù)的句子的嵌入向量與資源數(shù)據(jù)的句子的嵌入向量之間的余弦相似度;

    32、所述sbert模型采用的余弦相似度計(jì)算公式為:

    33、

    34、其中,和分別代表兩個(gè)句子的嵌入向量,表示兩個(gè)向量的點(diǎn)積,和分別表示兩個(gè)嵌入向量的模長(zhǎng);

    35、對(duì)計(jì)算出的余弦相似度,根據(jù)預(yù)設(shè)的相似度閾值確定出相關(guān)的文本資源;

    36、基于相關(guān)的文本資源,對(duì)余弦相似度進(jìn)行排序,選擇最匹配的文本資源,作為推薦的數(shù)據(jù)目錄項(xiàng)。

    37、進(jìn)一步,所述基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋,包括:

    38、基于推薦的數(shù)據(jù)目錄項(xiàng),檢查數(shù)據(jù)項(xiàng)與其所在目錄或子目錄的語(yǔ)義一致性,利用sbert模型計(jì)算數(shù)據(jù)項(xiàng)與目錄標(biāo)簽的相似度,若低于設(shè)定閾值,則視為匹配不合理,并進(jìn)行反饋;

    39、驗(yàn)證數(shù)據(jù)項(xiàng)的關(guān)鍵信息是否完整;

    40、利用預(yù)設(shè)的校驗(yàn)邏輯或外部數(shù)據(jù)源驗(yàn)證數(shù)據(jù)項(xiàng)中的具體信息是否準(zhǔn)確。

    41、第二方面,本專(zhuān)利技術(shù)還公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成系統(tǒng),包括:

    42、數(shù)據(jù)獲取模塊,用于獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理;

    43、句子嵌入模塊,用于使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量;

    44、智能推薦模塊,用于通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng);

    45、校驗(yàn)反饋模塊,用于基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋。

    46、第三方面,本專(zhuān)利技術(shù)還公開(kāi)了一種數(shù)據(jù)目錄匹配優(yōu)化與生成裝置,包括:

    47、存儲(chǔ)器,用于存儲(chǔ)數(shù)據(jù)目錄匹配優(yōu)化與生成程序;

    48、處理器,用于執(zhí)行所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序時(shí)實(shí)現(xiàn)如上文任一項(xiàng)所述數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。

    49、第四方面,本專(zhuān)利技術(shù)還公開(kāi)了一種可讀存儲(chǔ)介質(zhì),所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)目錄匹配優(yōu)化與生成程序,所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上文任一項(xiàng)所述數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。

    50、對(duì)比現(xiàn)有技術(shù),本專(zhuān)利技術(shù)有益效果在于:...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括:

    3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述方法還包括:

    4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述使用SBERT模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量,包括:

    5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述SBERT模型采用Siamese網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化:

    6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述通過(guò)對(duì)句子的嵌入向量之間進(jìn)行相似度度量,識(shí)別出相關(guān)的內(nèi)容,基于相似度度量結(jié)果推薦數(shù)據(jù)目錄項(xiàng),包括:

    7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述基于推薦的數(shù)據(jù)目錄項(xiàng),進(jìn)行質(zhì)量校驗(yàn)和反饋,包括:

    8.一種數(shù)據(jù)目錄匹配優(yōu)化與生成系統(tǒng),其特征在于,包括:

    9.一種數(shù)據(jù)目錄匹配優(yōu)化與生成裝置,其特征在于,包括:

    10.一種可讀存儲(chǔ)介質(zhì),其特征在于:所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)目錄匹配優(yōu)化與生成程序,所述數(shù)據(jù)目錄匹配優(yōu)化與生成程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7任一項(xiàng)權(quán)利要求所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述獲取待治理的文本數(shù)據(jù),形成待優(yōu)化數(shù)據(jù)和資源數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,包括:

    3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述方法還包括:

    4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述使用sbert模型對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行向量化處理,生成句子的嵌入向量,包括:

    5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)目錄匹配優(yōu)化與生成方法,其特征在于,所述sbert模型采用siamese網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)以下的損失函數(shù)進(jìn)行模型優(yōu)化:

    6.根據(jù)權(quán)利...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:賈曉豐章敏王宇航駱亦飛張健楓
    申請(qǐng)(專(zhuān)利權(quán))人:北京市大數(shù)據(jù)中心
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢(xún)問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久久久亚洲av无码专区导航| 亚洲精品无码永久在线观看你懂的| 91精品久久久久久无码| 无码人妻丰满熟妇区BBBBXXXX | 无码中文字幕av免费放| 国产色无码精品视频国产| 无码人妻一区二区三区免费看 | 国产乱妇无码大片在线观看| 日韩乱码人妻无码中文字幕视频| 精品日韩亚洲AV无码一区二区三区| 无码国模国产在线无码精品国产自在久国产 | 中文无码不卡的岛国片| 精选观看中文字幕高清无码| 亚洲欧洲免费无码| 无码137片内射在线影院| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 高清无码视频直接看| 日韩精品无码人妻一区二区三区| 精品日韩亚洲AV无码| 日韩人妻无码精品久久久不卡| 日韩中文无码有码免费视频| 天堂Av无码Av一区二区三区| 精品人妻无码区二区三区| 无码国内精品人妻少妇| 国产午夜片无码区在线播放 | 亚洲精品色午夜无码专区日韩| 在线无码视频观看草草视频| 国产精品无码一区二区在线观| 亚洲午夜无码久久久久小说| 最新中文字幕av无码专区 | 无码人妻AⅤ一区二区三区水密桃| 亚洲国产成人精品无码区二本 | 久久久久无码国产精品不卡| 人妻少妇无码视频在线| 亚洲AV无码一区二区三区在线观看| 国产精品无码久久av| 无码人妻一区二区三区精品视频 | 亚洲av无码不卡私人影院| 亚洲高清无码专区视频| 中文字幕无码日韩专区免费| 中文字幕无码乱人伦|