System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)屬于信息處理,具體涉及一種多模態(tài)權(quán)重文件的壓縮方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、傳統(tǒng)的信息檢索方法主要依賴于關(guān)鍵詞匹配,但在實(shí)際應(yīng)用中,由于大量的文檔或片段可能與查詢關(guān)鍵詞部分匹配,但其中許多內(nèi)容可能與用戶的實(shí)際需求相去甚遠(yuǎn),另外,直接從海量數(shù)據(jù)中提取有用的信息,特別是對(duì)于那些包含多種模態(tài)(如文本、圖像、音頻等)的數(shù)據(jù),對(duì)計(jì)算資源和處理速度提出了極高的要求。
2、在現(xiàn)有技術(shù)中,當(dāng)用戶輸入查詢內(nèi)容時(shí),通常會(huì)返回大量與之匹配的文檔或片段。然而,這些文檔或片段中往往包含了大量與用戶實(shí)際需求無(wú)關(guān)或關(guān)聯(lián)度較低的信息,這些信息的存在不僅增加了用戶篩選信息的難度,還極大地浪費(fèi)了計(jì)算資源,從而降低了信息檢索的準(zhǔn)確性與效率。
3、基于此,本申請(qǐng)?zhí)岢鲆环N多模態(tài)權(quán)重文件的壓縮方法,用以解決上述技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N多模態(tài)權(quán)重文件的壓縮方法、系統(tǒng)、裝置及存儲(chǔ)介質(zhì),用于提高信息檢索的準(zhǔn)確性。
2、下面對(duì)本申請(qǐng)中提供的技術(shù)方案進(jìn)行描述:
3、本申請(qǐng)第一方面提供了一種多模態(tài)權(quán)重文件的壓縮方法,包括:
4、基于用戶輸入的查詢關(guān)鍵詞,檢索并獲取第一查詢文檔集合,所述第一查詢文檔集合包括多個(gè)與所述查詢關(guān)鍵詞匹配的文檔或片段;
5、將所述第一查詢文檔集合的每個(gè)查詢文檔分別進(jìn)行相關(guān)性分析,得到每個(gè)查詢文檔對(duì)應(yīng)的相似分值,得到相似分值集合,所述相似分值表示查詢文檔與查詢關(guān)鍵詞之間的關(guān)聯(lián)程度;
6、確定所述相似分值集合中分值小于預(yù)設(shè)的相似閾值的劣質(zhì)文檔,并將所述劣質(zhì)文檔從所述第一查詢文檔集合中剔除,得到第二查詢文檔集合;
7、對(duì)所述第二查詢文檔集中的每個(gè)查詢文檔提取關(guān)鍵信息,并基于所述關(guān)鍵信息生成每個(gè)查詢文檔對(duì)應(yīng)的摘要文本,得到摘要文本集合;
8、提取所述摘要文本中的關(guān)鍵詞,形成關(guān)鍵詞列表;
9、根據(jù)所述關(guān)鍵詞列表,對(duì)所述摘要文本集合中每個(gè)所述摘要文本進(jìn)行冗余信息剔除,并進(jìn)行預(yù)設(shè)格式的轉(zhuǎn)化,得到目標(biāo)摘要文本集合;
10、基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序;
11、將排序好的摘要文本集合輸入到多模態(tài)大模型中,以使得所述多模態(tài)大模型根據(jù)排序信息生成所述查詢關(guān)鍵詞對(duì)應(yīng)的知識(shí)。
12、可選的,在所述基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序之后,在所述對(duì)排序好的摘要文本集合輸入到多模態(tài)大模型中之前,所述壓縮方法還包括:
13、獲取排序好的摘要文本集合與所述第二查詢文檔集合之間的知識(shí)鏈接,所述知識(shí)鏈接用于所述多模態(tài)大模型根據(jù)摘要文本確定與其對(duì)應(yīng)的查詢文檔;
14、所述將排序好的摘要文本集合輸入到多模態(tài)大模型中,包括:
15、將排序好的摘要文本以及與其對(duì)應(yīng)的知識(shí)鏈接、關(guān)鍵詞輸入到多模態(tài)大模型中。
16、可選的,所述將所述第一查詢文檔集合的每個(gè)查詢文檔分別進(jìn)行相關(guān)性分析,包括:
17、使用bm25算法計(jì)算所述查詢關(guān)鍵詞與每個(gè)查詢文檔之間的相似分值;
18、所述bm25算法采用如下式子:
19、式子①
20、式子②
21、其中,idf(qi)為查詢?cè)~qi在查詢文檔集合中的稀有值,n是查詢文檔集合中的查詢文檔的總數(shù),df(qi)是包含查詢關(guān)鍵詞qi的查詢文檔的數(shù)量,q是查詢關(guān)鍵詞集合,d是查詢文檔,n是查詢?cè)~的數(shù)量,f(qi,d)是查詢關(guān)鍵詞qi在查詢文檔d中出現(xiàn)的頻率,k1和b是經(jīng)驗(yàn)值,由人為設(shè)定,dl是查詢文檔d的長(zhǎng)度,avgdl是查詢文檔集合中所有查詢文檔的平均長(zhǎng)度。
22、可選的,所述基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序,包括:
23、對(duì)目標(biāo)摘要文本集合中的各個(gè)摘要文本進(jìn)行相似分值計(jì)算;
24、根據(jù)計(jì)算得到的相似分值按照從高到低的排序?qū)γ總€(gè)摘要文本進(jìn)行排序。
25、可選的,所述對(duì)所述摘要文本集合中每個(gè)所述摘要文本進(jìn)行冗余信息剔除,包括
26、基于語(yǔ)義相似度判斷規(guī)則在每個(gè)摘要文本中確定與所述關(guān)鍵詞的語(yǔ)義不相關(guān)的冗余信息,并將所述冗余信息剔除。
27、可選的,所述基于語(yǔ)義相似度判斷規(guī)則在每個(gè)摘要文本中確定與所述關(guān)鍵詞的語(yǔ)義不相關(guān)的冗余信息,包括:
28、將所述每個(gè)摘要文本中的文本片段進(jìn)行向量化處理,得到多個(gè)文本向量;
29、將每個(gè)關(guān)鍵詞進(jìn)行向量化處理,得到關(guān)鍵詞向量;
30、利用余弦相似度的方式計(jì)算所述文本向量與所述關(guān)鍵詞向量之間的夾角值;
31、確定所述夾角值小于預(yù)設(shè)相似度閾值對(duì)應(yīng)的目標(biāo)文本片段,將所述目標(biāo)文本片段從所述摘要文本中剔除。
32、可選的,所述基于用戶輸入的查詢關(guān)鍵詞,包括:
33、對(duì)所述查詢關(guān)鍵詞進(jìn)行預(yù)處理,所述預(yù)處理包括去除停用詞、拼寫糾正以及同義詞替換。
34、本申請(qǐng)第二方面提供了一種多模態(tài)權(quán)重文件的壓縮系統(tǒng),包括:
35、檢索單元,用于基于用戶輸入的查詢關(guān)鍵詞,檢索并獲取第一查詢文檔集合,所述第一查詢文檔集合包括多個(gè)與所述查詢關(guān)鍵詞匹配的文檔或片段;
36、分析單元,用于將所述第一查詢文檔集合的每個(gè)查詢文檔分別進(jìn)行相關(guān)性分析,得到每個(gè)查詢文檔對(duì)應(yīng)的相似分值,得到相似分值集合,所述相似分值表示查詢文檔與查詢關(guān)鍵詞之間的關(guān)聯(lián)程度;
37、第一剔除單元,用于確定所述相似分值集合中分值小于預(yù)設(shè)的相似閾值的劣質(zhì)文檔,并將所述劣質(zhì)文檔從所述第一查詢文檔集合中剔除,得到第二查詢文檔集合;
38、生成單元,用于對(duì)所述第二查詢文檔集中的每個(gè)查詢文檔提取關(guān)鍵信息,并基于所述關(guān)鍵信息生成每個(gè)查詢文檔對(duì)應(yīng)的摘要文本,得到摘要文本集合;
39、提取單元,用于提取所述摘要文本中的關(guān)鍵詞,形成關(guān)鍵詞列表;
40、第二剔除單元,用于根據(jù)所述關(guān)鍵詞列表,對(duì)所述摘要文本集合中每個(gè)所述摘要文本進(jìn)行冗余信息剔除,并進(jìn)行預(yù)設(shè)格式的轉(zhuǎn)化,得到目標(biāo)摘要文本集合;
41、排序單元,用于基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序;
42、輸入單元,用于將排序好的摘要文本集合輸入到多模態(tài)大模型中,以使得所述多模態(tài)大模型根據(jù)排序信息生成所述查詢關(guān)鍵詞對(duì)應(yīng)的知識(shí)。
43、可選的,所述壓縮系統(tǒng)還包括:
44、獲取單元,用于獲取排序好的摘要文本集合與所述第二查詢文檔集合之間的知識(shí)鏈接,所述知識(shí)鏈接用于所述多模態(tài)大模型根據(jù)摘要文本確定與其對(duì)應(yīng)的查詢文檔;
45、所述輸入單元具體用于將排序好的摘要文本以及與其對(duì)應(yīng)的知識(shí)鏈接、關(guān)鍵詞輸入到多模態(tài)大模型中。
46、可選的,所述分析單元包括:
47、分析模塊,用于使用bm25算法計(jì)算所述查詢關(guān)鍵詞與每個(gè)查詢文檔之間的相似分值;
48、本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種多模態(tài)權(quán)重文件的壓縮方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,在所述基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序之后,在所述將排序好的摘要文本集合輸入到多模態(tài)大模型中之前,所述壓縮方法還包括:
3.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,所述將所述第一查詢文檔集合的每個(gè)查詢文檔分別進(jìn)行相關(guān)性分析,包括:
4.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,所述基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序,包括:
5.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,所述對(duì)所述摘要文本集合中每個(gè)所述摘要文本進(jìn)行冗余信息剔除,包括
6.根據(jù)權(quán)利要求5所述的壓縮方法,其特征在于,所述基于語(yǔ)義相似度判斷規(guī)則在每個(gè)摘要文本中確定與所述關(guān)鍵詞的語(yǔ)義不相關(guān)的冗余信息,包括:
7.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,所述基于用戶輸入的查詢關(guān)鍵詞,包括:
8.一種多模態(tài)權(quán)重文件的壓縮系統(tǒng),其特征在于,包括:
9.一種多模態(tài)權(quán)重文件的壓縮
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上保存有程序,所述程序在計(jì)算機(jī)上執(zhí)行時(shí)執(zhí)行如權(quán)利要求1至7中任一項(xiàng)所述壓縮方法。
...【技術(shù)特征摘要】
1.一種多模態(tài)權(quán)重文件的壓縮方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,在所述基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序之后,在所述將排序好的摘要文本集合輸入到多模態(tài)大模型中之前,所述壓縮方法還包括:
3.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,所述將所述第一查詢文檔集合的每個(gè)查詢文檔分別進(jìn)行相關(guān)性分析,包括:
4.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,所述基于預(yù)設(shè)的排序規(guī)則對(duì)所述目標(biāo)摘要文本集合中各個(gè)摘要文本進(jìn)行排序,包括:
5.根據(jù)權(quán)利要求1所述的壓縮方法,其特征在于,所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:鄧富城,徐雷,陳振杰,羅韻,
申請(qǐng)(專利權(quán))人:山東極視角科技股份有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。