System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)公布一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,涉及自然語言處理。
技術(shù)介紹
1、查詢縮略指的是將冗長且包含大量無關(guān)術(shù)語的查詢縮減為簡潔而準確的形式,并基于縮減后的查詢進行高效檢索,提高檢索結(jié)果的召回率和準確率。在實際應(yīng)用中,查詢縮略的過程通常涉及識別和去除查詢中停用詞和不必要的修飾語,提取能夠準確表達查詢核心內(nèi)容的關(guān)鍵詞和短語。
2、目前在查詢縮略任務(wù)的研究中,主要有兩類方法:傳統(tǒng)的統(tǒng)計方法和基于預(yù)訓(xùn)練模型提取關(guān)鍵詞的方法。然而,使用上述方法在進行縮略查詢時會面臨信息丟失和語義理解的限制。這是因為(1)該方法主要基于詞匯的重要性得分進行縮略,而縮略結(jié)果中的語義不連貫破壞了原查詢的整體語義結(jié)構(gòu),無法全面反映查詢的核心內(nèi)容。(2)也忽視了查詢中的潛在概念。潛在概念是指在查詢語句背后的潛在主題、內(nèi)容,而不是直接顯露在查詢中的具體關(guān)鍵詞或短語。由于缺乏潛在概念的補充,導(dǎo)致檢索結(jié)果的覆蓋面不足。針對上述問題,本文提出了一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)目的在于提供一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,用于提高對冗長查詢的語義理解和核心內(nèi)容提取能力,同時補充了原始查詢中的潛在概念。提升檢索結(jié)果的召回率和準確率。
2、本專利技術(shù)的技術(shù)方案是:一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,包括:
3、針對于關(guān)鍵概念:通過微調(diào)t5模型來生成查詢;根據(jù)輸入文本的語義內(nèi)容生成一個作為關(guān)鍵概念的查詢;
>4、針對潛在概念:使用偽相關(guān)反饋方法挖掘原始查詢的潛在概念;選擇初始檢索結(jié)果中排名靠前的k個文檔中逆文檔頻率最高的n個術(shù)語作為原始查詢的潛在概念;
5、最后,將關(guān)鍵概念的查詢、原始查詢的潛在概念進行聚合,得到最終的縮略查詢。
6、所述方法具體包括如下步驟:
7、step1、下載robust04數(shù)據(jù)集,其中文檔集中包含528155條文檔數(shù)據(jù),查詢集中包含250條查詢數(shù)據(jù),查詢相關(guān)性評估文檔中包含311,410條相關(guān)性評估;
8、step2、將原始查詢通過嵌入層轉(zhuǎn)換成稠密向量,并加上位置編碼。接著,經(jīng)過24層的transformer編碼器進行編碼,得到嵌入表示。解碼器則包括掩碼多頭自注意力機制、編碼器-解碼器注意力機制和前饋神經(jīng)網(wǎng)絡(luò),通過24層的解碼器生成輸出。最后,解碼器的輸出經(jīng)過線性層和softmax層生成每個時間步的概率分布。得到縮略后的查詢;
9、step3、對冗長查詢使用偽相關(guān)反饋方法來挖掘查詢中未明確表達但實際相關(guān)的重要信息;選擇初始檢索結(jié)果中排名靠前的k個文檔中逆文檔頻率最高的n個術(shù)語作為原始查詢的潛在概念;
10、step4、將step2、step3兩個步驟得到的結(jié)果進行聚合,得到最終的縮略查詢。將最終獲得的查詢饋送到檢索器中進行信息檢索。
11、作為本專利技術(shù)的優(yōu)選方案,所述的step1包括:
12、step1.1、從網(wǎng)上下載公開的robust2004數(shù)據(jù)集。
13、step1.2、對robust2004數(shù)據(jù)集中文檔集進行降噪處理,刪掉空白行,重復(fù)行以及有非法字符的行。提取robust2004數(shù)據(jù)集中查詢集中<des>標簽下的查詢作為實際使用的冗長查詢的測試集。人工構(gòu)建訓(xùn)練集,格式對應(yīng)查詢集中的<title>和<desc>標簽。
14、作為本專利技術(shù)的優(yōu)選方案,所述的step2包括:
15、step2.1、將輸入的原始查詢q=(q1,q2,…q|q|)(長度為|q|)通過嵌入層轉(zhuǎn)換成稠密向量,并加上位置編碼,以保留位置信息。其嵌入表示為e(q)=(e(q1),e(q2),…,e(q|q|))。
16、step2.2、輸入嵌入e(q)經(jīng)過24層的transformer編碼器。每一層包含兩個主要的組件:多頭注意力機制和前饋神經(jīng)網(wǎng)絡(luò),最后編碼器的輸出表示為:h(q)=(h1,h2,…,h|q|)。
17、step2.3、解碼器每層包含三個主要組件:掩碼多頭自注意力機制,編碼器-解碼器注意力機制,前饋神經(jīng)網(wǎng)絡(luò)。通過24層的解碼器進行解碼,得到解碼器的輸出表示:y=(y1,y2,…,y|m|)。
18、step2.4、解碼器的最終輸出通過線性層映射到詞匯表大小的向量,并通過softmax層生成每個時間步的概率分布。
19、作為本專利技術(shù)的優(yōu)選方案,所述的step3包括:
20、step3.1、給定原始輸入查詢q=(q1,q2,…q|q|)和文檔集中的其中一個文檔d=(d1,d2,…,d|d|)。查詢和文檔的長度分別為|q|和|d|。使用預(yù)訓(xùn)練的bert模型分別對查詢和文檔進行編碼,每個查詢和文檔都會被編碼成一個高維向量表示。兩者的向量分別表示為e′(q)和e(d)。
21、step3.2、在查詢和文檔的向量空間中,通過計算查詢和文檔每個詞的內(nèi)積來度量兩者的相似度。相似度得分矩陣s的元素sij表示查詢中的第i個詞qi和文檔中的第j個詞dj的相似度。
22、step3.3、為了得到查詢和文檔的最終相關(guān)性得分,本文通過最大池化(max-pooling)對相似度得分矩陣s進行聚合。
23、step3.4、經(jīng)過第一次密集檢索后,選取每個查詢對應(yīng)的相關(guān)性得分sq,d較高的top-k文檔(本專利技術(shù)方法中k=100)作為相關(guān)文檔集。從這些相關(guān)文檔集中提取逆文檔頻率最高的n個術(shù)語(本專利技術(shù)方法中n=6),這n個術(shù)語即為潛在概念。
24、本專利技術(shù)有益效果:
25、本專利技術(shù)提出了一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,將代表查詢核心內(nèi)容的關(guān)鍵概念和對理解查詢重要但未明確表達的潛在概念相結(jié)合,從而生成更完整和有效的查詢。主要包括三個方面:首先利用預(yù)訓(xùn)練模型來生成簡短有效的查詢作為關(guān)鍵概念,然后使用偽相關(guān)反饋方法從原始查詢的相關(guān)文檔集中挖掘潛在概念,最后,將兩者聚合作為最終的查詢縮略結(jié)果,實現(xiàn)冗長查詢檢索。
26、本專利技術(shù)提出的融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,驗證了本專利技術(shù)方法對冗長查詢縮略任務(wù)的有效性,提升檢索結(jié)果的召回率和準確率。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,包括:
2.如權(quán)利要求1所述的融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,包括下列步驟:
3.如權(quán)利要求2所述的融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,所述Step1的具體實現(xiàn)包括:
4.如權(quán)利要求2所述的融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,所述Step2的具體實現(xiàn)包括:
5.如權(quán)利要求2所述的一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,所述Step3的具體實現(xiàn)包括:
【技術(shù)特征摘要】
1.一種融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,包括:
2.如權(quán)利要求1所述的融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,包括下列步驟:
3.如權(quán)利要求2所述的融合關(guān)鍵概念和潛在概念的冗長查詢縮略方法,其特征在于,所述s...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:黃于欣,朱銘洋,余正濤,
申請(專利權(quán))人:昆明理工大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。