System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及信息檢索,具體涉及一種基于使用場(chǎng)景的檢索模型確定方法及相關(guān)裝置。
技術(shù)介紹
1、隨著大模型的興起,外部知識(shí)庫(kù)的整合和檢索方法被廣泛研究和應(yīng)用,以更新這些大模型的知識(shí)庫(kù),并提升其專業(yè)問(wèn)答能力。然而,在實(shí)踐過(guò)程中,隨著使用場(chǎng)景和用戶數(shù)量的增加,盡管整體檢索框架相似,但發(fā)現(xiàn)針對(duì)不同使用場(chǎng)景所需的大模型存在顯著差異。這種情況下,針對(duì)特定問(wèn)題需要高度依賴于開(kāi)發(fā)人員來(lái)挑選適合該問(wèn)題所屬場(chǎng)景的大模型,以確保其可以提供最佳的表現(xiàn)。但依賴開(kāi)發(fā)人員的選擇需要投入大量時(shí)間和精力去評(píng)估不同大模型的性能,這不僅耗時(shí)而且容易出現(xiàn)判斷失誤的情況。同時(shí)開(kāi)發(fā)人員的知識(shí)和經(jīng)驗(yàn)有限,無(wú)法全面考慮所有潛在的使用場(chǎng)景和需求,導(dǎo)致某些特定場(chǎng)景下的表現(xiàn)不佳。
2、因此,如何減少對(duì)開(kāi)發(fā)人員的依賴,同時(shí)提高大模型在各種使用場(chǎng)景中的適應(yīng)性和準(zhǔn)確性,是本領(lǐng)域技術(shù)人員急需解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、基于上述問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N基于使用場(chǎng)景的檢索模型確定方法及相關(guān)裝置,可以減少對(duì)開(kāi)發(fā)人員的依賴,同時(shí)提高大模型在各種使用場(chǎng)景中的適應(yīng)性和準(zhǔn)確性。
2、本申請(qǐng)實(shí)施例公開(kāi)了如下技術(shù)方案:
3、一種基于使用場(chǎng)景的檢索模型確定方法,所述方法包括:
4、識(shí)別使用場(chǎng)景,基于所述使用場(chǎng)景確定檢索知識(shí)庫(kù);
5、構(gòu)建適用于所述檢索知識(shí)庫(kù)的且具有結(jié)果標(biāo)簽的檢索問(wèn)題集合;所述檢索問(wèn)題集合中包括多個(gè)檢索問(wèn)題;所述結(jié)果標(biāo)簽用于標(biāo)注所述檢索問(wèn)題集合中每一個(gè)檢索問(wèn)題的實(shí)際問(wèn)答結(jié)果;
7、基于所述模型問(wèn)答結(jié)果集合與所述結(jié)果標(biāo)簽的差異得到預(yù)測(cè)偏差;
8、基于所述預(yù)測(cè)偏差調(diào)整所述檢索模型。
9、在一種可能的實(shí)現(xiàn)方式中,所述檢索模型包括依次連接的字面檢索模塊、語(yǔ)義檢索模塊和深度精排模型;
10、其中,所述字面檢索模塊的可變參數(shù)包括字面檢索算法選用參數(shù)、字面檢索段落粒度參數(shù)、字面召回范圍參數(shù);所述語(yǔ)義檢索模塊的可變參數(shù)包括語(yǔ)義表示模型選用參數(shù)、語(yǔ)義召回索引類型選用參數(shù)、語(yǔ)義表示文本長(zhǎng)度參數(shù)和語(yǔ)義召回范圍參數(shù);所述深度精排模型是基于波特模型并結(jié)合排序回顧模型的排序?qū)W習(xí)框架來(lái)構(gòu)建的。
11、在一種可能的實(shí)現(xiàn)方式中,所述基于所述預(yù)測(cè)偏差調(diào)整所述檢索模型,包括:
12、若所述預(yù)測(cè)偏差指示字面檢索召回率低于第一目標(biāo)召回率,則基于所述字面檢索召回率調(diào)整所述字面檢索模塊的可變參數(shù);
13、若所述預(yù)測(cè)偏差指示語(yǔ)義檢索召回率低于第二目標(biāo)召回率,則基于所述語(yǔ)義檢索召回率調(diào)整所述語(yǔ)義檢索模塊的可變參數(shù);
14、若所述預(yù)測(cè)偏差指示精排準(zhǔn)確率低于目標(biāo)準(zhǔn)確率,則基于所述精排準(zhǔn)確率調(diào)整所述深度精排模型的模型參數(shù)。
15、在一種可能的實(shí)現(xiàn)方式中,所述基于所述使用場(chǎng)景確定檢索知識(shí)庫(kù),包括:
16、基于所述使用場(chǎng)景確定目標(biāo)知識(shí)庫(kù);
17、對(duì)所述目標(biāo)知識(shí)庫(kù)中的文檔進(jìn)行解析,得到文檔標(biāo)題和文檔內(nèi)容;
18、對(duì)所述文檔標(biāo)題和所述文檔內(nèi)容進(jìn)行知識(shí)治理,得到所述目標(biāo)知識(shí)庫(kù)的關(guān)鍵詞、摘要以及問(wèn)答對(duì);
19、將所述目標(biāo)知識(shí)庫(kù)的所述關(guān)鍵詞、所述摘要、所述問(wèn)答對(duì)、所述文檔標(biāo)題和所述文檔內(nèi)容整理為所述檢索知識(shí)庫(kù)。
20、在一種可能的實(shí)現(xiàn)方式中,所述知識(shí)治理,包括:格式問(wèn)題治理、段落級(jí)信息治理和篇章級(jí)信息治理。
21、一種基于使用場(chǎng)景的檢索模型確定裝置,所述裝置包括:
22、識(shí)別場(chǎng)景單元,用于識(shí)別使用場(chǎng)景;
23、第一知識(shí)庫(kù)確定單元,用于基于所述使用場(chǎng)景確定檢索知識(shí)庫(kù);
24、構(gòu)建問(wèn)題集合單元,用于構(gòu)建適用于所述檢索知識(shí)庫(kù)的且具有結(jié)果標(biāo)簽的檢索問(wèn)題集合;所述檢索問(wèn)題集合中包括多個(gè)檢索問(wèn)題;所述結(jié)果標(biāo)簽用于標(biāo)注所述檢索問(wèn)題集合中每一個(gè)檢索問(wèn)題的實(shí)際問(wèn)答結(jié)果;
25、檢索單元,用于將所述檢索問(wèn)題集合輸入到檢索模型中進(jìn)行檢索,得到模型問(wèn)答結(jié)果集合;
26、預(yù)測(cè)單元,用于基于所述模型問(wèn)答結(jié)果集合與所述結(jié)果標(biāo)簽的差異得到預(yù)測(cè)偏差;
27、模型調(diào)整單元,用于基于所述預(yù)測(cè)偏差調(diào)整所述檢索模型。
28、在一種可能的實(shí)現(xiàn)方式中,所述檢索模型包括依次連接的字面檢索模塊、語(yǔ)義檢索模塊和深度精排模型;
29、其中,所述字面檢索模塊的可變參數(shù)包括字面檢索算法選用參數(shù)、字面檢索段落粒度參數(shù)、字面召回范圍參數(shù);所述語(yǔ)義檢索模塊的可變參數(shù)包括語(yǔ)義表示模型選用參數(shù)、語(yǔ)義召回索引類型選用參數(shù)、語(yǔ)義表示文本長(zhǎng)度參數(shù)和語(yǔ)義召回范圍參數(shù);所述深度精排模型是基于波特模型并結(jié)合排序回顧模型的排序?qū)W習(xí)框架來(lái)構(gòu)建的。
30、在一種可能的實(shí)現(xiàn)方式中,所述模型調(diào)整單元具體包括:
31、第一調(diào)整單元,若所述預(yù)測(cè)偏差指示字面檢索召回率低于第一目標(biāo)召回率,則用于基于所述字面檢索召回率調(diào)整所述字面檢索模塊的可變參數(shù);
32、第二調(diào)整單元,若所述預(yù)測(cè)偏差指示語(yǔ)義檢索召回率低于第二目標(biāo)召回率,則用于基于所述語(yǔ)義檢索召回率調(diào)整所述語(yǔ)義檢索模塊的可變參數(shù);
33、第三調(diào)整單元,若所述預(yù)測(cè)偏差指示精排準(zhǔn)確率低于目標(biāo)準(zhǔn)確率,則用于基于所述精排準(zhǔn)確率調(diào)整所述深度精排模型的模型參數(shù)。
34、一種基于使用場(chǎng)景的檢索模型確定設(shè)備,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如上所述的基于使用場(chǎng)景的檢索模型確定方法。
35、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行如上所述的基于使用場(chǎng)景的檢索模型確定方法。
36、相較于現(xiàn)有技術(shù),本申請(qǐng)具有以下有益效果:
37、本申請(qǐng)?zhí)峁┝艘环N基于使用場(chǎng)景的檢索模型確定方法及相關(guān)裝置。具體地,在執(zhí)行本申請(qǐng)實(shí)施例提供的基于使用場(chǎng)景的檢索模型確定方法時(shí),首先可以通過(guò)識(shí)別使用場(chǎng)景,基于該使用場(chǎng)景確定相應(yīng)的檢索知識(shí)庫(kù)。接下來(lái),構(gòu)建一個(gè)適用于所選定檢索知識(shí)庫(kù)的檢索問(wèn)題集合,該集合包含多個(gè)具體的檢索問(wèn)題,并為每個(gè)檢索問(wèn)題配備結(jié)果標(biāo)簽,用于標(biāo)注每個(gè)檢索問(wèn)題的實(shí)際問(wèn)答結(jié)果。然后,將構(gòu)建好的檢索問(wèn)題集合輸入到檢索模型中進(jìn)行檢索,從而得到模型的問(wèn)答結(jié)果集合。通過(guò)對(duì)模型問(wèn)答結(jié)果集合與實(shí)際結(jié)果標(biāo)簽之間的差異進(jìn)行分析,計(jì)算出預(yù)測(cè)偏差。最后,根據(jù)預(yù)測(cè)偏差對(duì)檢索模型進(jìn)行調(diào)整優(yōu)化,以提高其在特定使用場(chǎng)景下的表現(xiàn)和準(zhǔn)確性。本申請(qǐng)基于預(yù)測(cè)偏差調(diào)整檢索模型,能夠使模型不斷優(yōu)化,以適應(yīng)不同使用場(chǎng)景的需求。這種方法不僅能提高檢索模型的整體表現(xiàn),還能在遇到新的或復(fù)雜的使用場(chǎng)景時(shí)快速響應(yīng),保持高準(zhǔn)確性。同時(shí)通過(guò)自動(dòng)化和系統(tǒng)化的方法減少對(duì)人為選擇的依賴,降低了時(shí)間成本和人力資源消耗,同時(shí)提高了模型選擇的準(zhǔn)確性和可靠性。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于使用場(chǎng)景的檢索模型確定方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述檢索模型包括依次連接的字面檢索模塊、語(yǔ)義檢索模塊和深度精排模型;
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述預(yù)測(cè)偏差調(diào)整所述檢索模型,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述使用場(chǎng)景確定檢索知識(shí)庫(kù),包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述知識(shí)治理,包括:格式問(wèn)題治理、段落級(jí)信息治理和篇章級(jí)信息治理。
6.一種基于使用場(chǎng)景的檢索模型確定裝置,其特征在于,所述裝置包括:
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述檢索模型包括依次連接的字面檢索模塊、語(yǔ)義檢索模塊和深度精排模型;
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述模型調(diào)整單元具體包括:
9.一種基于使用場(chǎng)景的檢索模型確定設(shè)備,其特征在于,包括:存儲(chǔ)器,處理器,及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí),實(shí)現(xiàn)如權(quán)利要求1-5任
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有指令,當(dāng)所述指令在終端設(shè)備上運(yùn)行時(shí),使得所述終端設(shè)備執(zhí)行如權(quán)利要求1-5任一項(xiàng)所述的基于使用場(chǎng)景的檢索模型確定方法。
...【技術(shù)特征摘要】
1.一種基于使用場(chǎng)景的檢索模型確定方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述檢索模型包括依次連接的字面檢索模塊、語(yǔ)義檢索模塊和深度精排模型;
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于所述預(yù)測(cè)偏差調(diào)整所述檢索模型,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述使用場(chǎng)景確定檢索知識(shí)庫(kù),包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述知識(shí)治理,包括:格式問(wèn)題治理、段落級(jí)信息治理和篇章級(jí)信息治理。
6.一種基于使用場(chǎng)景的檢索模型確定裝置,其特征在于,所述裝置包括:
7.根據(jù)權(quán)利要求...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:成臻,徐國(guó)強(qiáng),
申請(qǐng)(專利權(quán))人:太保科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。