當(dāng)前位置: 首頁 > 專利查詢>水杉智算深圳技術(shù)有限公司專利>正文

基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法技術(shù)

技術(shù)編號：43673103 閱讀：11 留言：0更新日期：2024-12-18 20:58

本發(fā)明專利技術(shù)公開一種基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，包括：明確任務(wù)需求，初始化一個通用的提示向量；設(shè)計小樣本情景學(xué)習(xí)的支持?jǐn)?shù)據(jù)集，以讓大語言模型代理學(xué)習(xí)協(xié)同“推理”與“行動”的邏輯；設(shè)計模型代理調(diào)用外部工具和獲取外部信息的接口；從預(yù)設(shè)工具庫中選擇合適的工具組合；通過代理封裝提示、外部工具和大語言模型，將設(shè)計好的支持?jǐn)?shù)據(jù)集作為提示語交由大語言模型代理以進(jìn)行小樣本學(xué)習(xí)，掌握"推理?行動"協(xié)同范式；將訓(xùn)練好的模型代理應(yīng)用于新的任務(wù)實例，評估輸出效果，通過人為干預(yù)糾正其邏輯錯誤或事實錯誤，并進(jìn)行調(diào)優(yōu)。本發(fā)明專利技術(shù)直觀易設(shè)計,通用靈活,高效穩(wěn)定,與人類思考邏輯對齊且高度可控。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

【】本專利技術(shù)涉及人工智能，尤其涉及一種基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法。

技術(shù)介紹

0、
技術(shù)介紹

1、大語言模型是近年來人工智能領(lǐng)域取得的一項突破性進(jìn)展，它是基于自監(jiān)督學(xué)習(xí)方法，從大規(guī)模的非結(jié)構(gòu)化文本數(shù)據(jù)中學(xué)習(xí)到豐富的語義知識和語言模式的深度學(xué)習(xí)模型。它在各類自然語言處理任務(wù)上取得了前所未有的性能。相比于傳統(tǒng)依賴特定任務(wù)特征工程的方法，大語言模型采取了更加通用和魯棒的學(xué)習(xí)方式。它們能夠以遷移學(xué)習(xí)的方式,將預(yù)訓(xùn)練獲得的通用語言能力應(yīng)用于下游的具體任務(wù)，大大提高了自然語言處理技術(shù)的泛化能力和實用性。

2、然而，現(xiàn)有的大語言模型也暴露出一些關(guān)鍵的局限性。大語言模型對于需要運用常識知識和復(fù)雜推理的任務(wù)表現(xiàn)欠佳，他們難以進(jìn)行合理的推理和邏輯分析,可能出現(xiàn)不一致或者有問題的行為，例如幻想、生成存在缺陷的代碼、生成有害內(nèi)容等。大語言模型是基于數(shù)據(jù)訓(xùn)練的，它缺乏人類的直覺和判斷力，因此在面對新情景、新任務(wù)時，往往無法準(zhǔn)確感知具體情況作出恰當(dāng)?shù)姆磻?yīng)。大語言模型與外部環(huán)境交互不足，目前大多數(shù)大語言模型主要依賴于靜態(tài)的文本訓(xùn)練數(shù)據(jù)，缺乏與外部環(huán)境的深入交互和體驗。這些局限性一定程度上制約了大語言模型在更廣泛更專業(yè)的應(yīng)用場景中的發(fā)揮。鑒于此，實有必要提供一種基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法以克服上述缺陷。

技術(shù)實現(xiàn)思路

0、
技術(shù)實現(xiàn)思路

1、本專利技術(shù)的目的是提供一種基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，旨在解決現(xiàn)有大多數(shù)大語言

2、為了實現(xiàn)上述目的，本專利技術(shù)提供一種基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，包括：

3、步驟s10：明確任務(wù)需求，初始化一個通用的提示向量,作為大語言模型學(xué)習(xí)的起點；其中，所述提示向量包括引導(dǎo)語、上下文信息、任務(wù)描述、輸出格式指示、限制條件、樣例輸出；

4、步驟s20：設(shè)計小樣本情景學(xué)習(xí)的支持?jǐn)?shù)據(jù)集，以讓大語言模型代理學(xué)習(xí)協(xié)同“推理”與“行動”的邏輯；其中，所述支持?jǐn)?shù)據(jù)集中每個人工標(biāo)注的樣本都包含一個輸入問題以及針對該情境中真實人類在解決該問題時涉及到的“行動”、“思考”以及環(huán)境“觀察”的詳盡記錄；

5、步驟s30：設(shè)計大語言模型代理調(diào)用外部工具和獲取外部信息的接口；

6、步驟s40：根據(jù)任務(wù)需求，從預(yù)設(shè)工具庫中選擇合適的工具組合，協(xié)調(diào)工具之間的輸入輸出格式，然后選擇適配的大語言模型，將各工具提供的信息輸入到大語言模型進(jìn)行推理和輸出生成；

7、步驟s50：通過代理封裝提示、外部工具和大語言模型，將設(shè)計好的所述支持?jǐn)?shù)據(jù)集作為提示語交由大語言模型代理以進(jìn)行小樣本學(xué)習(xí)，以掌握"推理-行動"協(xié)同范式；

8、步驟s60：將訓(xùn)練好的大語言模型代理應(yīng)用于新的任務(wù)實例，評估輸出效果，通過人為干預(yù)糾正其邏輯錯誤或事實錯誤，并進(jìn)行調(diào)優(yōu)。

9、在一個優(yōu)選實施方式中，將大語言模型融合于智能虛擬人對話系統(tǒng)中，具體包括以下步驟:

10、當(dāng)用戶發(fā)起對話時，調(diào)用語音識別模塊將用戶的語音輸入識別為對應(yīng)的文本輸入內(nèi)容；

11、將識別的文本輸入內(nèi)容作為輸入問題/任務(wù)傳給大語言模型代理，大語言模型接著會通過邏輯分析以及"推理-行動"的協(xié)同生成文本形式的解答；

12、將文本輸出交由文本轉(zhuǎn)語音模塊并生成接近真實人聲的音頻語音輸出；

13、將所述音頻語音輸出交由3d圖形渲染模塊，生成與語音相匹配的虛擬數(shù)字人動畫，以將大語言模型代理的文本輸出以逼近真人對話的形式反饋給用戶。

14、在一個優(yōu)選實施方式中，在步驟s60中，若代理的邏輯鏈條中出現(xiàn)了邏輯錯誤或事實錯誤,根據(jù)代理輸出的“推理-行動”邏輯鏈條，定位到最早出現(xiàn)邏輯錯誤或事實錯誤的“思考”，并接收人為編輯該“思考”以糾正錯誤后的邏輯或事實，從而讓代理重新輸出糾正后該“思考”后續(xù)的內(nèi)容。

15、在一個優(yōu)選實施方式中，還包括：

16、構(gòu)建大語言模型代理與環(huán)境交互以解決任務(wù)的框架，具體如下：

17、對于一個亟待解決的任務(wù)x，在時間節(jié)點t，大語言模型代理會對當(dāng)前的任務(wù)環(huán)境與進(jìn)度進(jìn)行分析并得到一個“觀察”同時依據(jù)決策策略π(at|ct)做出一個“行動”其中，c(o1，a1，…，ot-1，at-1，ot)表示當(dāng)前任務(wù)的上下文，表示從模型代理所處的上下文到行為決策的映射；

18、將模型代理的“行動”at所屬的行為空間進(jìn)行擴展其中，表示補充的模型的語言空間，語言空間中的行為表示大語言模型代理對當(dāng)前任務(wù)進(jìn)程所進(jìn)行推理所得到的“思考”；大預(yù)言模型的“思考”對其當(dāng)前所處的問題上下文ct所包含的有助于解決問題的信息進(jìn)行整合，用于更新當(dāng)前問題上下文從而幫助大預(yù)言模型在后續(xù)的行為決策過程中生成更具邏輯性的決定；

19、具體地，將原始輸入問題x分解成一系列相對容易解決的子問題xt，模型代理通過循序漸進(jìn)的方式一步一步地解決當(dāng)前問題上下文ct中亟待解決的問題,并產(chǎn)生新的“觀察”與“思考”以更新上下文ct+1，其中，模型代理的決策策略π(at|ct)只需對當(dāng)前的子任務(wù)進(jìn)行映射。

20、在一個優(yōu)選實施方式中，當(dāng)大預(yù)言模型通過“觀察”ot發(fā)現(xiàn)當(dāng)前問題上下文存在未知的信息，大語言模型會推斷可以用于解決未知信息的手段，并將該手段納入代理的“思考”中，然后代理會在接下來的“行動”at+1中調(diào)用對應(yīng)的工具以解決相應(yīng)的子任務(wù)；其中，所述手段包括：使用搜索引擎、百科進(jìn)行搜索和知識獲取、通過與數(shù)據(jù)庫的交互獲得需要查詢的字段。

21、在一個優(yōu)選實施方式中，在所述步驟s50中，將所述支持?jǐn)?shù)據(jù)集d分為訓(xùn)練集dtrain、驗證集dval和測試集dtest；dtrain作為輔助集a，分別從dval和dtest中隨機抽樣形成大量評估任務(wù)t；

22、其中，對于一個采樣任務(wù)，由兩個子集as和aq構(gòu)成,分別對應(yīng)于支持集s和查詢集q；

23、所述小樣本學(xué)習(xí)包括基礎(chǔ)學(xué)習(xí)器和元學(xué)習(xí)器之間的兩步優(yōu)化；在小樣本學(xué)習(xí)的內(nèi)循環(huán)中，利用as進(jìn)行快速學(xué)習(xí)，找到所述基礎(chǔ)學(xué)習(xí)器的最優(yōu)參數(shù)；在小樣本學(xué)習(xí)的外循環(huán)中,通過aq來計算每個新任務(wù)相對于最優(yōu)參數(shù)的梯度，然后更新隨機初始化的模型參數(shù)以適應(yīng)不同的任務(wù)，從而增強大語音模型的泛化能力。

24、在一個優(yōu)選實施方式中，若任務(wù)的解決需要獲取外部信息，則在“思考”中點明所涉及的信息源，并描述所需要的信息；

25、若任務(wù)的解決涉及到外部工具的調(diào)用，則在“思考”中點明解決當(dāng)前子任務(wù)所需要的工具以及使用該工具的目的，并在“行動”中調(diào)用相應(yīng)的外部工具；

26、在任一“思考”步驟中，若當(dāng)前任務(wù)的上下文已經(jīng)包含了大語言模型代理回答原始輸入問題的所有必要信息，則在“思考”寫明問題的解答，并且在下一步“行動”中，輸出問題的解答，同時中止該流程；

...

【技術(shù)保護(hù)點】

1.一種基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，包括：

2.如權(quán)利要求1所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，將大語言模型融合于智能虛擬人對話系統(tǒng)中，具體包括以下步驟:

3.如權(quán)利要求1所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，在步驟S60中，若代理的邏輯鏈條中出現(xiàn)了邏輯錯誤或事實錯誤,根據(jù)代理輸出的“推理-行動”邏輯鏈條，定位到最早出現(xiàn)邏輯錯誤或事實錯誤的“思考”，并接收人為編輯該“思考”以糾正錯誤后的邏輯或事實，從而讓代理重新輸出糾正后該“思考”后續(xù)的內(nèi)容。

4.如權(quán)利要求1所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，還包括：

5.如權(quán)利要求4所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，當(dāng)大預(yù)言模型通過“觀察”ot發(fā)現(xiàn)當(dāng)前問題上下文存在未知的信息，大語言模型會推斷可以用于解決未知信息的手段，并將該手段納入代理的“思考”中，然后代理會在接下來的“行動”at+1中調(diào)用對應(yīng)的工具以解決相應(yīng)的子任務(wù)；其中，所述手段包括：使用搜索引擎

6.如權(quán)利要求5所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，在所述步驟S50中，將所述支持?jǐn)?shù)據(jù)集D分為訓(xùn)練集Dtrain、驗證集Dval和測試集Dtest；Dtrain作為輔助集A，分別從Dval和Dtest中隨機抽樣形成大量評估任務(wù)T；

7.如權(quán)利要求6所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于：

8.如權(quán)利要求7所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，在所述步驟S60中，通過提示微調(diào)的方式來進(jìn)行調(diào)優(yōu)，所述提示微調(diào)包括硬提示；其中，所述硬提示是人工預(yù)設(shè)的離散標(biāo)記，通過修改預(yù)先定義的語義和語法規(guī)則來指導(dǎo)大語言模型的輸出。

9.如權(quán)利要求7所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，在所述步驟S60中，通過提示微調(diào)的方式來進(jìn)行調(diào)優(yōu)，所述提示微調(diào)包括軟提示；所述軟提示的具體實現(xiàn)步驟如下：

10.如權(quán)利要求7所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，在所述步驟S60中，通過模型微調(diào)的方式來進(jìn)行調(diào)優(yōu)，具體實現(xiàn)步驟如下：

...

【技術(shù)特征摘要】

1.一種基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，包括：

3.如權(quán)利要求1所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，在步驟s60中，若代理的邏輯鏈條中出現(xiàn)了邏輯錯誤或事實錯誤,根據(jù)代理輸出的“推理-行動”邏輯鏈條，定位到最早出現(xiàn)邏輯錯誤或事實錯誤的“思考”，并接收人為編輯該“思考”以糾正錯誤后的邏輯或事實，從而讓代理重新輸出糾正后該“思考”后續(xù)的內(nèi)容。

4.如權(quán)利要求1所述的基于代理的協(xié)同推理和行動的大語言模型學(xué)習(xí)方法，其特征在于，還包括：

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：請求不公布姓名，請求不公布姓名，請求不公布姓名，請求不公布姓名，請求不公布姓名，
申請(專利權(quán))人：水杉智算深圳技術(shù)有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)