當(dāng)前位置: 首頁 > 專利查詢>北京百度網(wǎng)訊科技有限公司專利>正文

基于多智能體協(xié)作的沉浸式數(shù)字人交互方法及相關(guān)裝置制造方法及圖紙

技術(shù)編號：44532298 閱讀：1 留言：0更新日期：2025-03-07 13:22

本公開提供了一種基于多智能體協(xié)作的沉浸式數(shù)字人交互方法及相關(guān)裝置，涉及生成式大語言模型、智能體、數(shù)字人等人工智能技術(shù)領(lǐng)域。該方法包括：基于用戶的實時狀態(tài)信息確定多個候選數(shù)字人，基于智能體技術(shù)預(yù)先構(gòu)建得到的不同數(shù)字人用于向處于不同狀態(tài)的用戶提供交互服務(wù)；控制各候選數(shù)字人分別在不同的時機向用戶發(fā)起嘗試性的交互請求，交互請求包含匹配于實時狀態(tài)信息的首輪對話內(nèi)容；控制目標數(shù)字人向用戶呈現(xiàn)以匹配于實時狀態(tài)信息的目標形象進行的實時交互行為，目標數(shù)字人為被用戶接受了相應(yīng)的交互請求的候選數(shù)字人，實時交互行為包括對用戶傳入的實時信息作出的實時交互內(nèi)容反饋和實時交互姿態(tài)反饋。該方案采用了由預(yù)先構(gòu)建的主智能體和多個基于智能體基礎(chǔ)構(gòu)成的數(shù)字人形成的智能體集群來向用戶提供匹配其實時狀態(tài)信息的交互服務(wù)，即通過主智能體與各基于智能體技術(shù)構(gòu)建出的數(shù)字人之間的協(xié)同，得以使合適的數(shù)字人能夠在主智能體的控制下充分發(fā)揮自身的性能和能力，相較于原有的固定交互姿態(tài)、僅有實時的交互內(nèi)容反饋的相關(guān)技術(shù)，本方案不僅能夠為用戶提供了與其實時狀態(tài)信息匹配程度更高的、更富有沉浸感的實時交互服務(wù)，也間接提升了用戶對與智能體進行交互的接受程度。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本公開涉及數(shù)據(jù)處理，具體涉及生成式大語言模型、智能體、數(shù)字人等人工智能，尤其涉及一種基于多智能體協(xié)作的沉浸式數(shù)字人交互方法、裝置、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。

技術(shù)介紹

1、隨著生成式大語言模型的快速發(fā)展和迭代，其對于用戶輸入的需求具有較好的理解和給出相應(yīng)結(jié)果的能力。

2、而為了讓生成式大語言模型輸出的結(jié)果更符合特定需求，將生成式大語言模型作為基底模型、結(jié)合預(yù)設(shè)定的角色參數(shù)構(gòu)建的智能體由此出現(xiàn)。進一步的，為增強擬人感、提升用戶對與智能體進行交互的接受程度，還在智能體基礎(chǔ)上開發(fā)了具有擬人形象的數(shù)字人。

3、如何利用數(shù)字人向用戶提供更好的交互方式，仍是當(dāng)前本領(lǐng)域技術(shù)人員亟待解決的重點研究對象。

技術(shù)實現(xiàn)思路

1、本公開實施例提出了一種基于多智能體協(xié)作的沉浸式數(shù)字人交互方法、裝置、電子設(shè)備、計算機可讀存儲介質(zhì)及計算機程序產(chǎn)品。

2、第一方面，本公開實施例提出了一種基于多智能體協(xié)作的沉浸式數(shù)字人交互方法，包括：基于用戶的實時狀態(tài)信息確定多個候選數(shù)字人；其中，基于智能體技術(shù)預(yù)先構(gòu)建得到的不同數(shù)字人用于向處于不同狀態(tài)的用戶提供交互服務(wù)；控制各候選數(shù)字人分別在不同的時機向用戶發(fā)起嘗試性的交互請求；其中，交互請求包含匹配于實時狀態(tài)信息的首輪對話內(nèi)容；控制目標數(shù)字人向用戶呈現(xiàn)以匹配于實時狀態(tài)信息的目標形象進行的實時交互行為；其中，目標數(shù)字人為被用戶接受了相應(yīng)的交互請求的候選數(shù)字人，實時交互行為包括對用戶傳入的實時信息作出的實時交互內(nèi)容反饋和實時交互姿態(tài)反饋。

3、第二方面，本公開實施例提出了一種基于多智能體協(xié)作的沉浸式數(shù)字人交互裝置，包括：候選數(shù)字人確定單元，被配置成基于用戶的實時狀態(tài)信息確定多個候選數(shù)字人；其中，基于智能體技術(shù)預(yù)先構(gòu)建得到的不同數(shù)字人用于向處于不同狀態(tài)的用戶提供交互服務(wù)；嘗試性交互請求發(fā)起控制單元，被配置成控制各候選數(shù)字人分別在不同的時機向用戶發(fā)起嘗試性的交互請求；其中，交互請求包含匹配于實時狀態(tài)信息的首輪對話內(nèi)容；實時交互控制單元，被配置成控制目標數(shù)字人向用戶呈現(xiàn)以匹配于實時狀態(tài)信息的目標形象進行的實時交互行為；其中，目標數(shù)字人為被用戶接受了相應(yīng)的交互請求的候選數(shù)字人，實時交互行為包括對用戶傳入的實時信息作出的實時交互內(nèi)容反饋和實時交互姿態(tài)反饋。

4、第三方面，本公開實施例提供了一種電子設(shè)備，該電子設(shè)備包括：至少一個處理器；以及與至少一個處理器通信連接的存儲器；其中，存儲器存儲有可被至少一個處理器執(zhí)行的指令，該指令被至少一個處理器執(zhí)行，以使至少一個處理器執(zhí)行時能夠?qū)崿F(xiàn)如第一方面描述的基于多智能體協(xié)作的沉浸式數(shù)字人交互方法。

5、第四方面，本公開實施例提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì)，該計算機指令用于使計算機執(zhí)行時能夠?qū)崿F(xiàn)如第一方面描述的基于多智能體協(xié)作的沉浸式數(shù)字人交互方法。

6、第五方面，本公開實施例提供了一種包括計算機程序的計算機程序產(chǎn)品，該計算機程序在被處理器執(zhí)行時能夠?qū)崿F(xiàn)如第一方面描述的基于多智能體協(xié)作的沉浸式數(shù)字人交互方法的各步驟。

7、本公開所提供的基于多智能體協(xié)作的沉浸式數(shù)字人交互方案，由主智能體首先根據(jù)用戶的實時狀態(tài)信息來確定多個候選數(shù)字人，數(shù)字人基于智能體技術(shù)預(yù)先構(gòu)建得到、且被構(gòu)建用于向處于不同狀態(tài)的用戶提供交互服務(wù)，然后各候選數(shù)字人在主智能體的控制下分別在不同的時機向該用戶發(fā)起嘗試性的交互請求，該交互請求中包含有匹配于該實時狀態(tài)信息的首輪對話內(nèi)容，以通過匹配該實時狀態(tài)信息的方式來盡可能的提升用戶對發(fā)起該首輪對話內(nèi)容的候選數(shù)字人的交互欲望，在該用戶接受了某個候選數(shù)字人發(fā)起的交互請求想要進行正式交互時，目標數(shù)字人同樣將在主智能體的控制下向該用戶呈現(xiàn)以匹配于該實時狀態(tài)信息的目標形象進行的實時交互行為，該實時交互行為包括對該用戶傳入的實時信息作出的實時交互內(nèi)容反饋和實時交互姿態(tài)反饋，由于提供了包含內(nèi)容、圖像在內(nèi)的即時生成和渲染，得以通過數(shù)字人向用戶提供更具有沉浸式的交互體驗，提升了用戶對與智能體進行交互的接受程度。

8、即本公開采用了由預(yù)先構(gòu)建的主智能體和多個基于智能體基礎(chǔ)構(gòu)成的數(shù)字人形成的智能體集群來向用戶提供匹配其實時狀態(tài)信息的交互服務(wù)，即通過主智能體與各基于智能體技術(shù)構(gòu)建出的數(shù)字人之間的協(xié)同，得以使合適的數(shù)字人能夠在主智能體的控制下充分發(fā)揮自身的性能和能力，相較于原有的固定交互姿態(tài)、僅有實時的交互內(nèi)容反饋的相關(guān)技術(shù)，本方案不僅能夠為用戶提供了與其實時狀態(tài)信息匹配程度更高的、更富有沉浸感的實時交互服務(wù)，也間接提升了用戶對與智能體進行交互的接受程度。

9、應(yīng)當(dāng)理解，本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于多智能體協(xié)作的沉浸式數(shù)字人交互方法，應(yīng)用于主智能體，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述實時狀態(tài)信息包括以下至少一項：

3.根據(jù)權(quán)利要求1所述的方法，其中，所述目標形象通過以下至少一項形象參數(shù)匹配于所述實時狀態(tài)信息：

4.根據(jù)權(quán)利要求1所述的方法，其中，所述基于用戶的實時狀態(tài)信息確定多個候選數(shù)字人，包括：

5.根據(jù)權(quán)利要求4所述的方法，其中，感興趣的領(lǐng)域包括以下至少一項：

6.根據(jù)權(quán)利要求4所述的方法，其中，所述基于所述實時狀態(tài)信息確定所述用戶感興趣的目標領(lǐng)域，包括：

7.根據(jù)權(quán)利要求6所述的方法，其中，所述根據(jù)所述用戶的自然語言輸入和所述實時狀態(tài)信息，確定所述用戶感興趣的目標領(lǐng)域，包括：

8.根據(jù)權(quán)利要求1所述的方法，其中，所述數(shù)字人的構(gòu)建過程包括：

9.根據(jù)權(quán)利要求8所述的方法，其中，所述數(shù)字人包括模仿自真實世界中的專家學(xué)者、代表性人物或具有超過預(yù)設(shè)熱度的人物對象的仿真數(shù)字人。

10.根據(jù)權(quán)利要求9所述的方法，還包括：

11.根據(jù)權(quán)利

12.根據(jù)權(quán)利要求1-11任一項所述的方法，其中，所述控制各所述候選數(shù)字人分別在不同的時機向所述用戶發(fā)起嘗試性的交互請求，包括：

13.根據(jù)權(quán)利要求12所述的方法，還包括：

14.一種基于多智能體協(xié)作的沉浸式數(shù)字人交互裝置，應(yīng)用于主智能體，包括：

15.根據(jù)權(quán)利要求14所述的裝置，其中，所述實時狀態(tài)信息包括以下至少一項：

16.根據(jù)權(quán)利要求1所述的裝置，其中，所述目標形象通過以下至少一項形象參數(shù)匹配于所述實時狀態(tài)信息：

17.根據(jù)權(quán)利要求1所述的裝置，其中，所述候選數(shù)字人確定單元包括：

18.根據(jù)權(quán)利要求17所述的裝置，其中，感興趣的領(lǐng)域包括以下至少一項：

19.根據(jù)權(quán)利要求17所述的裝置，其中，所述感興趣領(lǐng)域確定子單元包括：

20.根據(jù)權(quán)利要求19所述的裝置，其中，所述感興趣領(lǐng)域確定模塊被進一步配置成：

21.根據(jù)權(quán)利要求14所述的裝置，還包括：數(shù)字人構(gòu)建單元，所述數(shù)字人構(gòu)建單元被進一步配置成：

22.根據(jù)權(quán)利要求21所述的裝置，其中，所述數(shù)字人包括模仿自真實世界中的專家學(xué)者、代表性人物或具有超過預(yù)設(shè)熱度的人物對象的仿真數(shù)字人。

23.根據(jù)權(quán)利要求22所述的裝置，還包括：

24.根據(jù)權(quán)利要求14所述的裝置，其中，所述時機包括以下至少一項：

25.根據(jù)權(quán)利要求14-24任一項所述的裝置，其中，所述嘗試性交互請求發(fā)起控制單元被進一步配置成：

26.根據(jù)權(quán)利要求25所述的裝置，還包括：

27.一種電子設(shè)備，包括：

28.一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì)，所述計算機指令用于使所述計算機執(zhí)行權(quán)利要求1-13中任一項所述的基于多智能體協(xié)作的沉浸式數(shù)字人交互方法。

29.一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)根據(jù)權(quán)利要求1-13中任一項所述基于多智能體協(xié)作的沉浸式數(shù)字人交互方法的步驟。

...

【技術(shù)特征摘要】

1.一種基于多智能體協(xié)作的沉浸式數(shù)字人交互方法，應(yīng)用于主智能體，包括：

2.根據(jù)權(quán)利要求1所述的方法，其中，所述實時狀態(tài)信息包括以下至少一項：

3.根據(jù)權(quán)利要求1所述的方法，其中，所述目標形象通過以下至少一項形象參數(shù)匹配于所述實時狀態(tài)信息：

4.根據(jù)權(quán)利要求1所述的方法，其中，所述基于用戶的實時狀態(tài)信息確定多個候選數(shù)字人，包括：

5.根據(jù)權(quán)利要求4所述的方法，其中，感興趣的領(lǐng)域包括以下至少一項：

6.根據(jù)權(quán)利要求4所述的方法，其中，所述基于所述實時狀態(tài)信息確定所述用戶感興趣的目標領(lǐng)域，包括：

8.根據(jù)權(quán)利要求1所述的方法，其中，所述數(shù)字人的構(gòu)建過程包括：

10.根據(jù)權(quán)利要求9所述的方法，還包括：

11.根據(jù)權(quán)利要求1所述的方法，其中，所述時機包括以下至少一項：

13.根據(jù)權(quán)利要求12所述的方法，還包括：

14.一種基于多智能體協(xié)作的沉浸式數(shù)字人交互裝置，應(yīng)用于主智能體，包括：

15.根據(jù)權(quán)利要求14所述的裝置，其中，所述實時狀態(tài)信息包括...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：黃際洲，彭志洺，趙世奇，
申請(專利權(quán))人：北京百度網(wǎng)訊科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)