System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲国产精品成人精品无码区在线,亚洲成A人片在线观看无码不卡 ,国产成人无码区免费网站
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種數(shù)字人視頻交互方法及系統(tǒng)技術(shù)方案

    技術(shù)編號:43785252 閱讀:22 留言:0更新日期:2024-12-24 16:19
    本發(fā)明專利技術(shù)公開了一種本發(fā)明專利技術(shù)的數(shù)字人視頻交互方法及系統(tǒng),數(shù)字人能有效對用戶的話語進行回應(yīng),在語音通話過程中,用戶接受數(shù)字人的視頻邀請后,AI能平滑切換至視頻,視頻通話過程中,能實現(xiàn)數(shù)字人自然傾聽用戶說話的效果,在通話過程中,如果用戶一直不回應(yīng),數(shù)字人能自動感知手機終端不說話,避免持續(xù)的產(chǎn)生通信費用,從而帶來的經(jīng)濟損失,對于機器人外呼的場景,默認(rèn)不打開用戶手機攝像頭,能很好地保護用戶手機終端隱私,增加用戶通話的意愿,提高對話輪次,進而提高轉(zhuǎn)化率,最終提高了用戶的沉浸感和互動體驗的真實性。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及人工智能,具體涉及一種數(shù)字人視頻交互方法及系統(tǒng)。


    技術(shù)介紹

    1、隨著人工智能和大模型技術(shù)的快速進步,出現(xiàn)了數(shù)字人技術(shù)。數(shù)字人是指具有數(shù)字化外形的虛擬人物,具有形象能力、感知能力、表達(dá)能力和互動能力,被廣泛應(yīng)用在直播、短視頻以及在線客服等各種領(lǐng)域中,用以增強服務(wù)質(zhì)量和用戶體驗。

    2、數(shù)字人,即采用計算機視覺或計算機圖形學(xué)的技術(shù)手段,生成真人風(fēng)格或卡通形象的人物模型。用戶可以通過語音、文本等形式與數(shù)字人進行交互,數(shù)字人通過算法驅(qū)動面部的表情、嘴型和肢體動作的變化,配合聲音,與用戶進行互動,給予應(yīng)答。

    3、現(xiàn)有技術(shù)中,數(shù)字人只能通過識別到的語音關(guān)鍵詞與用戶進行一些簡單直接的對話交流,交互方式較為單一,無法模擬真實環(huán)境下的人與人之間的交互狀態(tài),交互效率低,用戶的交互體驗較差,且不能很好地保護用戶手機終端的隱私。

    4、因此,如何進一步提高數(shù)字人的交互效率和用戶體驗感,是目前有待解決的技術(shù)問題。


    技術(shù)實現(xiàn)思路

    1、有鑒于此,為了解決現(xiàn)有技術(shù)中的上述問題,本專利技術(shù)提出一種數(shù)字人視頻交互方法及系統(tǒng)。

    2、本專利技術(shù)通過以下技術(shù)手段解決上述問題:

    3、第一方面,本專利技術(shù)提供一種數(shù)字人視頻交互方法,包括如下步驟:

    4、s1、數(shù)字人回應(yīng)用戶說話;

    5、s11、數(shù)字人服務(wù)器接收用戶的聲音,并將語音推送給asr服務(wù)器,asr服務(wù)器將語音轉(zhuǎn)換成文字;

    6、s12、數(shù)字人服務(wù)器接收到asr服務(wù)器的文字后,以esl事件的方式推送給ai話術(shù)引擎,ai話術(shù)引擎將文字內(nèi)容拆分為有意義的一組關(guān)鍵字;

    7、s13、ai話術(shù)引擎從話術(shù)模板庫中調(diào)用出預(yù)設(shè)的話術(shù)模板,然后使用關(guān)鍵字從話術(shù)模板中匹配出話術(shù)節(jié)點,并從所有匹配到的話術(shù)節(jié)點中,選出得分最高的話術(shù)節(jié)點作為匹配結(jié)果;

    8、s14、數(shù)字人服務(wù)器讀取出話術(shù)節(jié)點中的話術(shù)文本,將其進行哈希計算,得出該話術(shù)文本的唯一標(biāo)識作為視頻文件名,然后從磁盤中讀取出以該視頻文件名命名的預(yù)緩存文件,并將該視頻文件的數(shù)據(jù)流通過rtp的方式推送給手機終端;

    9、s2、語音平滑切換視頻;

    10、s21、數(shù)字人服務(wù)器使用語音方式發(fā)起外呼,用戶接通后,機器人與用戶處于語音通訊模式;

    11、s22、數(shù)字人服務(wù)器發(fā)送媒體重協(xié)商信令,邀請手機終端進行視頻通話;

    12、s23、數(shù)字人服務(wù)器接收媒體重協(xié)商成功事件;

    13、s24、調(diào)用外呼服務(wù)組件的uuid_break命令,強行終止外呼服務(wù)器對該語音話術(shù)的播放,并記住語音話術(shù)當(dāng)前的進度條偏移量;

    14、s25、數(shù)字人服務(wù)器使用該進度條偏移量作為視頻話術(shù)文件的起始播放位置,將視頻流推送給手機終端,從而達(dá)到平滑切換的目的;

    15、s3、數(shù)字人傾聽用戶說話;

    16、在ai視頻通話的場景中,ai播放完視頻話術(shù)文件之后,在等待客戶回應(yīng)、或者用戶回應(yīng)了但是一句話還沒說完的過程中,不能無畫面或者停止畫面,立刻接著播放一個包含傾聽動作的視頻文件;

    17、s4、數(shù)字人自動感知手機終端不說話;

    18、s41、系統(tǒng)在每次播放完常規(guī)的話術(shù)之后,開啟一個計時器;

    19、s42、如果期間話術(shù)引擎沒有接收到asr識別結(jié)果,則會詢問用戶是否聽到數(shù)字人說的話;

    20、s43、詢問設(shè)定次數(shù)之后,如果仍然沒得到回應(yīng),則自動掛斷電話;如果期間話術(shù)引擎有接收到asr識別結(jié)果,則清空計時器;

    21、s5、視頻呼叫默認(rèn)不打開用戶手機攝像頭;

    22、s51、使用語音發(fā)起呼叫;

    23、s52、在用戶接聽之后,再發(fā)送媒體重協(xié)商信令,請求將語音通道切換成視頻通道;

    24、s53、在協(xié)商的媒體報文中,指定視頻通道的媒體權(quán)限為:數(shù)字人服務(wù)器只能發(fā)送視頻、手機終端只能接收視頻,從而實現(xiàn)不需打開手機攝像頭的目的。

    25、作為優(yōu)選地,步驟s11具體包括如下步驟:

    26、s111、數(shù)字人服務(wù)器將接收到的音頻拆分成固定時長的數(shù)據(jù)包,然后使用websocket協(xié)議源源不斷地將數(shù)據(jù)包推送給asr服務(wù)器;

    27、s112、asr服務(wù)器識別語音包的特征,將其轉(zhuǎn)換成文字,同樣使用websocket協(xié)議將文字推送給數(shù)字人服務(wù)器。

    28、作為優(yōu)選地,步驟s14中的預(yù)緩存文件的生成包括如下步驟:

    29、s141、在一個話術(shù)模板制作完成并點擊發(fā)布之后,數(shù)字人服務(wù)器讀取出該話術(shù)模板中所有話術(shù)節(jié)點配置的文本內(nèi)容;

    30、s142、每次讀取出一個節(jié)點的文本內(nèi)容,將其進行哈希計算,得到視頻文件名,將文本內(nèi)容傳遞給tts文本轉(zhuǎn)語音服務(wù)器,轉(zhuǎn)換出音頻文件;

    31、s143、將音頻文件傳遞給數(shù)字人視頻合成服務(wù)器,轉(zhuǎn)換出以h264作為編碼格式的視頻文件,然后以視頻文件名命名保存到預(yù)設(shè)的磁盤目錄中。

    32、作為優(yōu)選地,步驟s3具體包括如下步驟:

    33、s31、數(shù)字人服務(wù)器每播放完一個視頻話術(shù)文件后,立刻接著播放一個設(shè)定時長的包含傾聽動作的視頻文件,傾聽動作包含點頭、微笑或手勢動作,動作不要大幅晃動,以達(dá)到與常規(guī)話術(shù)視頻文件平滑切換的目的;

    34、s32、數(shù)字人服務(wù)器不斷地檢測用戶說話聲音的停頓時長,如果停頓時間超過預(yù)設(shè)的時長,就認(rèn)為用戶已經(jīng)說完話了,進而啟動步驟s1的數(shù)字人話術(shù)匹配流程;

    35、s33、數(shù)字人服務(wù)器終止傾聽動作的視頻,播放話術(shù)對應(yīng)的視頻。

    36、第二方面,本專利技術(shù)提供一種數(shù)字人視頻交互系統(tǒng),包括數(shù)字人回應(yīng)用戶說話模塊、語音平滑切換視頻模塊、數(shù)字人傾聽用戶說話模塊、自動感知終端不說話模塊和呼叫默認(rèn)不打開攝像頭模塊;

    37、所述數(shù)字人回應(yīng)用戶說話模塊包括:

    38、語音轉(zhuǎn)換文字單元,用于數(shù)字人服務(wù)器接收用戶的聲音,并將語音推送給asr服務(wù)器,asr服務(wù)器將語音轉(zhuǎn)換成文字;

    39、文字拆分關(guān)鍵字單元,用于數(shù)字人服務(wù)器接收到asr服務(wù)器的文字后,以esl事件的方式推送給ai話術(shù)引擎,ai話術(shù)引擎將文字內(nèi)容拆分為有意義的一組關(guān)鍵字;

    40、話術(shù)匹配單元,用于ai話術(shù)引擎從話術(shù)模板庫中調(diào)用出預(yù)設(shè)的話術(shù)模板,然后使用關(guān)鍵字從話術(shù)模板中匹配出話術(shù)節(jié)點,并從所有匹配到的話術(shù)節(jié)點中,選出得分最高的話術(shù)節(jié)點作為匹配結(jié)果;

    41、視頻文件推送單元,用于數(shù)字人服務(wù)器讀取出話術(shù)節(jié)點中的話術(shù)文本,將其進行哈希計算,得出該話術(shù)文本的唯一標(biāo)識作為視頻文件名,然后從磁盤中讀取出以該視頻文件名命名的預(yù)緩存文件,并將該視頻文件的數(shù)據(jù)流通過rtp的方式推送給手機終端;

    42、所述語音平滑切換視頻模塊包括:

    43、語音外呼單元,用于數(shù)字人服務(wù)器使用語音方式發(fā)起外呼,用戶接通后,機器人與用戶處于語音通訊模式;

    44、視頻通話邀請單元,用于數(shù)字人服務(wù)器發(fā)送媒體重協(xié)商信令,邀請手機終端進行視本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種數(shù)字人視頻交互方法,其特征在于,包括如下步驟:

    2.根據(jù)權(quán)利要求1所述的數(shù)字人視頻交互方法,其特征在于,步驟S11具體包括如下步驟:

    3.根據(jù)權(quán)利要求1所述的數(shù)字人視頻交互方法,其特征在于,步驟S14中的預(yù)緩存文件的生成包括如下步驟:

    4.根據(jù)權(quán)利要求1所述的數(shù)字人視頻交互方法,其特征在于,步驟S3具體包括如下步驟:

    5.一種數(shù)字人視頻交互系統(tǒng),其特征在于,包括數(shù)字人回應(yīng)用戶說話模塊、語音平滑切換視頻模塊、數(shù)字人傾聽用戶說話模塊、自動感知終端不說話模塊和呼叫默認(rèn)不打開攝像頭模塊;

    6.根據(jù)權(quán)利要求5所述的數(shù)字人視頻交互系統(tǒng),其特征在于,所述語音轉(zhuǎn)換文字單元包括:

    7.根據(jù)權(quán)利要求5所述的數(shù)字人視頻交互系統(tǒng),其特征在于,所述視頻文件推送單元包括:

    8.根據(jù)權(quán)利要求5所述的數(shù)字人視頻交互系統(tǒng),其特征在于,所述數(shù)字人傾聽用戶說話模塊包括:

    9.一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-4任一所述的數(shù)字人視頻交互方法的步驟。

    10.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-4任一所述的數(shù)字人視頻交互方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種數(shù)字人視頻交互方法,其特征在于,包括如下步驟:

    2.根據(jù)權(quán)利要求1所述的數(shù)字人視頻交互方法,其特征在于,步驟s11具體包括如下步驟:

    3.根據(jù)權(quán)利要求1所述的數(shù)字人視頻交互方法,其特征在于,步驟s14中的預(yù)緩存文件的生成包括如下步驟:

    4.根據(jù)權(quán)利要求1所述的數(shù)字人視頻交互方法,其特征在于,步驟s3具體包括如下步驟:

    5.一種數(shù)字人視頻交互系統(tǒng),其特征在于,包括數(shù)字人回應(yīng)用戶說話模塊、語音平滑切換視頻模塊、數(shù)字人傾聽用戶說話模塊、自動感知終端不說話模塊和呼叫默認(rèn)不打開攝像頭模塊;

    6.根據(jù)權(quán)利要求5所述的數(shù)字人視頻交互系統(tǒng)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:劉嗣平,湯丁青曾榮智,
    申請(專利權(quán))人:廣州九四智能科技有限公司,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 人妻无码中文久久久久专区 | 无码国产精品一区二区高潮| 亚洲精品无码不卡在线播放HE| 亚洲AV无码国产在丝袜线观看| 白嫩少妇激情无码| 成在人线AV无码免费| 特级无码毛片免费视频尤物| 无码AⅤ精品一区二区三区| 久久无码无码久久综合综合| 无码人妻一区二区三区精品视频| 亚洲AV无码AV男人的天堂| 国产精品无码久久久久久久久久| 亚洲熟妇无码爱v在线观看| 东京热加勒比无码视频| 精品无码中文视频在线观看| 久久精品aⅴ无码中文字字幕重口| 自拍中文精品无码| 狼人无码精华AV午夜精品| 亚洲av永久无码| 亚洲av无码一区二区三区观看| 日本无码小泬粉嫩精品图| 国产精品无码一区二区三区在| 无码H黄肉动漫在线观看网站| 无码人妻丰满熟妇精品区| 午夜亚洲AV日韩AV无码大全| 亚洲中文字幕无码久久综合网| 亚洲av无码乱码在线观看野外| 国产精品第一区揄拍无码| 18禁超污无遮挡无码免费网站国产 | 一区二区三区无码高清视频| 亚洲AV无码一区二区乱子仑| 精品亚洲A∨无码一区二区三区| 无码人妻丰满熟妇精品区| 无码国内精品人妻少妇蜜桃视频| 亚洲第一极品精品无码久久| 免费无码H肉动漫在线观看麻豆| 亚洲人成无码网站| 午夜无码A级毛片免费视频| 蜜桃臀无码内射一区二区三区| 久久久久久国产精品免费无码| 麻豆AV无码精品一区二区|