System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 久久亚洲精品无码VA大香大香,中文字幕日韩精品无码内射,无码国产精品一区二区免费式直播
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    人機交互方法及使用該方法的智能AI助手技術

    技術編號:44342170 閱讀:8 留言:0更新日期:2025-02-18 20:54
    本公開提供一種人機交互方法和使用該方法的智能AI助手。該人機交互方法包括實時檢測圖像中的一個或多個人的人臉圖像的像素坐標;估計所述一個或多個人的人臉與單目攝像頭的距離;使用訓練的卷積神經網絡模型或者自訓練的Transformer模型提取與單目攝像頭相距預設距離以內的人臉圖像的特征向量;計算預設距離以內的人臉圖像的特征向量與存儲的人臉特征向量的相似程度;和將計算的相似程度與預設的閾值進行比較判斷預設距離以內的人是否在之前出現過。本公開的實施例利用單目攝像頭比較準確且快速地獲得人臉位置和人臉特征,使得虛擬形象與人進行更逼真的交互。

    【技術實現步驟摘要】

    本公開涉及圖像處理技術,具體而言,涉及一種用于人機交互方法及使用該方法的智能ai助手。


    技術介紹

    1、為了實現虛擬形象與不特定對象(例如,路人)之間的眼神、手勢、語言等深度交互,需要識別交互對象并且獲得交互對象的位置信息。在識別過程中,交互對象可能離開屏幕再返回,此時系統(tǒng)會將其識別為新用戶,不能繼續(xù)之前的溝通內容。在多人場景下,因為每個人姿勢、角度、距離屏幕遠近等影響,可能無法準確判斷交互對象,也就無法準確地進行智能交互。

    2、在獲得交互對象的位置信息過程中,當前可以采用雙目或多目攝像頭同時檢測,以此來計算得到目標的三維信息。但該方法的成本較高,首先,多個攝像頭的時間同步難以控制,且計算量龐大,難以以每秒30幀的幀率實時檢測;其次,不同攝像頭對同一待檢測物體的檢測位置具有不可忽略的量化誤差,導致后續(xù)計算得到的三維位置坐標具有更大的誤差。

    3、如果采取單目攝像頭確定交互對象的位置,目前的傳統(tǒng)算法理論上只能用射影幾何的方法確定人臉的極線的方向,無法確定深度信息,即交互對象與虛擬人的距離信息,從而無法提供逼真的交互,例如不能為虛擬人的眼神交互提供盡可能逼真的對視體驗。此外,采用單目攝像頭確定深度信息的現有技術路線還存在以下問題。如果根據不同遠近的物體模糊程度不同,對物體的邊緣模糊情形進行建模來推定物體的深度信息,這種方法對于圖像分辨率的要求很高,在人臉檢測的應用場景下,由于分辨率不足導致的圖像模糊會劇烈影響對人臉距離相機的深度信息的估計。如果通過物體的表面陰影變化來推測深度信息,該種方法只適用于估測同一個連續(xù)表面上的相對深度,無法用于對人臉與攝像頭的距離估計的應用場景。其他方法,例如從物體的遮擋關系推測深度信息、從大氣散射造成的霾現象中推測深度信息等,都對圖像里的物體類別和性質加入了很強的約束,場景非常局限,無法用于對人臉距離的估計。


    技術實現思路

    1、本公開提供一種用于人機交互的方法及使用該方法的智能ai助手,有助于實現智能的人機交互,實現更生動的交互體驗。

    2、為了解決上述技術問題中的至少之一,根據本公開的第一方面,提供了一種人機交互方法,其包括實時檢測圖像中的一個或多個人的人臉圖像的像素坐標,所述被檢測的圖像來自單目攝像頭;估計一個或多個人的人臉與所述單目攝像頭的距離;使用訓練的卷積神經網絡模型或者自訓練的transformer模型提取與所述單目攝像頭相距預設距離以內的人臉圖像的特征向量;計算預設距離以內的人臉圖像的特征向量與存儲的人臉特征向量的相似程度;和將計算的相似程度與預設的閾值進行比較來判斷預設距離以內的人臉是否在之前出現過。

    3、本公開的實施例通過上述方法可以利用單目攝像頭比較準確且快速地獲得人體頭部的與攝像頭的距離,尤其是深度信息。上述方法適用于圖像中出現一人或多人的情形,在多人的情形下,可以獲得每個人的頭部與攝像頭的距離,由此可以分辨每個人的位置,更準確地判斷交互的對象。通過分辨交互對象的位置,虛擬形象也可以在屏幕的范圍內變換位置,從而進行更加自然的交互,同時還能保證眼神等細節(jié)的交流。

    4、根據本公開的一方面,可選的,如果根據計算的相似程度與所述預設的閾值進行比較判斷預設距離以內的人沒有出現過,將當前獲取的聲紋特征與存儲的聲紋特征進行比較;如果在存儲的聲紋特征中找到與其匹配的存儲的聲紋特征,則判斷預設距離以內的人臉出現過,并根據所述存儲的聲紋特征和存儲的人臉特征向量的對應關系調取對應的存儲的人臉特征向量;和計算所述調取的存儲的人臉特征向量與所述預設距離以內的人臉圖像的特征向量的相似程度,如果根據所述相似程度與所述預設的閾值的比較結果確定是同一個人,則將用所述預設距離以內的人臉特征向量和所述調取的存儲的人臉特征向量求平均來替代所述調取的存儲的人臉特征向量;如果根據所述相似程度與所述預設的閾值的比較結果確定不是同一個人,則用所述所述預設距離以內的人臉特征向量替換所述調取的存儲的人臉特征向量。

    5、為了增加識別的準確性,可以通過聲紋特征來確認當前的交互對象是否在之前出現過。例如,當通過人臉特征向量判斷當前的交互對象之前沒有出現過之后,如果采集到當前人的聲紋特征,可以再通過聲紋特征的比較來進一步確認,從而增加判斷的準確性。如果聲紋特征與存儲的聲紋特征都不匹配,那么就判斷當前交互對象沒有出現過,從而開啟新的交互。如果通過聲紋特征判斷當前交互對象出現過,可以將當前人臉提取的特征向量與存儲的與聲紋特征對應的人臉特征向量進行比較,從而判斷存儲在數據庫的人臉特征向量是否需要被替換。

    6、根據本公開的一方面,可選的,所述估計一個或多個人臉與所述單目攝像頭的距離包括根據所述一個或多個人臉的像素坐標、占據的像素尺寸和人體頭部的先驗尺寸估計所述人臉與所述單目攝像頭的距離,所述人機交互方法還包括根據所述單目攝像頭的內參矩陣和一個或多個人臉與所述單目攝像頭的距離確定所述人臉的空間三維坐標,其由人臉中心點相對于所述單目攝像頭的主光軸在橫向和縱向偏移的距離以及人臉的中心點與所述單目攝像頭的中心的距離來表示。

    7、根據本公開的一方面,可選的,所述檢測人體頭部在圖像中的像素坐標包括使用目標檢測算法檢測人體頭部,得到頭部矩形框。

    8、根據本公開的一方面,可選的,估計一個或多個人的人臉與所述單目攝像頭的距離包括使用depth?vision?transformer模型得到與人臉圖像對應的深度圖,來估計所述人臉與單目攝像頭的距離,所述人機交互方法還包括根據單目攝像頭的內參矩陣、一個或多個人的人臉與所述單目攝像頭的距離和人臉的像素坐標確定所述人臉的空間三維坐標。

    9、根據本公開的一方面,可選的,使用自訓練的transformer模型提取與所述單目攝像頭相距預設距離以內的人臉圖像的特征向量包括:將輸入的人臉圖像數據y經由卷積層提取初步特征f0:其中,h和w表示輸入的人臉圖像的高度和寬度,c表示通道數,表示圖像向量空間,h’和w’表示經過卷積層的輸出特征圖的高度和寬度,c’表示特征圖的通道數,表示輸出的特征向量空間;將圖像塊分割并展平,得到其中n是圖像塊的數量,p是圖像塊的大小,f0′是圖像分塊展平之后的特征向量,是圖像分塊展平之后的特征向量空間;采用自訓練的transformer編碼器將f0′進行特征提取,得到每個圖像塊的特征向量和全局特征向量。

    10、根據本公開的一方面,可選的,當使用自訓練的transformer模型提取與所述單目攝像頭相距預設距離以內的人臉的特征向量時,將全局特征作為人臉特征向量保存到人臉特征數據庫。可選的,用于人機交互的方法還可以包括使用訓練的卷積神經網絡模型提取當前的人臉特征向量;計算當前的人臉特征向量與存儲的人臉特征向量的相似程度;將計算的相似程度與預設的閾值進行比較來判斷當前的人臉是否在之前出現過。

    11、本公開的實施例可以進一步通過對人臉進行面部特征的識別來增加交互效果,增強用戶體驗。通過上述的面部特征識別可以判斷該交互對象在之前是否出現過,如果再次出現,虛擬形象可以與交本文檔來自技高網...

    【技術保護點】

    1.一種人機交互方法,其特征在于包括:

    2.根據權利要求1所述的人機交互方法,其特征在于還包括:

    3.根據權利要求1所述的人機交互方法,其特征在于所述估計一個或多個人的人臉與所述單目攝像頭的距離包括根據所述人臉的像素坐標、占據的像素尺寸和人體頭部的先驗尺寸估計所述人臉與所述單目攝像頭的距離,所述人機交互方法還包括根據所述單目攝像頭的內參矩陣和一個或多個人的人臉與所述單目攝像頭的距離確定所述人臉的空間三維坐標,其由人臉中心點相對于所述單目攝像頭的主光軸在橫向和縱向偏移的距離以及人臉的中心點與所述單目攝像頭的中心的距離來表示。

    4.根據權利要求1所述的人機交互方法,其特征在于所述估計一個或多個人的人臉與所述單目攝像頭的距離包括使用Depth?Vision?Transformer模型得到與人臉圖像對應的深度圖,來估計所述人臉與單目攝像頭的距離,所述人機交互方法還包括根據單目攝像頭的內參矩陣、一個或多個人的人臉與所述單目攝像頭的距離和人臉的像素坐標確定所述人臉的空間三維坐標。

    5.根據權利要求1所述的人機交互方法,其特征在于使用自訓練的Transformer模型提取與所述單目攝像頭相距預設距離以內的人臉圖像的特征向量包括:

    6.根據權利要求1所述的人機交互方法,其特征在于當使用自訓練的Transformer模型提取與所述單目攝像頭相距預設距離以內的人臉的特征向量時,將全局特征向量作為人臉特征向量保存到人臉特征數據庫。

    7.根據權利要求2所述的人機交互方法,其特征在于當檢測到交互對象的語音信息時,存儲語音信息的聲紋特征,并且存儲該聲紋特征與交互對象的人臉特征向量之間的對應關系。

    8.根據權利要求1所述的人機交互方法,其特征在于包括使用通用數據集對卷積神經網絡的模型參數進行訓練,獲得預訓練模型,使用自制數據集對訓練之后的卷積神經網絡的模型參數繼續(xù)進行訓練,獲得卷積神經網絡模型,所述自制數據集的圖像從實際應用場景采集。

    9.一種智能AI助手,其特征在于包括用于顯示虛擬形象的屏幕;用于采集人的頭部和/或人臉信息的攝像頭;用于采集人的語音的麥克風;處理器;和存儲有一個或者多個計算機程序的存儲器,所述一個或者多個計算機程序包括指令,當所述指令被所述一個或多個處理器執(zhí)行時,執(zhí)行如權利要求1-8中任一項所述的人機交互方法。

    10.根據權利要求9所述的智能AI助手,其特征在于所述處理器為圖像處理器,使用混合精度訓練、動態(tài)量化或者CUDA/cuDNN加速中的一種或者多種對圖像處理器的計算進行優(yōu)化。

    ...

    【技術特征摘要】

    1.一種人機交互方法,其特征在于包括:

    2.根據權利要求1所述的人機交互方法,其特征在于還包括:

    3.根據權利要求1所述的人機交互方法,其特征在于所述估計一個或多個人的人臉與所述單目攝像頭的距離包括根據所述人臉的像素坐標、占據的像素尺寸和人體頭部的先驗尺寸估計所述人臉與所述單目攝像頭的距離,所述人機交互方法還包括根據所述單目攝像頭的內參矩陣和一個或多個人的人臉與所述單目攝像頭的距離確定所述人臉的空間三維坐標,其由人臉中心點相對于所述單目攝像頭的主光軸在橫向和縱向偏移的距離以及人臉的中心點與所述單目攝像頭的中心的距離來表示。

    4.根據權利要求1所述的人機交互方法,其特征在于所述估計一個或多個人的人臉與所述單目攝像頭的距離包括使用depth?vision?transformer模型得到與人臉圖像對應的深度圖,來估計所述人臉與單目攝像頭的距離,所述人機交互方法還包括根據單目攝像頭的內參矩陣、一個或多個人的人臉與所述單目攝像頭的距離和人臉的像素坐標確定所述人臉的空間三維坐標。

    5.根據權利要求1所述的人機交互方法,其特征在于使用自訓練的transformer模型提取與所述單目攝像頭相距預設距離以內的人臉圖像的特征向量包括:

    6.根據權利要求...

    【專利技術屬性】
    技術研發(fā)人員:李旭東張玥
    申請(專利權)人:北京奧丁信息科技有限責任公司
    類型:發(fā)明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码国产色欲XXXXX视频| 日韩精品无码一区二区三区AV| 亚洲AV永久无码精品| 亚洲色偷拍另类无码专区| 久热中文字幕无码视频| 国产精品爽爽V在线观看无码| 久久午夜无码免费| 最新亚洲人成无码网www电影| 色AV永久无码影院AV| 精品久久久久久无码中文字幕| 啊灬啊别停灬用力啊无码视频| 狠狠躁天天躁中文字幕无码| 亚洲精品无码久久| 无码人妻精品一区二区三区66 | 亚洲私人无码综合久久网| 精品久久久无码中文字幕天天 | 国产av永久精品无码| 精品无码国产自产拍在线观看| 日本无码色情三级播放| 国产精品无码一区二区三区免费| 人妻无码αv中文字幕久久| 亚洲国产精品无码久久久蜜芽 | 18禁无遮挡无码网站免费| 久久青青草原亚洲av无码app| 国精品无码一区二区三区左线| 无码AV一区二区三区无码| 少妇久久久久久人妻无码| 久久精品亚洲AV久久久无码| 亚洲午夜无码久久久久| 成人无码A区在线观看视频| 国产成人无码一二三区视频 | 日韩精品无码一区二区三区四区 | 超清无码无卡中文字幕| 免费A级毛片无码A∨男男| 日韩精品无码永久免费网站 | 无码国模国产在线观看免费| 亚洲av无码专区国产不乱码 | 高清无码视频直接看| 国产免费无码一区二区| 无码137片内射在线影院| AV大片在线无码永久免费|