融合多模態大模型的人機協作數據集構建及異常檢測方法技術

技術編號：44477883 閱讀：4 留言：0更新日期：2025-03-04 17:46

本申請公開了一種融合多模態大模型的人機協作數據集構建及異常檢測方法，涉及人機協作技術領域，該方法包括：基于人機動作標簽控制虛擬數字人和虛擬機械臂在虛擬人機協作場景中進行虛擬人機協作，在進行虛擬人機協作的過程中，獲取人體碰撞部位、多角度人機場景圖像和關節姿態數據，并進一步進行時間戳對齊，組成多模態數據集，利用多模態大模型將多模態數據集轉換為視覺?語言指令數據集，利用視覺?語言指令數據集對多模態大模型進行微調，利用微調后的多模態大模型實現虛擬人機協作場景中的人機協作異常檢測。本申請可高效構建高質量的多模態數據集，并可對多模態大模型進行微調訓練，實現虛擬人機協作場景中的人機協作異常檢測。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人機協作，特別是涉及一種融合多模態大模型的人機協作數據集構建及異常檢測方法。

技術介紹

1、隨著機器人技術不斷成熟和人工智能快速發展，人機協作技術作為一種前沿的工業生產范式，正逐步改變著傳統制造業的面貌。在當前人機協作領域中，場景異常檢測(即人機協作場景下的異常檢測)技術不僅是確保生產安全與效率的關鍵所在，也是推動人機協作領域持續進步的核心驅動力。傳統的場景異常檢測技術是以純視覺模型為基礎，往往依賴于單一圖像信息，難以全面捕捉復雜作業環境中的多模態信息。而多模態大模型(也可稱為多模態大語言模型)可以通過高質量的人機協作數據集進行具體場景任務的微調訓練，為場景異常檢測帶來了全新的解決思路。

2、然而，目前的人機協作數據集中的人機協作場景數據的采集面臨著諸多挑戰。首先，復雜硬件設備的調試耗時耗力，導致數據采集的周期長且效率低，需要人工為數據打標簽，效率低；其次，人機協作場景中潛在的碰撞風險不僅會導致數據采集中斷或損壞設備，還可能會威脅到操作人員的人身安全，進一步影響數據集的完整性和可用性；最后，在實際場景中由于空間限制和視角問題，采集到的單一角度圖像缺乏場景全局信息。上述多種問題共同限制了人機協作數據集的質量和效率。

3、在人機協作場景中的多模態概念不止于狹義的視覺、聽覺等傳統感官范疇，而是擴展到了更加廣泛的信息維度，包括但不限于人體動作姿態、機械臂關節數據、作業場景圖像等多種類型。將上述不同維度的模態信息進行整合，生成基于人機協作場景的高質量的多模態數據集，即可滿足現有多模態大模型的具體下游任務微

4、基于此，本領域亟需一種高質量多模態數據集的高效構建方法。

技術實現思路

1、本申請的目的是提供一種融合多模態大模型的人機協作數據集構建及異常檢測方法，可高效構建高質量的多模態數據集，并可進一步對多模態大模型進行微調訓練，實現虛擬人機協作場景中的人機協作異常檢測。

2、為實現上述目的，本申請提供了如下方案：

3、第一方面，本申請提供了一種融合多模態大模型的人機協作數據集構建及異常檢測方法，所述融合多模態大模型的人機協作數據集構建及異常檢測方法包括：

4、基于人機動作標簽控制虛擬數字人和虛擬機械臂在虛擬人機協作場景中進行虛擬人機協作；

5、在進行虛擬人機協作的過程中，獲取虛擬數字人與虛擬人機協作場景中的物理資產發生碰撞時的人體碰撞部位、虛擬人機協作場景的多角度人機場景圖像和虛擬機械臂的關節姿態數據；

6、對所述人體碰撞部位、所述多角度人機場景圖像和所述關節姿態數據進行時間戳對齊，并將時間戳對齊后的人體碰撞部位、多角度人機場景圖像和關節姿態數據組成所述人機動作標簽對應的人機協作虛擬場景時序數據；

7、將每一所述人機動作標簽和所述人機動作標簽對應的人機協作虛擬場景時序數據組成多模態數據集；

8、利用多模態大模型將所述多模態數據集轉換為視覺-語言指令數據集；

9、利用所述視覺-語言指令數據集對多模態大模型進行微調，得到微調后的多模態大模型；利用微調后的多模態大模型實現虛擬人機協作場景中的人機協作異常檢測。

10、可選地，所述人機動作標簽包括：測試者人體姿態的標簽、機械臂工作狀態的標簽和人機空間距離的標簽；測試者人體姿態的標簽包括站立、蹲下、坐下和躺倒；機械臂工作狀態的標簽包括靜止、運動但不抓取和抓取；人機空間距離的標簽包括安全正常、警示提醒和危險制動。

11、可選地，基于人機動作標簽控制虛擬數字人和虛擬機械臂在虛擬人機協作場景中進行虛擬人機協作，具體包括：

12、獲取現實測試者的人體姿態數據和現實機械臂的關節運動數據；所述人體姿態數據和所述關節運動數據是現實測試者和現實機械臂基于人機動作標簽運動時所產生的數據；

13、基于所述人體姿態數據驅動虛擬數字人運動，基于所述關節運動數據驅動虛擬機械臂運動，使得虛擬數字人與現實測試者動作同步，虛擬機械臂與現實機械臂動作同步，以使虛擬數字人和虛擬機械臂在虛擬人機協作場景中進行虛擬人機協作。

14、可選地，所述多角度人機場景圖像是對拍攝視頻進行視頻幀提取和固定頻率采集后所得到的圖像，所述拍攝視頻是通過在虛擬人機協作場景中設置的一組虛擬攝像頭拍攝得到的視頻，一組虛擬攝像頭包括三個虛擬攝像頭，三個虛擬攝像頭的拍攝視角相互正交；

15、所述多角度人機場景圖像包括正視視角下虛擬人機協作場景的人機場景圖像、側視視角下虛擬人機協作場景的人機場景圖像和俯視視角下虛擬人機協作場景的人機場景圖像；

16、所述融合多模態大模型的人機協作數據集構建及異常檢測方法還包括：將所述人機動作標簽作為所述多角度人機場景圖像的名稱，以對所述多角度人機場景圖像進行命名。

17、可選地，對所述人體碰撞部位、所述多角度人機場景圖像和所述關節姿態數據進行時間戳對齊，具體包括：

18、確定所述人體碰撞部位的時間戳、所述多角度人機場景圖像的時間戳和所述關節姿態數據的時間戳的最大值和最小值；

19、基于所述最大值和所述最小值確定時間間隔，并通過遍歷和插值的方法對所述人體碰撞部位、所述多角度人機場景圖像和所述關節姿態數據進行時間戳對齊。

20、可選地，利用多模態大模型將所述多模態數據集轉換為視覺-語言指令數據集，具體包括：

21、利用多模態大模型對所述多模態數據集中的對齊后的多角度人機場景圖像進行自動化注釋，得到圖像標題；

22、以所述多模態數據集和所述圖像標題作為輸入，利用多模態大模型生成視覺-語言指令數據集。

23、可選地，用于得到圖像標題的多模態大模型為cogvlm2、glm4v、qwen-vl-chat或minicpm-v-2.5；用于生成視覺-語言指令數據集的多模態大模型為chatgpt；用于被微調以實現異常檢測的多模態大模型為cogvlm2、glm4v、qwen-vl-chat或minicpm-v-2.5。

24、可選地，以所述多模態數據集和所述圖像標題作為輸入，利用多模態大模型生成視覺-語言指令數據集，具體包括：

25、構建多個對話模板；所述對話模板用于引導多模態大模型生成具有特定模式和風格的指令數據，所述對話模板的內容包括詢問圖像內容和推理場景；

26、以所述多模態數據集、所述圖像標題和多個對話模板作為輸入，利用多模態大模型生成視覺-語言指令數據集；所述視覺-語言指令數據集包括多種類型的文本數據，文本數據的類型包括詳細描述型數據、長對話型數據和復雜推理型數據。

27、可選地，利用所述視覺-語言指令數據集對多模態大模型進行微調，得到微本文檔來自技高網...

【技術保護點】

1.一種融合多模態大模型的人機協作數據集構建及異常檢測方法，其特征在于，所述融合多模態大模型的人機協作數據集構建及異常檢測方法包括：

2.根據權利要求1所述的融合多模態大模型的人機協作數據集構建及異常檢測方法，其特征在于，所述人機動作標簽包括：測試者人體姿態的標簽、機械臂工作狀態的標簽和人機空間距離的標簽；測試者人體姿態的標簽包括站立、蹲下、坐下和躺倒；機械臂工作狀態的標簽包括靜止、運動但不抓取和抓取；人機空間距離的標簽包括安全正常、警示提醒和危險制動。

3.根據權利要求1所述的融合多模態大模型的人機協作數據集構建及異常檢測方法，其特征在于，基于人機動作標簽控制虛擬數字人和虛擬機械臂在虛擬人機協作場景中進行虛擬人機協作，具體包括：

4.根據權利要求1所述的融合多模態大模型的人機協作數據集構建及異常檢測方法，其特征在于，所述多角度人機場景圖像是對拍攝視頻進行視頻幀提取和固定頻率采集后所得到的圖像，所述拍攝視頻是通過在虛擬人機協作場景中設置的一組虛擬攝像頭拍攝得到的視頻，一組虛擬攝像頭包括三個虛擬攝像頭，三個虛擬攝像頭的拍攝視角相互正交；

<...

【技術特征摘要】

1.一種融合多模態大模型的人機協作數據集構建及異常檢測方法，其特征在于，所述融合多模態大模型的人機協作數據集構建及異常檢測方法包括：

5.根據權利要求1所述的融合多模態大模型的人機協作數據集構建及異常檢測方法，其特征在于，對所述人體碰撞部位、所述多角度人機場景圖像和所述關節姿態數據進行時間戳...

【專利技術屬性】
技術研發人員：劉振宇，梁洪睿，撒國棟，李志男，譚建榮，
申請(專利權)人：浙江大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術