基于多模態融合的直播間內容識別與智能分發方法及系統技術方案

技術編號：44184525 閱讀：13 留言：0更新日期：2025-02-06 18:26

本發明專利技術提供基于多模態融合的直播間內容識別與智能分發方法及系統，涉及機器學習技術領域，包括采集直播間視頻、音頻和彈幕數據，分別進行特征提取；利用多模態特征融合模型，對多模態特征進行跨模態交互、特征對齊及特征重構，生成跨模態融合特征；并基于預訓練的內容分類模型進行內容識別，得到類別標簽和時序特征。進一步，構建直播間內容畫像及關聯網絡，并結合用戶歷史觀看行為數據和深度強化學習模型，生成直播間實時評分，動態調整直播間展示權重及推送策略。本發明專利技術通過多模態數據融合及深度強化學習，實現了直播間內容的精準識別和個性化推薦，有效提升用戶體驗和平臺運營效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及機器學習技術，尤其涉及基于多模態融合的直播間內容識別與智能分發方法及系統。

技術介紹

1、傳統的直播間內容識別方法主要依賴于人工審核或簡單的關鍵詞匹配，效率低下且準確率不高。而傳統的直播間分發方法通常基于簡單的規則或協同過濾算法，難以捕捉用戶復雜多變的興趣偏好，導致推薦結果不夠精準。現有技術主要存在以下缺陷和不足：

2、多模態信息融合不足:傳統的直播間內容分析方法通常只關注單一模態信息，例如僅分析視頻畫面或音頻內容，忽略了不同模態信息之間的互補性和關聯性，導致內容理解不夠全面和準確。

3、內容識別精度有限:現有的內容識別方法大多基于簡單的特征提取和分類模型，難以處理復雜的直播場景和內容，導致識別精度有限，尤其是在處理多主題、內容快速變化的直播間時效果不佳。

4、分發效率和個性化程度不足:傳統的推薦算法難以有效捕捉用戶實時興趣和行為變化，無法根據用戶觀看歷史、互動行為和停留時長等動態數據進行個性化推薦，導致分發效率和用戶滿意度不足。

技術實現思路

1、本專利技術實施例提供基于多模態融合的直播間內容識別與智能分發方法及系統，能夠解決現有技術中的問題。

2、本專利技術實施例的第一方面，

3、提供基于多模態融合的直播間內容識別與智能分發方法，包括：

4、采集直播間的視頻流、音頻流和彈幕數據；對視頻流的分辨率與幀率進行實時監測，當檢測到視頻質量異常時觸發備用編碼器進行畫質修復后通過卷積神經網絡進行關鍵幀處理

5、將包含視頻特征向量、音頻特征向量和文本特征向量的多模態初始特征數據輸入至預設的多模態特征融合模型，所述多模態特征融合模型采用注意力機制對視頻特征向量、音頻特征向量和文本特征向量進行跨模態交互及特征對齊，在特征融合過程中，當檢測到某一模態數據異常缺失時，通過其他模態數據的特征補償機制進行特征重構，生成跨模態融合特征；通過預訓練的內容分類模型對所述跨模態融合特征進行多維度內容識別，得到直播間內容的類別標簽及時序特征；

6、基于所述類別標簽及時序特征構建直播間的內容畫像，并基于知識圖譜構建直播間內容之間的關聯網絡，采用圖神經網絡對具有相似主題特征的直播間進行聚類分組得到內容組別信息；將所述內容畫像、所述關聯網絡及所述內容組別信息結合用戶歷史觀看行為數據輸入至深度強化學習模型，所述深度強化學習模型基于用戶實時互動行為和停留時長數據進行在線更新，生成直播間的實時評分結果，根據所述實時評分結果動態調整不同類型直播間的展示權重及推送策略。

7、在一種可選的實施方式中，

8、將包含視頻特征向量、音頻特征向量和文本特征向量的多模態初始特征數據輸入至預設的多模態特征融合模型，所述多模態特征融合模型采用注意力機制對視頻特征向量、音頻特征向量和文本特征向量進行跨模態交互及特征對齊，在特征融合過程中，當檢測到某一模態數據異常缺失時，通過其他模態數據的特征補償機制進行特征重構，生成跨模態融合特征的步驟包括：

9、對多模態初始特征數據進行維度統一化處理，包括：將所述視頻特征向量通過全連接層、將所述音頻特征向量通過雙層感知機、將所述文本特征向量通過映射層分別映射至統一維度的特征空間，對映射后的特征進行正則化處理得到預處理特征；

10、在多模態特征融合模型中對所述預處理特征進行跨模態交互，包括：對統一維度后的特征分別通過三組獨立的線性投影層進行特征變換，每組線性投影層包含用于生成跨模態查詢向量的查詢矩陣、用于生成鍵向量的鍵矩陣和用于生成值向量的值矩陣，所述查詢矩陣、鍵矩陣和值矩陣采用服從均勻分布的xavier初始化方法進行初始化；將所述預處理特征并行分配至多個注意力頭，每個注意力頭利用對應的跨模態查詢向量和鍵向量計算模態間注意力分數并通過softmax函數得到模態融合注意力權重，將所述模態融合注意力權重與對應的值向量進行矩陣乘法得到注意力頭的輸出特征，對所述輸出特征應用隨機失活操作；將所有注意力頭的輸出特征拼接后通過多層堆疊的注意力模塊處理得到交互特征；

11、采用動態規劃算法對所述交互特征進行時序對齊，將所述交互特征按時間維度組織形成特征序列，構建特征序列的距離矩陣，基于所述距離矩陣計算特征序列的最小對齊代價，對時序對齊后的交互特征通過門控機制進行自適應融合得到跨模態融合特征；

12、在特征融合過程中檢測模態缺失情況，當檢測到模態缺失時，采用條件變分自編碼器對缺失特征進行重構，所述條件變分自編碼器的編碼器將已有模態特征編碼為隱變量，解碼器基于所述隱變量對缺失特征進行重構。

13、在一種可選的實施方式中，

14、采用動態規劃算法對所述交互特征進行時序對齊，將所述交互特征按時間維度組織形成特征序列，構建特征序列的距離矩陣，基于所述距離矩陣計算特征序列的最小對齊代價，對時序對齊后的交互特征通過門控機制進行自適應融合得到跨模態融合特征的步驟包括：

15、計算交互特征在相鄰時間步的互相關系數，構建時序相關性矩陣，所述時序相關性矩陣中的每個元素表征通過余弦相似度計算兩個對應時間步交互特征之間的關聯程度；

16、采用動態時間規整算法構建特征序列的距離矩陣，所述動態時間規整算法通過遞歸方式計算兩個特征序列之間的最小累積距離，并引入帶寬約束限制對齊路徑的搜索范圍，所述帶寬約束的范圍根據特征序列長度確定，所述距離矩陣的每個元素表征特征序列間的歐氏距離；

17、基于所述距離矩陣，采用動態規劃算法求解最優對齊路徑，所述動態規劃算法通過構建狀態轉移方程計算最優路徑，所述狀態轉移方程考慮插入代價、刪除代價和替換代價三種狀態轉移情況，通過回溯所述狀態轉移方程獲得對齊序列下標對；

18、基于所述對齊序列下標對進行特征自適應融合，所述特征自適應融合采用長短時記憶網絡進行門控機制，所述長短時記憶網絡由遺忘門、輸入門和輸出門組成，其中所述遺忘門控制歷史信息的遺忘程度，所述輸入門控制當前輸入信息的更新程度，所述輸出門控制當前時間步的輸出程度，將所述長短時記憶網絡的隱狀態經過線性變換得到最終的跨模態融合特征。

19、在一種可選的實施方式中，

20、通過預訓練的內容分類模型對所述跨模態融合特征進行多維度內容識別，得到直播間內容的類別標簽及時序特征的步驟包括：

21、獲取預訓練的內容分類模型的知識庫，對跨模態融合特征與所述知識庫進行雙向交叉注意力計算得到第一交互特征和第二交互特征，通過門控機制對所述第一交互特征和所述第二交互特征進行自適應融合得到語義表征；

22、基于所述語義表征構建層次化內容分類器，采用投影映射對所述語義表征進行特征變換得到主題特征，將所述主題特征與同類樣本和異類樣本進行對比學習得到主題分本文檔來自技高網...

【技術保護點】

1.基于多模態融合的直播間內容識別與智能分發方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，將包含視頻特征向量、音頻特征向量和文本特征向量的多模態初始特征數據輸入至預設的多模態特征融合模型，所述多模態特征融合模型采用注意力機制對視頻特征向量、音頻特征向量和文本特征向量進行跨模態交互及特征對齊，在特征融合過程中，當檢測到某一模態數據異常缺失時，通過其他模態數據的特征補償機制進行特征重構，生成跨模態融合特征的步驟包括：

3.根據權利要求2所述的方法，其特征在于，采用動態規劃算法對所述交互特征進行時序對齊，將所述交互特征按時間維度組織形成特征序列，構建特征序列的距離矩陣，基于所述距離矩陣計算特征序列的最小對齊代價，對時序對齊后的交互特征通過門控機制進行自適應融合得到跨模態融合特征的步驟包括：

4.根據權利要求1所述的方法，其特征在于，通過預訓練的內容分類模型對所述跨模態融合特征進行多維度內容識別，得到直播間內容的類別標簽及時序特征的步驟包括：

5.根據權利要求4所述的方法，其特征在于，基于所述類別標簽及時序特征構建直播

6.根據權利要求1所述的方法，其特征在于，將所述內容畫像、所述關聯網絡及所述內容組別信息結合用戶歷史觀看行為數據輸入至深度強化學習模型，所述深度強化學習模型基于用戶實時互動行為和停留時長數據進行在線更新，生成直播間的實時評分結果，根據所述實時評分結果動態調整不同類型直播間的展示權重及推送策略的步驟包括：

7.根據權利要求6所述的方法，其特征在于，構建分層注意力價值網絡，通過內容層、時序層和組別層注意力機制分別得到內容特征、行為特征和組別特征，通過跨層自適應門控機制融合所述內容特征、所述行為特征和所述組別特征得到多層注意力融合特征，生成直播間的實時評分結果的步驟包括：

8.基于多模態融合的直播間內容識別與智能分發系統，用于實現前述權利要求1-7中任一項所述的方法，其特征在于，包括：

9.一種電子設備，其特征在于，包括：

10.一種計算機可讀存儲介質，其上存儲有計算機程序指令，其特征在于，所述計算機程序指令被處理器執行時實現權利要求1至7中任意一項所述的方法。

...

【技術特征摘要】

1.基于多模態融合的直播間內容識別與智能分發方法，其特征在于，包括：

5.根據權利要求4所述的方法，其特征在于，基于所述類別標簽及時序特征構建直播間的內容畫像，并基于知識圖譜構建直播間...

【專利技術屬性】
技術研發人員：曾黎，廣宇昊，于驚濤，傅強，
申請(專利權)人：北京易匯眾盟網絡技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術