System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理,尤其涉及媒體數據融合方法、系統、核心語音交換設備及存儲介質。
技術介紹
1、核心語音交換網關是通信網絡中的關鍵設備,它負責處理和轉發語音信號,確保不同通信系統之間的互連互通。在媒體融合的背景下,核心語音交換網關不僅要處理傳統的語音通信,還要能夠支持視頻、文本和其他多媒體數據的傳輸。這樣的網關能夠實現不同通信網絡和設備之間的無縫連接,提升通信效率和服務質量。媒體融合處理涉及到多種通信媒介的集成,包括但不限于音頻、視頻、數據和文本。
2、語音數據和視頻數據在編碼方式、數據量、時間戳等方面存在顯著差異,導致在時間戳上的兩者同步容易出現音畫不同步的問題,使音視頻混流數據的混流效果差。
技術實現思路
1、本申請所要解決的技術問題是在語音數據和視頻數據在編碼方式、數據量、時間戳等方面存在顯著差異,導致在時間戳上的兩者同步容易出現音畫不同步的問題,使音視頻混流數據的混流效果差。
2、為了解決上述問題,為了解決上述技術問題或者至少部分地解決上述技術問題,本申請提供了媒體數據融合方法、系統、核心語音交換設備及存儲介質。
3、第一方面,本專利技術公開了一種媒體數據融合方法,其具體包括以下步驟:
4、針對多源異構音頻數據以及視頻數據進行提取特征處理,得到音頻數據流、視頻關鍵幀以及數據的語義特征;
5、基于數據的語義特征對音頻數據流與視頻關鍵幀進行同步處理,得到同步后的音視頻數據;
6、提取同步后的音視頻數據的關鍵
7、構造數據混流優化模型,對優化后的音視頻特征集合進行融合混流處理,得到融合后的音視頻混流數據。
8、優選地,所述針對多源異構音頻數據以及視頻數據進行提取特征處理,得到音頻數據流、視頻關鍵幀以及數據的語義特征,具體包括以下步驟:
9、獲取多源異構音視頻數據,采用自適應解碼算法,根據所述音視頻數據的語音停頓間隔和視頻場景切換頻率,動態選擇最優解碼方式,得到解碼后的音頻數據流和視頻關鍵幀;
10、對所述解碼后的音頻數據流進行語音識別,提取文本內容、語速變化率和情感強度特征,對所述視頻關鍵幀進行圖像理解,獲取畫面主體運動軌跡、色彩飽和度變化和視覺注意力分布,綜合生成語義特征,所述語義特征包括關鍵詞、情感標簽和場景標簽。
11、優選地,所述基于數據的語義特征對音頻數據流與視頻關鍵幀進行同步處理,得到同步后的音視頻數據,具體包括以下步驟:
12、根據音頻數據的語義特征,提取音頻的音色頻譜特征向量;
13、根據視頻數據的語義特征,提取視頻關鍵幀的內容標簽特征向量;
14、構建音視頻特征相似度計算模型,采用動態時間規整算法,通過滑動時間窗口,計算音頻特征向量與視頻特征向量在時間窗口內的相似度;
15、根據計算得到的音視頻特征相似度,確定音頻流與視頻幀的初始同步位置;
16、在初始同步位置的基礎上,采用插值補償技術,通過構建音視頻幀間映射模型,實現音頻流與視頻幀的精準同步對齊;
17、采用數據修復算法,通過相鄰幀的特征插值,補償丟失的音頻或視頻數據;
18、將同步對齊后的音頻流和視頻幀進行合成,得到同步后的音視頻數據輸出。
19、優選地,所述提取同步后的音視頻數據的關鍵特征,獲取音視頻數據中的內容相關性特征,對同步后的音視頻數據的關鍵特征進行特征選擇以及特征組合處理,根據內容相關性特征的權重,將內容相關性特征進行內容相關性最大化優化,得到優化后的音視頻特征集合,具體包括以下步驟:
20、對所述同步后的音視頻數據,采用基于深度學習的多模態特征融合方法,提取音頻的聲紋特征和背景音樂風格特征,以及視頻的畫面構圖和前景背景比例等特征;
21、根據預設的特征選擇策略,對提取的音視頻特征進行篩選,獲取與內容相關性最強的特征子集;
22、針對篩選出的音視頻特征,采用多種特征組合方式進行融合,包括串聯和并聯等,得到組合后的音視頻特征向量;
23、將組合后的音視頻特征向量輸入到預先訓練的支持向量機分類器中,判斷該音視頻的內容相關性得分;
24、若內容相關性得分低于預設閾值,則采用遺傳算法對特征權重進行迭代優化;
25、將特征權重作為遺傳算法的優化變量,以內容相關性得分為適應度函數,通過選擇、交叉和變異等操作進化產生新的特征權重組合;
26、根據更新后的特征權重,重新計算音視頻的內容相關性得分,直到得分達到預設閾值或迭代次數超過上限為止,優化后的音視頻特征集合作為該音視頻內容相關性的表征。
27、優選地,所述構造數據混流優化模型,對優化后的音視頻特征集合進行融合混流處理,得到融合后的音視頻混流數據,具體包括以下步驟:
28、獲取待混流的音視頻數據,提取其中的關鍵特征,構建音視頻特征集合;
29、將所述音視頻特征集合輸入預訓練的深度學習模型,根據混流畫面布局優化度和混流音頻音量平衡度確定目標函數;
30、采用強化學習算法,以所述目標函數為優化目標,通過智能搜索確定最優混流參數組合;
31、針對混流畫面,通過計算畫面元素分布的均衡性和視覺引導性,量化評估混流畫面布局優化度;
32、針對混流音頻,通過測量不同音軌之間的音量差異和動態范圍,評估混流音頻音量平衡度;
33、在混流過程中,通過實時分析混流視覺連貫性和內容相關性,自適應調整混流參數,最小化混流數據源切換頻率;
34、將上述步驟得到的最優混流參數組合應用于音視頻混流,得到融合后的音視頻混流數據輸出。
35、優選地,得到融合后的音視頻混流數據之后還包括以下步驟:
36、對融合后的音視頻混流數據進行質量評估,對質量評估結果預設閾值,根據質量評估結果進行調整混流數據,調整后的混流數據的質量評估結果超過預設閾值,得到調整后的混流數據,對調整后的混流數據計算混流效果評分。
37、優選地,所述對融合后的音視頻混流數據進行質量評估,對質量評估結果預設閾值,根據質量評估結果進行調整混流數據,得到符合要求的混流數據,對符合要求的混流數據計算混流效果評分,具體包括以下步驟:
38、對所述融合后的音視頻混流數據進行質量評估,計算畫面清晰度、音頻信噪比和內容連貫性指標,若所述質量評估結果未達到預設閾值,則觸發優化機制,調整所述混流參數并重新生成混流數據,直至滿足質量要求;
39、采用多級緩存機制對質量達標的音視頻混流數據進行存儲,根據混流對象切換頻率和數據熱度,動態調整緩存策略,提高緩存命中率和數據讀取效率,存儲完成后,立即計算混流效果評分,所述評分指標包括畫面本文檔來自技高網...
【技術保護點】
1.一種媒體數據融合方法,其特征在于,具體包括以下步驟:
2.根據權利要求1所述的媒體數據融合方法,其特征在于,所述針對多源異構音頻數據以及視頻數據進行提取特征處理,得到音頻數據流、視頻關鍵幀以及數據的語義特征,具體包括以下步驟:
3.根據權利要求1所述的媒體數據融合方法,其特征在于,所述基于數據的語義特征對音頻數據流與視頻關鍵幀進行同步處理,得到同步后的音視頻數據,具體包括以下步驟:
4.根據權利要求1所述的媒體數據融合方法,其特征在于,所述提取同步后的音視頻數據的關鍵特征,獲取音視頻數據中的內容相關性特征,對同步后的音視頻數據的關鍵特征進行特征選擇以及特征組合處理,根據內容相關性特征的權重,將內容相關性特征進行內容相關性最大化優化,得到優化后的音視頻特征集合,具體包括以下步驟:
5.根據權利要求1所述的媒體數據融合方法,其特征在于,所述構造數據混流優化模型,對優化后的音視頻特征集合進行融合混流處理,得到融合后的音視頻混流數據,具體包括以下步驟:
6.根據權利要求1所述的媒體數據融合方法,其特征在于,得到融合后的音視頻
7.根據權利要求6所述的媒體數據融合方法,其特征在于,所述對融合后的音視頻混流數據進行質量評估,對質量評估結果預設閾值,根據質量評估結果進行調整混流數據,得到符合要求的混流數據,對符合要求的混流數據計算混流效果評分,具體包括以下步驟:
8.一種媒體數據特征分析系統,其特征在于,包括上述權利要求1-7任一項所述的媒體數據融合方法的步驟。
9.一種核心語音交換設備,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
10.一種存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如上述權利要求1-7任一項所述的媒體數據融合方法的步驟。
...【技術特征摘要】
1.一種媒體數據融合方法,其特征在于,具體包括以下步驟:
2.根據權利要求1所述的媒體數據融合方法,其特征在于,所述針對多源異構音頻數據以及視頻數據進行提取特征處理,得到音頻數據流、視頻關鍵幀以及數據的語義特征,具體包括以下步驟:
3.根據權利要求1所述的媒體數據融合方法,其特征在于,所述基于數據的語義特征對音頻數據流與視頻關鍵幀進行同步處理,得到同步后的音視頻數據,具體包括以下步驟:
4.根據權利要求1所述的媒體數據融合方法,其特征在于,所述提取同步后的音視頻數據的關鍵特征,獲取音視頻數據中的內容相關性特征,對同步后的音視頻數據的關鍵特征進行特征選擇以及特征組合處理,根據內容相關性特征的權重,將內容相關性特征進行內容相關性最大化優化,得到優化后的音視頻特征集合,具體包括以下步驟:
5.根據權利要求1所述的媒體數據融合方法,其特征在于,所述構造數據混流優化模型,對優化后的音視頻特征集合進...
【專利技術屬性】
技術研發人員:苗林,
申請(專利權)人:深圳市開源通信有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。