一種視頻數據的處理方法和裝置制造方法及圖紙

技術編號：15695957 閱讀：102 留言：0更新日期：2017-06-24 11:32

本申請提供一種視頻數據的處理方法和裝置。方法包括：獲取待處理的視頻元數據；根據預設的視頻轉碼規則和視頻轉碼參數，對視頻元數據進行轉碼處理，獲得視頻轉換信息；根據預設的提取參數，對目標視頻文件進行圖像采樣獲得采樣圖像集合信息、進行音頻數據提取、切分，獲得音頻片段集合信息；對采樣圖像集合信息進行處理，獲得圖像文本信息和物品信息；對音頻片段集合信息進行處理，獲得語音文本信息；對采樣圖像集合信息進行聚類分組，獲得多個視頻場景；根據多個視頻場景、物品信息和語音文本信息，生成語義標簽和上下文特征信息。本申請可以自動且高效而精準地對海量視頻數據進行場景切分和語義關聯，提高了用戶觸達視頻數據的精準度和效率。

全部詳細技術資料下載

【技術實現步驟摘要】
一種視頻數據的處理方法和裝置
本申請涉及多媒體視頻信息處理
，尤其涉及一種視頻數據的處理方法和裝置。
技術介紹
隨著網絡通訊技術和互聯網技術的飛速發展，越來越多的多媒體視頻數據應運而生，這些海量的視頻數據以豐富的內容給人們的生活帶來了巨大的便利。其中有較大部分的視頻數據用于在線教育和在線培訓，這部分視頻數據本身就包含非常豐富的信息量，如視頻中存在培訓教師演講的PPT投影內容、用于演示的實驗器材、培訓教師演講的語音描述等，這些內容的信息量包含用戶所關心的焦點，但是卻以復雜編碼的方式存在于視頻站點之中，目前并沒有很精確有效的方法和應用，能讓用戶快速觸達到其所關心的視頻內容焦點上。目前而言，對于多媒體視頻的描述信息，主要還是由人工定義的標題、標簽、以及視頻文件格式、播放時長、分辨率、音頻視頻碼率等視頻元數據組成，擁有語義的部分僅限于人工定義的標題、標簽、內容簡介等。這些描述信息是無法滿足用戶更精準觸達內容的需求。而且，當面對海量視頻文件時，人工定義標題、標簽等會有標準較為主觀和處理效率低下的缺點。因此，目前急需一種視頻數據的處理方法，能夠快速和精準地提取海量視頻數據，并能夠對海量的視頻數據進行場景切分和語義化定義，從而提高在各種視頻應用場景中用戶觸達的精準度和效率。
技術實現思路
有鑒于此，本申請提供一種視頻數據的處理方法和裝置，能夠快速和精準地提取海量視頻數據，并能夠對海量的視頻數據進行場景切分和語義化定義，從而提高在各種視頻應用場景中用戶觸達的精準度和效率。技術方案如下：基于本申請的一方面，本申請提供一種視頻數據的處理方法，包括：獲取待處理的視頻元數據；根...
一種視頻數據的處理方法和裝置

【技術保護點】
一種視頻數據的處理方法，其特征在于，包括：獲取待處理的視頻元數據；根據預設的視頻轉碼規則和視頻轉碼參數，對所述視頻元數據進行轉碼處理，獲得視頻轉換信息；所述視頻轉換信息包括轉碼后的目標視頻文件；根據預設的提取參數，對所述目標視頻文件進行圖像采樣獲得采樣圖像集合信息，對所述目標視頻文件進行音頻數據提取、切分，獲得音頻片段集合信息；對所述采樣圖像集合信息進行處理，獲得圖像文本信息和物品信息；對所述音頻片段集合信息進行處理，獲得語音文本信息；依據所述采樣圖像集合信息和所述圖像文本信息，按照圖像相似度計算方法，對所述采樣圖像集合信息進行聚類分組，獲得多個視頻場景；根據所述多個視頻場景、物品信息和語音文本信息，生成語義標簽和上下文特征信息。

【技術特征摘要】
1.一種視頻數據的處理方法，其特征在于，包括：獲取待處理的視頻元數據；根據預設的視頻轉碼規則和視頻轉碼參數，對所述視頻元數據進行轉碼處理，獲得視頻轉換信息；所述視頻轉換信息包括轉碼后的目標視頻文件；根據預設的提取參數，對所述目標視頻文件進行圖像采樣獲得采樣圖像集合信息，對所述目標視頻文件進行音頻數據提取、切分，獲得音頻片段集合信息；對所述采樣圖像集合信息進行處理，獲得圖像文本信息和物品信息；對所述音頻片段集合信息進行處理，獲得語音文本信息；依據所述采樣圖像集合信息和所述圖像文本信息，按照圖像相似度計算方法，對所述采樣圖像集合信息進行聚類分組，獲得多個視頻場景；根據所述多個視頻場景、物品信息和語音文本信息，生成語義標簽和上下文特征信息。2.根據權利要求1所述的方法，其特征在于，所述視頻元數據包括：視頻名稱、用戶標簽和源文件。3.根據權利要求1所述的方法，其特征在于，預設的視頻轉碼參數包括：視頻解碼和編碼參數、音頻解碼和編碼參數、轉碼分辨率參數、存儲路徑以及文件系統相關參數。4.根據權利要求1所述的方法，其特征在于，預設的提取參數包括：圖像采樣率參數、圖像采樣分辨率參數、音頻提取參數、音頻切分率參數、存儲路徑以及文件系統相關參數。5.根據權利要求4所述的方法，其特征在于，所述采樣圖像集合信息包括：采樣圖片文件、采樣圖片對應的視頻幀目、采樣圖片對應的視頻播放時間；所述音頻片段集合信息包括：切分音頻文件、切分音頻對應的視頻起始幀目、切分音頻對應的視頻播放起始時間。6.根據權利要求1-5任一項所述的方法，其特征在于，所述對所述采樣圖像集合信息進行處理，獲得圖像文本信息和物品信息包括：使用光學識別技術逐一對所述采樣圖像集合信息中，圖像所包含的文本信息進行識別、提取，獲得圖像文本信息；使用深度學習圖像識別技術逐一對所述采樣圖像集合信息中，圖像所包含的特型物品進行識別、提取，獲得物品信息。7.根據權利要求1-5任一項所述的方法，其特征在于，所述對所述音頻片段集合信息進行處理，獲得語音文本信息包括：使用語音識別技術逐一對所述音頻片段集合信息中的人類語音信息進行識別、提取，獲得語音文本信息。8.根據權利要求1-5任一項所述的方法，其特征在于，所述依據所述采樣圖像集合信息和所述圖像文本信息，按照圖像相似度計算方法，對所述采樣圖像集合信息進行聚類分組，獲得多個視頻場景包括：對所述采樣圖像集合信息中的圖像按固定比率進行縮放，并計算相鄰兩張圖片的漢明距離，獲得所述采樣圖像集合信息進行聚類分組的第一信息參數；對所述圖像文本信息統一編碼，并計算相鄰圖像文本信息的編輯距離，獲得所述采樣圖像集合信息進行聚類分組的第二信息參數；對所述第一信息參數、所述第二信息參數進行加權合并，并采用線性函數進行擬合，按照斜率的變化規律進行分段，獲得多個視頻場景。9.根據權利要求6所述的方法，其特征在于，所述物品信息包括：特型物品名稱、特型物品標簽。10.根據權利要求9所述的方法，其特征在于，所述根據所述多個視頻場景、物品信息和語音文本信息，生成語義標簽和上下文特征信息包括：將特型物品名稱和特型物品標簽依次進行過濾、聚類和編碼，獲得包含所述特型物品的圖像所在幀目的第一語義標簽信息和第一上下文特征信息；根據所述多個視頻場景，逐一合并所述視頻場景下所有圖像所在幀目的第一語義標簽信息和第一上下文特征信息，獲得所述視頻場景的第一語義信息參數；對所述語音文本信息進行分詞處理，獲得多個詞組；依據棄用詞庫和/或停用詞庫，對所述詞組進行過濾，獲得多個擁有語義的詞組；對所述多個擁有語義的詞組進行聚類和編碼，并從中提取第二語義標簽信息和第二上下文特征信息，獲得所述視頻場景的第二語義信息參數；逐一融合所述視頻場景的第一語義信息參數、第二語義信息參數，獲得所述視頻場景的語義標簽信息和上下文特征信息。11.一種視頻數據的處理裝置，其特征在于，包括：視頻元數據獲取單元，用于獲取待處理的視頻元數據；轉碼處理單元，用于根據預...

【專利技術屬性】
技術研發人員：張福，鄭宇，唐慶茂，黃智叢，田軍，
申請(專利權)人：北京知慧教育科技有限公司，
類型：發明
國別省市：北京,11

全部詳細技術資料下載我是這個專利的主人

相關技術

暫無相關專利

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

視頻會議管理系統技術

如何管理數據技術