基于語音識別檢測體育視頻精彩部分制造技術

技術編號：13633175 閱讀：70 留言：0更新日期：2016-09-02 15:47

提供了用于檢測體育視頻中的視頻精彩部分的計算機實現的方法和存儲有用于檢測體育視頻中的精彩部分的可執行計算機程序指令的非瞬態計算機可讀存儲介質。體育視頻的視頻精彩部分是體育視頻的一部分并且表示體育視頻中捕獲的語義上重要的事件。評估與體育視頻相關聯的音頻流，例如，音頻流各部分的響度以及響度的長度。基于對音頻流的評估來選擇體育視頻的視頻片段。每個選擇的視頻片段表示體育視頻的視頻精彩部分候選。經訓練的音頻分類模型被用于識別與每個選擇的視頻片段相關聯的音頻流中的語音模式。基于識別的視頻模式與期望的語音模式的集合的比較，選擇一個或多個視頻片段作為體育視頻的視頻精彩部分。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術總體上涉及數字內容處理，具體地涉及使用與體育視頻相關聯的音頻數據的語音識別來檢測體育視頻中的精彩部分。
技術介紹
智能手持設備(諸如智能電話和平板計算機)已經日益普遍。增長的網絡訪問(針對有線和無線網絡)的可用性和帶寬使得更多計算平臺用于數字內容消費和共享，諸如由智能電話錄制體育視頻并且在社交聯網平臺上共享體育視頻的視頻精彩部分。體育視頻的視頻精彩部分是體育視頻的一部分并且表示體育視頻中捕獲的語義上重要的事件，例如，捕獲足球比賽視頻片段中進球或射門的短視頻剪輯(clip)。考慮到體育視頻的復雜時空性質，從長視頻剪輯中高效定位并選擇視頻精彩部分是耗時的并且在技術上具有挑戰的。例如，足球比賽的90分鐘長視頻剪輯可以包含捕獲三個進球事件的三個精彩部分，其中每個精彩部分可能僅持續10-20秒。視頻精彩部分檢測的某些傳統解決方案依靠某些領域知識，其僅適用于特定類型的體育運動，例如，在精彩部分檢測之前將體育視頻分類成足球或籃球。備選地，某些現有解決方案使用圖像分析技術來檢測體育視頻中捕獲的精彩部分，例如，使用體育視頻中基于顏色的視覺特征來追蹤網球視頻中的選手和網球。然而，考慮到體育視頻的復雜時空性質和由與體育視頻相關聯的音頻數據承載的豐富語義信息，基于視覺線索而不有效利用音頻數據的精彩部分檢測難于高效和有效。
技術實現思路
本專利技術的各實施例提供了一種用于基于與體育視頻相關聯的音頻流中識別的語音模式來檢測體育視頻的視頻精彩部分的解決方案。體育視頻的視頻精彩部分是體育視頻的一部分并且表示體育視頻中捕獲的語義上重要的事件。一種用于檢測體育視頻的一個或多個視頻精彩...

【技術保護點】
一種用于檢測體育視頻中的精彩部分的計算機實現的方法，包括：評估與所述體育視頻相關聯的音頻流；基于所述音頻流評估來選擇所述體育視頻的一個或多個視頻片段；識別每個選擇的視頻片段中的多個語音模式；以及基于選擇的所述視頻片段的所述語音模式識別來檢測所述體育視頻中的一個或多個精彩部分。

【技術特征摘要】
2015.02.24 US 14/629,8521.一種用于檢測體育視頻中的精彩部分的計算機實現的方法，包括：評估與所述體育視頻相關聯的音頻流；基于所述音頻流評估來選擇所述體育視頻的一個或多個視頻片段；識別每個選擇的視頻片段中的多個語音模式；以及基于選擇的所述視頻片段的所述語音模式識別來檢測所述體育視頻中的一個或多個精彩部分。2.根據權利要求1所述的方法，其中評估與所述體育視頻相關聯的所述音頻流包括：確定在預定時間段上的所述音頻流的響度；以及確定所述音頻流的所述響度的有效聲功率長度。3.根據權利要求2所述的方法，其中確定所述音頻流的所述響度包括：計算在所述預定時間段上的所述音頻流的平均功率。4.根據權利要求2所述的方法，進一步包括：將所述音頻流的所述響度與預定義響度閾值進行比較；以及將所述響度的所述有效聲功率長度與預定義長度閾值進行比較。5.根據權利要求1所述的方法，其中視頻片段對應于所述體育視頻的一部分，并且其中基于所述音頻流評估來選擇一個或多個視頻片段包括：響應于與所述視頻片段相關聯的所述音頻流的所述部分具有期望的音頻特征而選擇所述視頻片段；其中具有所述期望的音頻特征的所述音頻流的一部分具有比預定于響度閾值更大的平均聲功率并且所述平均聲功率的長度持續得比預定義長度閾值更長。6.根據權利要求5所述的方法，其中選擇的視頻片段表示針對所述體育視頻的精彩部分候選。7.根據權利要求1所述的方法，其中識別每個選擇的視頻片段中的多個語音模式包括：向與所述視頻片段相關聯的所述音頻流的所述部分應用經訓練的聲音分類模型；基于所述經訓練的聲音分類模型的所述應用生成針對預定義語音模式的集合的多個精彩部分參數，所述預定義語音模式中的每個預定義語音模式表示與所述體育視頻的精彩部分相關聯的期望的音頻特征；以及分析所生成的精彩部分參數。8.根據權利要求7所述的方法，其中所述預定義語音模式集包括以下各項中的至少一項：針對詞語“Yeah”的聲音的語音模式；針對詞語“Whoa”的聲音的語音模式；針對詞語“Yes”的聲音的語音模式；以及針對體育視頻的情境中的大聲鼓掌的語音模式。9.根據權利要求7所述的方法，其中生成所述多個精彩部分參數包括：生成與所述視頻片段的音頻特征相關聯的所述音頻流的所述部分的音頻特征與所述預定義語音模式的集合中的每個語音模式之間的相似度得分；生成所述視頻片段的有效聲音長度；以及生成所述視頻片段的最大聲功率。10.根據權利要求9所述的方法，進一步包括：響應于與所述視頻片段相關聯的相似度得分超過相似度得分閾值而選擇所述視頻片段，所述相似度得分閾值表示針對有資格作為所述體育視頻的精彩部分的所述視頻片段的最小相似度程度。11.根據權利要求1所述的方法，其中基于選擇的所述視頻片段的所述語音模式識別來檢測所述體育視頻中的一個或多個精彩部分包括：選擇具有與期望的語音模式中的至少一個期望的語音模式相似的音頻特征的視頻片段，其中所述視頻片段的所述音頻特征與所述期望的語音模式的所述音頻特征之間的所述相似度由所述視頻片段的所述音頻特征與所述期望的語音模式中的每個期望的語音模式之間的相似度得分被呈現。12.根據權利要求1所述的方法，進一步包括：對所檢測到的所述體育視頻的精彩部分進行排名；以及在圖形用戶接口中呈現所檢測到的所述體育視頻的精彩部分以用于在社交聯網平臺中共享所檢測到的所述體育視頻的精彩部分。13.根據權利要求12所述的方法，其中對所檢測到的所述體育視頻的精彩部分進行排名包括：正規化與所檢測到的精彩部分相關聯的精彩部分參數，所述精彩部分參數基于在所檢測到的精彩部分中識別的所述語音模式被生成；以及基于與所檢測到的所述體育視頻的精彩部分相關聯的正規化的所述精彩部分參數對所檢測到的精彩部分排序。14.一種存儲有用于檢測體育視頻中的精彩部分的可執行計算機程序指令的非瞬態計算機可讀存儲介質，所述指令在由計算機處理器執行時使得所述計算機處理器：評估與所述體育視頻相關聯的音頻流；基于所述音頻流評估來選擇所述體育視頻的一個或多個視頻片段；識別每個選擇的視頻片段中的多個語音模式；以及基于所述選擇的所述視頻片段的所述語音模式來識別檢測所述體育視頻中的一個或多個精彩部分。15.根據權利要求14所述的計算機可讀存儲介質，其中用于評估與所述體育視頻相關聯的所...

【專利技術屬性】
技術研發人員：韓錚，戴曉偉，劉江宇，
申請(專利權)人：澤普實驗室公司，
類型：發明
國別省市：美國;US

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術