一種基于語音識別和視頻畫面選取的視頻問答系統及方法技術方案

技術編號：44254881 閱讀：4 留言：0更新日期：2025-02-14 22:01

本發明專利技術公開了一種基于語音識別和視頻畫面選取的視頻問答系統及方法，所述系統包括：音頻數據獲取單元、語音識別單元、智能視頻畫面選取單元、信息融合單元及問答單元；通過設置語音識別單元和智能視頻畫面選取單元對音頻數據獲取單元獲取的語音視頻數據進行實時的識別與分析，能夠得到高質量的文本數據和視頻畫面數據，并能有效減少冗余畫面的產生；信息融合單元將文本數據和視頻畫面數據進行信息融合，能夠有效提高文本內容和視頻內容的同步性和一致性，最后設置問答單元結合融合后的文本和視覺信息，對用戶發出的問題或提示進行合理分析，并生成最終的問答結果，有效提高了系統整合語音和視頻畫面信息的能力，提高問答系統的整體準確性和效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及視頻處理和自然語言處理的，尤其涉及一種基于語音識別和視頻畫面選取的視頻問答系統及方法。

技術介紹

1、視頻中存在多種模態的信息，例如場景、目標、音頻等，這些關鍵要素可以在很大程度上反映出視頻的視覺信息內容。此外，視頻的自然語言描述也能夠一定程度上反映視頻的主要內容?，F有的預訓練模型能夠從不同的角度對這些要素進行抽取。

2、針對視頻中出現的目標級要素，redmon等人提出了yolo目標檢測及框架。該框架能夠識別圖像中出現的目標，并對其進行定位，從而有效地提取目標要素。

3、問答系統則是眾多語言或者視頻處理系統中的一種，在企業和機構中，問答系統可以作為智能客服，為用戶提供快速、準確的解答；問答系統還可以用于企業和機構的知識管理，幫助員工快速獲取所需的知識；問答系統還可以集成到智能助手(如智能手機助手、智能音箱等)中，為用戶提供便捷的服務。用戶可以通過語音或文本與智能助手交互，提出各種問題，獲取所需的信息和服務。

4、目前，現有的基于語音識別的問答系統：這種系統僅依賴于視頻中的語音進行識別，將語音內容轉化為文本進行處理。但該系統無法利用視頻中的視覺信息來回答用戶的問題，因此在處理包含豐富視覺信息的問題時效果不佳，甚至根本無法使用；此外，對于發音相近的詞匯，也是語音識別系統的誤識別常見的問題，這會導致對視頻的內容理解造成嚴重的偏差；另外，對于純包含視頻畫面，無音頻的視頻內容無法解讀?，F有技術還提出基于視頻畫面的問答系統：該系統主要分析視頻畫面來回答問題；當前技術中常用的方法包括直接從視頻

5、綜上所述，現有的問答系統在技術上仍存在無法有效整合語音和視頻畫面信息，從而無法高效的處理長視頻內容，導致問答系統的整體準確性和效率較低的問題。

技術實現思路

1、為了克服現有問答系統在技術上存在無法有效整合語音和視頻畫面信息，從而無法高效的處理長視頻內容，導致問答系統的整體準確性和效率較低的問題，本專利技術提出一種基于語音識別和視頻畫面選取的視頻問答系統及方法，能夠有效整合語音和視頻畫面信息，從而高效的處理長視頻內容，提高問答系統的整體準確性和效率。

2、本專利技術的目的采用如下技術方案實現：

3、一種基于語音識別和視頻畫面選取的視頻問答系統，所述系統包括：音頻數據獲取單元、語音識別單元、智能視頻畫面選取單元、信息融合單元及問答單元；

4、所述音頻數據獲取單元用于獲取語音視頻數據；

5、所述語音識別單元用于對語音視頻數據進行實時語音識別，并生成對應的文本數據；

6、所述智能視頻畫面選取單元用于對語音視頻數據進行分析，抽取視頻內容中的關鍵幀，并基于抽取的關鍵幀生成視頻畫面數據；

7、所述信息融合單元用于將生成的文本數據與視頻畫面數據進行信息融合，得到結合的文本和視覺信息；

8、所述問答單元用于獲取用戶的問題信息，并結合信息融合結果對問題信息進分析，生成最終的問答結果。

9、在上述技術方案中，通過設置語音識別單元和智能視頻畫面選取單元對語音視頻數據進行實時的識別與分析，能夠得到高質量的文本數據和視頻畫面數據，并能有效減少冗余畫面的產生；設置信息融合單元將文本數據和視頻畫面數據進行信息融合，得到結合的文本和視覺信息，能夠有效提高文本內容和視頻內容的同步性和一致性，最后設置問答單元獲取用戶發出的問題或提示，結合融合后的文本和視覺信息，對用戶發出的問題或提示進行合理分析，并生成最終的問答結果，有效提高了系統整合語音和視頻畫面信息的能力，從而高效的處理長視頻內容，提高問答系統的整體準確性和效率。

10、優選地，所述語音識別單元包括音頻編碼模塊；

11、所述音頻編碼模塊對語音視頻數據中的音頻數據進行語音轉文本處理，生成帶時間戳的文本數據，并對所述文本數據進行文本分詞。

12、優選地，所述音頻編碼模塊設置深度學習模型學習語音轉文本處理后的音頻數據與時間特征，得到掌握語音轉文本處理與時間對齊的語音識別模型；

13、所述語音識別模型將文本與時間對齊，生成帶時間戳的文本數據。

14、在上述技術方案中，設置深度學習模型來學習語音轉文本處理后的音頻數據與時間特征，從而得到一個能夠掌握語音轉文本處理與時間對齊的語音識別模型，然后再通過該模型去將文本與時間對齊，生成帶時間戳的文本數據，實現視頻與音頻內容的同步，有效提高了語音識別的準確性和可靠性。

15、優選地，所述智能視頻畫面選取單元包括分鏡檢測模塊和第一視頻編碼模塊；

16、所述分鏡檢測模塊對語音視頻數據進行逐幀抽取視頻，以提取像素和深度學習特征，并根據提取的像素和深度學習特征預測分鏡邊界；

17、所述視頻編碼模塊根據分鏡檢測結果進行視頻關鍵幀分配，并根據分配的視頻關鍵幀提取視頻畫面內容的語義信息。

18、優選地，所述分鏡檢測模塊包括分類模型，所述分鏡檢測模塊采用滑動窗口技術對語音視頻數據每次抽取若干幀的視頻并縮放，以提取視頻的像素和深度學習特征，并將像素和深度學習特征進行拼接；

19、所述分類模型根據拼接后的像素和深度學習特征，預測視頻的分鏡邊界；

20、其中，所述分類模型為神經網絡模型。

21、優選地，所述視頻編碼模塊根據分配的視頻關鍵幀，采用圖片編碼器提取視頻關鍵幀的特征，并采用多層感知機mlp將提取的視頻關鍵幀特征與文本數據進行文本對齊，生成具有語義信息的圖片。

22、優選地，所述分鏡檢測模塊提取視頻的像素特征的過程包括提取視頻圖像的直方圖統計信息和視頻圖像灰度化后的灰度值，并將視頻圖像平鋪成一個長向量的形式，以對底層的圖片信息有一個整體和局部相結合的表征方式。

23、優選地，提取視頻圖像的直方圖統計信息的過程包括統計像素值出現在指定區間內的總的頻數，表達式為：

24、h(rk)＝nk,k＝0,1,2,...,n；

25、將視頻圖像灰度化處理后得到的灰度值進行歸一化處理，并展開成一維向量，表達式為：

26、

27、其中，rk表示像素值的區間，nk表示頻數，k表示第k個區間。

28、在上述技術方案中，分鏡檢測模塊在對語音視頻數據進行逐幀抽取視頻的過程中，能夠有效檢測分鏡切換，提供分鏡時間戳和持續時間，確保每個場景被充分表示；視頻編碼模塊在根據分鏡檢測結果進行視頻關鍵幀分配的過程中，能夠合理分配關鍵幀，提高視頻編碼效率，捕捉代表性畫面；設置的分類模型能夠有效提高系統在預測視頻的分鏡本文檔來自技高網...

【技術保護點】

1.一種基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述系統包括：音頻數據獲取單元、語音識別單元、智能視頻畫面選取單元、信息融合單元及問答單元；

2.根據權利要求1所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述語音識別單元包括音頻編碼模塊；

3.根據權利要求2所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述音頻編碼模塊設置深度學習模型學習語音轉文本處理后的音頻數據與時間特征，得到掌握語音轉文本處理與時間對齊的語音識別模型；

4.根據權利要求1所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述智能視頻畫面選取單元包括分鏡檢測模塊和第一視頻編碼模塊；

5.根據權利要求4所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述分鏡檢測模塊包括分類模型，所述分鏡檢測模塊采用滑動窗口技術對語音視頻數據每次抽取若干幀的視頻并縮放，以提取視頻的像素和深度學習特征，并將像素和深度學習特征進行拼接；

6.根據權利要求4所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在

7.根據權利要求5所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述分鏡檢測模塊提取視頻的像素特征的過程包括提取視頻圖像的直方圖統計信息和視頻圖像灰度化后的灰度值，并將視頻圖像平鋪成一個長向量的形式，以對底層的圖片信息有一個整體和局部相結合的表征方式。

8.根據權利要求7所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，提取視頻圖像的直方圖統計信息的過程包括統計像素值出現在指定區間內的總的頻數，表達式為：

9.根據權利要求1-8任一項所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述問答單元包括文本編碼模塊和大語言模型；

10.一種基于語音識別和視頻畫面選取的視頻問答方法，其特征在于，所述方法包括以下步驟：

...

【技術特征摘要】

2.根據權利要求1所述的基于語音識別和視頻畫面選取的視頻問答系統，其特征在于，所述語音識別單元包括音頻編碼模塊；

6.根據權利要...

【專利技術屬性】
技術研發人員：徐亞波，李旭日，牟昊，何宇軒，潘志偉，
申請(專利權)人：廣州數說故事信息科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術