一種基于ASR的早媒體識別方法及系統技術方案

技術編號：44527309 閱讀：0 留言：0更新日期：2025-03-07 13:17

本發明專利技術提出了一種基于ASR的早媒體識別方法及系統。所述基于ASR的早媒體識別方法包括：實時收集目標媒體對應的音頻數據，比對所述音頻數據進行修復，獲取修復后的音頻數據；將所述修復后的音頻數據輸入至ASR模型內獲取所述音頻數據對應的文本數據；從所述文本數據中進行關鍵詞和短語識別，獲取目標關鍵詞和短語；將所述目標關鍵詞和短語與預設的關鍵詞及短語與情感傾向表格進行比對識別，獲取情感傾向結果，并且，所述情感傾向結果即為早媒體識別結果；按照所述情感傾向結果進行媒體內容的內容推送。所訴系統包括與所述方法步驟對應的模塊。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術提出了一種基于asr的早媒體識別方法及系統，屬于音頻識別。

技術介紹

1、在當今數字化和信息爆炸的時代，語音識別（automatic?speech?recognition，簡稱asr）技術已經成為人機交互領域的重要組成部分。asr技術的核心任務是將人類語音轉換為文本，這一過程涉及聲學模型、語言模型以及解碼器等多個關鍵組件。聲學模型負責將語音信號轉換為對應的聲學特征序列，即識別出語音中的音素或音節；語言模型則基于大量文本數據訓練而成，用于評估生成的文字序列是否符合語言的語法規則和習慣用法；解碼器則負責在這兩個模型的基礎上找到最優的語音到文本的轉換結果。asr技術極大地簡化了信息輸入的過程，相較于傳統的手動輸入方式（如鍵盤輸入），語音輸入更加便捷和自然，能夠大大節省時間和精力。特別是在一些移動設備上，語音輸入讓用戶在雙手被占用的情況下仍能輕松與設備進行交互。此外，asr技術能夠實現實時交互，用戶無需等待，可以在說出話語的瞬間獲得系統的響應，這種即時性極大地提升了用戶體驗和工作效率。然而，asr技術在實際應用中也面臨一些挑戰，如環境噪音、口音差異以及復雜的語言結構等因素都可能影響識別的準確性。

技術實現思路

1、本專利技術提供了一種基于asr的早媒體識別方法及系統，用以解決上述現有技術中的技術問題，所采取的技術方案如下：

2、一種基于asr的早媒體識別方法，所述基于asr的早媒體識別方法包括：

3、實時收集目標媒體對應的音頻數據，比對所述音頻數據進行修復，獲取修復后的音頻數據；

4、將所述修復后的音頻數據輸入至asr模型內獲取所述音頻數據對應的文本數據；

5、從所述文本數據中進行關鍵詞和短語識別，獲取目標關鍵詞和短語；

6、將所述目標關鍵詞和短語與預設的關鍵詞及短語與情感傾向表格進行比對識別，獲取情感傾向結果，并且，所述情感傾向結果即為早媒體識別結果；

7、按照所述情感傾向結果進行媒體內容的內容推送。

8、進一步地，實時收集目標媒體對應的音頻數據，比對所述音頻數據進行修復，獲取修復后的音頻數據，包括：

9、實時收集目標媒體對應的音頻數據；

10、對音頻數據進行增強處理，獲取增強處理后的音頻數據，其中，所述增強處理包括降噪及去爆音處理和音量歸一化處理；

11、對增強處理后的音頻數據進行音頻質量評估，獲得音頻質量結果；

12、對音頻質量結果不滿足音頻質量要求的音頻數據進行音頻修復，獲取修復后的音頻數據。

13、進一步地，對增強處理后的音頻數據進行音頻質量評估，獲得音頻質量結果，包括：

14、提取所述增強處理后的音頻數據的音頻參數，其中，所述音頻參數包括信噪比、總諧波失真和短時能量；

15、利用所述音頻參數所包含的信噪比、總諧波失真和短時能量獲取音頻質量評估參數；

16、其中，所述音頻質量評估參數通過如下公式獲取：

17、

18、其中，p表示音頻質量評估參數；n表示音頻數據所包含的短時能量對應時間窗口的個數；si表示第i個時間窗口對應的信噪比；ti表示第i個時間窗口對應的總諧波失真；smax和smin表示音頻數據對應的n個時間窗口的信噪比最大值和最小值；wmax和wmin表示音頻數據對應的n個時間窗口的短時能量最大值和最小值；wi表示第i個時間窗口對應的短時能量；wbi表示第i個時間窗口對應的短時能量標準差；

19、將所述音頻質量評估參數與預設的音頻質量評估參數閾值進行比較；

20、當所述音頻質量評估參數低于預設的音頻質量評估參數閾值時，則判定音頻質量結果不滿足音頻質量要求的音頻數據。

21、進一步地，對所述音頻數據的音頻參數所包含的短時能量所對應的時間窗口進行設置，包括：

22、提取音頻數據收集設備對應的采樣頻率、位深度和聲道數；

23、利用所述音頻數據收集設備對應的采樣頻率、位深度和聲道數獲取第一窗口調節系數；

24、其中，所述第一窗口調節系數通過如下公式獲取：

25、

26、其中，k01表示第一窗口調節系數；f表示音頻數據收集設備對應的采樣頻率；fc表示預設的采樣頻率參考值；n表示聲道數；b表示位深度；int（）表示對括號內的數值進行向上取整；

27、將所述第一窗口調節系數與預設的窗口調節系數閾值進行比較；

28、當所述第一窗口調節系數低于預設的窗口調節系數閾值時，則采用預設的初始時間長度作為時間窗口對應長度來設置短時能量所對應的時間窗口；

29、當所述第一窗口調節系數不低于預設的窗口調節系數閾值時，則對初始時間長度進行調整，并利用調整后的時間長度作為時間窗口對應長度來設置短時能量所對應的時間窗口。

30、進一步地，當所述第一窗口調節系數不低于預設的窗口調節系數閾值時，則對初始時間長度進行調整，并利用調整后的時間長度作為時間窗口對應長度來設置短時能量所對應的時間窗口，包括：

31、所述第一窗口調節系數不低于預設的窗口調節系數閾值時，提取asr模型的時間窗口對應的初始時間長度和初始窗口重疊比例數值；其中，所述asr模型采用深度神經網絡模型結構；

32、提取asr模型的時間窗口的動態調整過程中出現的時間長度數值及其對應的窗口重疊比例數值；

33、利用asr模型的時間窗口對應的初始時間長度和初始窗口重疊比例數值結合時間窗口的動態調整過程中出現的時間長度數值及其對應的窗口重疊比例數值獲取第二窗口調節系數；

34、其中，所述第二窗口調節系數通過如下公式獲取：

35、

36、其中，k02表示第二窗口調節系數；m表示時間窗口的動態調整次數；ti表示第i次動態調整后的時間窗口對應的時間長度；pi表示第i次動態調整后的窗口重疊比例數值；pti表示第i次動態調整后的時間窗口相較于動態調整前的時間窗口之間的時間長度變化率；tc和pc表示初始時間長度和初始窗口重疊比例數值；pz表示m次動態調整后的窗口重疊比例數值中間值；pb表示m次動態調整后的窗口重疊比例數值標準差；tb表示m次動態調整后的時間窗口對應的時間長度標準差；pmax表示m次動態調整后的窗口重疊比例數值最大值；

37、利用所述第一窗口調節系數和第二窗口調節系數對初始時間長度進行調整，獲得調整后的時間長度；

38、其中，所述調整后的時間長度通過如下公式獲取：

39、

40、其中，tx表示調整后的時間長度；t0表示調整前的時間長度；k01表示第一窗口調節系數；k02表示第二窗口調節系數；t表示調節因子，并且，所述調節因子的取值范圍為1.12-1.43；

41、利用調整后的時間長度作為時間窗口對應長度來設置短時能量所對應的時間窗口。

42、進一步地，對音頻質量結果不滿足音頻質量要求的音頻數據進行音頻本文檔來自技高網...

【技術保護點】

1.一種基于ASR的早媒體識別方法，其特征在于，所述基于ASR的早媒體識別方法包括：

2.根據權利要求1所述的基于ASR的早媒體識別方法，其特征在于，實時收集目標媒體對應的音頻數據，比對所述音頻數據進行修復，獲取修復后的音頻數據，包括：

3.根據權利要求2所述的基于ASR的早媒體識別方法，其特征在于，對增強處理后的音頻數據進行音頻質量評估，獲得音頻質量結果，包括：

4.根據權利要求1所述的基于ASR的早媒體識別方法，其特征在于，對所述音頻數據的音頻參數所包含的短時能量所對應的時間窗口進行設置，包括：

5.根據權利要求4所述的基于ASR的早媒體識別方法，其特征在于，當所述第一窗口調節系數不低于預設的窗口調節系數閾值時，則對初始時間長度進行調整，并利用調整后的時間長度作為時間窗口對應長度來設置短時能量所對應的時間窗口，包括：

6.根據權利要求2所述的基于ASR的早媒體識別方法，其特征在于，對音頻質量結果不滿足音頻質量要求的音頻數據進行音頻修復，獲取修復后的音頻數據，包括：

7.根據權利要求1所述的基于ASR的早媒

8.根據權利要求1所述的基于ASR的早媒體識別方法，其特征在于，從所述文本數據中進行關鍵詞和短語識別，獲取目標關鍵詞和短語，包括：

9.根據權利要求1所述基于ASR的早媒體識別方法，其特征在于，將所述目標關鍵詞和短語與預設的關鍵詞及短語與情感傾向表格進行比對識別，獲取情感傾向結果，包括：

10.一種基于ASR的早媒體識別系統，其特征在于，所述基于ASR的早媒體識別系統包括：

...

【技術特征摘要】

1.一種基于asr的早媒體識別方法，其特征在于，所述基于asr的早媒體識別方法包括：

2.根據權利要求1所述的基于asr的早媒體識別方法，其特征在于，實時收集目標媒體對應的音頻數據，比對所述音頻數據進行修復，獲取修復后的音頻數據，包括：

3.根據權利要求2所述的基于asr的早媒體識別方法，其特征在于，對增強處理后的音頻數據進行音頻質量評估，獲得音頻質量結果，包括：

4.根據權利要求1所述的基于asr的早媒體識別方法，其特征在于，對所述音頻數據的音頻參數所包含的短時能量所對應的時間窗口進行設置，包括：

5.根據權利要求4所述的基于asr的早媒體識別方法，其特征在于，當所述第一窗口調節系數不低于預設的窗口調節系數閾值時，則對初始時間長度進行調整，并利用調整后的時間長度作為時間窗口對應長度來設置短時能量所...

【專利技術屬性】
技術研發人員：高鵬飛，白峻峰，高爽，
申請(專利權)人：北京基智科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術