音頻描述文本預測模型訓練方法、文本預測方法以及裝置制造方法及圖紙

技術編號：44293811 閱讀：3 留言：0更新日期：2025-02-18 20:14

本申請提供一種音頻描述文本預測模型訓練方法、文本預測方法以及裝置。訓練方法包括：獲取音頻數據樣本以及音頻數據樣本對應的音頻描述文本樣本；基于音頻數據樣本和音頻描述文本樣本，通過對比學習，對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練，得到訓練完成的音頻編碼模型和文本編碼模型；音頻編碼模型用于輸出的音頻向量，文本編碼模型用于輸出的文本向量；基于文本編碼模型對音頻描述文本樣本進行編碼處理，得到文本向量，并基于文本向量和音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練，得到訓練完成的音頻描述文本預測模型。本申請的訓練方法，提高了描述文本的生成效率以及客觀準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及音頻描述文本預測模型訓練，尤其涉及一種音頻描述文本預測模型訓練方法、文本預測方法以及裝置。

技術介紹

1、汽車作為移動交通工具，車內的娛樂需求也逐漸被重視。人車交互是用戶體驗的核心，傳統汽車座艙功能區不能滿足人車交互的需求，智能座艙的出現解決了用戶的部分需求。具體的，智能座艙能夠根據汽車中播放的音視頻的內容來自動調節座椅的朝向、振動頻率、幅度以及釋放相應的氣味等。

2、為了實現上述智能控制，智能座艙控制系統需要獲取到音頻壓縮文件中的音頻描述文本信息(比如，節目的基調(悲傷、歡快)，強烈的振動，節奏強烈的搖滾樂等)，進而根據得到音頻描述文本信息生成的座艙元數據生成對座艙進行控制的座艙控制指令。相關技術中，通常是通過將音頻流數據中和音頻流對應的音頻描述文本進行壓縮得到音頻文件，并在渲染音頻文件時直接根據文件中的音頻描述文本生成對座艙的智能控制信號。

3、但是，目前大部分音頻生成時尚未具備這些音頻描述文本，需要后續基于人工手動為音頻文件中的音頻流進行文本描述，從而生成對應的音頻描述文本。上述人工生成描述文本的方式存在效率低、主觀性強、不同人之間存在差異的問題。

技術實現思路

1、本申請提供一種音頻描述文本預測模型訓練方法、裝置、電子設備以及存儲介質，用以解決現有技術中基于人工生成描述文本時存在的主觀性強、效率低的問題，通過采用預先訓練的神經網絡模型自動生成音頻描述文本，降低了人工生成描述文本所導致的主觀性誤差的問題，提高了描述文本的生成效率以及客觀準確性。

2、第一方面，本申請提供一種音頻描述文本預測模型訓練方法，包括：

3、獲取音頻數據樣本以及所述音頻數據樣本對應的音頻描述文本樣本；

4、基于所述音頻數據樣本和所述音頻描述文本樣本，通過對比學習，對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練，得到訓練完成的音頻編碼模型和文本編碼模型；所述音頻編碼模型用于輸出的音頻向量，所述文本編碼模型用于輸出的文本向量；

5、基于所述文本編碼模型對所述音頻描述文本樣本進行編碼處理，得到文本向量，并基于所述文本向量和所述音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練，得到訓練完成的音頻描述文本預測模型；所述音頻描述文本預測模型用于根據音頻數據對應的音頻向量，預測音頻數據對應的音頻描述文本。

6、可選的，基于所述音頻數據樣本和所述音頻描述文本樣本，通過對比學習，對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練，包括：

7、構建正樣本對和負樣本對；其中，所述正樣本對包括匹配的音頻數據樣本和音頻描述文本樣本，所述負樣本對包括不匹配的音頻數據樣本和音頻描述文本樣本；

8、根據所述正樣本對和所述負樣本對，訓練音頻編碼模型和文本編碼模型；其中，訓練的目標為：最小化正樣本對應的音頻向量和文本向量之間的差異；最大化負樣本對應的音頻向量和文本向量之間的差異。

9、可選的，所述根據所述正樣本對和所述負樣本對，訓練音頻編碼模型和文本編碼模型，包括：

10、迭代執行如下訓練過程，直至滿足訓練完成條件得到訓練完成的音頻編碼模型和文本編碼模型：

11、將所述正樣本對和所述負樣本對中的音頻數據樣本輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理，得到音頻向量；

12、將所述正樣本對和所述負樣本對中的音頻描述文本樣本輸入至所述待訓練的文本編碼模型中進行數據編碼處理，得到文本向量；

13、基于所述音頻向量和所述文本向量生成第一損失函數，基于所述第一損失函數分別對所述待訓練的音頻編碼模型和所述待訓練的文本編碼模型進行參數調節。

14、可選的，所述第一損失函數包括：

15、

16、其中，loss1表示第一損失函數；n表示音頻樣本/音頻描述文本樣本的數量；i表示第i個音頻樣本/第i個音頻描述文本樣本；j表示第j個音頻樣本/第j個音頻描述文本樣本；exp()表示指數函數；eai表示第i個音頻樣本對應的音頻向量；eti表示第i個音頻描述文本對應的文本向量；etj表示第j個音頻描述文本樣本對應的文本向量。

17、可選的，基于所述第一損失函數分別對所述待訓練的音頻編碼模型和所述待訓練的文本編碼模型進行參數調節，包括：

18、獲取所述待訓練的音頻編碼模型的第一模型參數和所述待訓練的文本編碼模型的第二模型參數；

19、基于所述第一損失函數和所述第一模型參數確定所述待訓練的音頻編碼模型的第一模型調節參數，并基于所述第一模型參數對所述第一模型參數進行參數調節；

20、基于所述第一損失函數和所述第二模型參數確定所述待訓練的文本編碼模型的第二模型調節參數，并基于所述第二模型參數對所述第二模型參數進行參數調節。

21、可選的，所述將所述正樣本對和所述負樣本對中的音頻數據樣本輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理，得到音頻向量，包括：

22、對所述音頻數據樣本進行數據預處理，得到處理后的音頻數據樣本，并將所述處理后的音頻數據樣本輸入至預設的譜編碼模型中進行譜編碼處理，得到譜編碼數據；

23、將所述譜編碼數據輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理，得到音頻向量；

24、其中，基于所述音頻向量所生成的所述第一損失函數還用于同步調節所述待訓練的譜編碼模型的第三模型參數。

25、可選的，所述基于所述文本向量和所述音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練，得到訓練完成的音頻描述文本預測模型，包括：

26、迭代執行如下訓練過程，直至滿足訓練完成條件得到訓練完成的音頻描述文本預測模型：

27、將所述文本向量輸入至所述待訓練的音頻描述文本預測模型中進行數據預測，得到音頻描述文本預測結果；

28、基于所述音頻描述文本預測結果和所述音頻描述文本樣本生成第二損失函數，基于所述第二損失函數對所述待訓練的音頻描述文本預測模型進行參數調節。

29、可選的，所述第二損失函數包括：

30、其中，loss2表征第二損失函數；n表示音頻樣本/音頻描述文本樣本的數量；m表示文本向量的向量維數；c表示第i維文本向量；yic表示輸入樣本i的真實類別等于c取1，否則取0；pic表示預測樣本i屬于類別c的預測概率。

31、第二方面，本申請提供一種音頻描述文本預測方法，該方法包括：

32、獲取車載音頻數據，將所述音頻數據輸入至預先訓練完成的音頻編碼模型中進行音頻編碼處理，得到音頻向量；

33、將所述音頻向量輸入至預先訓練完成的音頻描述文本預測模型中進行文本預測處理，得到所述車載音頻數據對應的音頻描述文本；所述音頻描述文本預測模型第一方面所述的音頻描述文本預測模型訓練方法進行訓練得到。

34、可選的，所述方法還包括：

35、獲取預先訓本文檔來自技高網...

【技術保護點】

1.一種音頻描述文本預測模型訓練方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，基于所述音頻數據樣本和所述音頻描述文本樣本，通過對比學習，對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練，包括：

3.根據權利要求2所述的方法，其特征在于，所述根據所述正樣本對和所述負樣本對，訓練音頻編碼模型和文本編碼模型，包括：

4.根據權利要求3所述的方法，其特征在于，所述第一損失函數包括：

5.根據權利要求3所述的方法，其特征在于，基于所述第一損失函數分別對所述待訓練的音頻編碼模型和所述待訓練的文本編碼模型進行參數調節，包括：

6.根據權利要求3所述的方法，其特征在于，所述將所述正樣本對和所述負樣本對中的音頻數據樣本輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理，得到音頻向量，包括：

7.根據權利要求1所述的方法，其特征在于，所述基于所述文本向量和所述音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練，得到訓練完成的音頻描述文本預測模型，包括：

8.根據權利要求

9.一種音頻描述文本預測方法，其特征在于，所述方法包括：

10.根據權利要求9所述的方法，其特征在于，所述方法還包括：

11.一種音頻描述文本預測模型訓練裝置，其特征在于，所述裝置包括：

12.一種音頻描述文本預測裝置，其特征在于，所述裝置包括：

13.一種電子設備，其特征在于，包括：處理器以及與所述處理器通信連接的存儲器；

14.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質中存儲有計算機執行指令，所述計算機執行指令被處理器執行時用于實現如權利要求1至8中任意一項所述的音頻描述文本預測模型訓練方法，和/或，如權利要求9至10中任意一項所述的音頻描述文本預測方法。

...

【技術特征摘要】

1.一種音頻描述文本預測模型訓練方法，其特征在于，所述方法包括：

3.根據權利要求2所述的方法，其特征在于，所述根據所述正樣本對和所述負樣本對，訓練音頻編碼模型和文本編碼模型，包括：

4.根據權利要求3所述的方法，其特征在于，所述第一損失函數包括：

7.根據權利要求1所述的方法，其特征在于，所述基于所述文...

【專利技術屬性】
技術研發人員：陳笑天，潘興德，
申請(專利權)人：北京全景聲信息科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術