System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 99热门精品一区二区三区无码,无码任你躁久久久久久老妇App,亚洲桃色AV无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    音頻描述文本預測模型訓練方法、文本預測方法以及裝置制造方法及圖紙

    技術編號:44293811 閱讀:3 留言:0更新日期:2025-02-18 20:14
    本申請提供一種音頻描述文本預測模型訓練方法、文本預測方法以及裝置。訓練方法包括:獲取音頻數據樣本以及音頻數據樣本對應的音頻描述文本樣本;基于音頻數據樣本和音頻描述文本樣本,通過對比學習,對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練,得到訓練完成的音頻編碼模型和文本編碼模型;音頻編碼模型用于輸出的音頻向量,文本編碼模型用于輸出的文本向量;基于文本編碼模型對音頻描述文本樣本進行編碼處理,得到文本向量,并基于文本向量和音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練,得到訓練完成的音頻描述文本預測模型。本申請的訓練方法,提高了描述文本的生成效率以及客觀準確性。

    【技術實現步驟摘要】

    本申請涉及音頻描述文本預測模型訓練,尤其涉及一種音頻描述文本預測模型訓練方法、文本預測方法以及裝置


    技術介紹

    1、汽車作為移動交通工具,車內的娛樂需求也逐漸被重視。人車交互是用戶體驗的核心,傳統汽車座艙功能區不能滿足人車交互的需求,智能座艙的出現解決了用戶的部分需求。具體的,智能座艙能夠根據汽車中播放的音視頻的內容來自動調節座椅的朝向、振動頻率、幅度以及釋放相應的氣味等。

    2、為了實現上述智能控制,智能座艙控制系統需要獲取到音頻壓縮文件中的音頻描述文本信息(比如,節目的基調(悲傷、歡快),強烈的振動,節奏強烈的搖滾樂等),進而根據得到音頻描述文本信息生成的座艙元數據生成對座艙進行控制的座艙控制指令。相關技術中,通常是通過將音頻流數據中和音頻流對應的音頻描述文本進行壓縮得到音頻文件,并在渲染音頻文件時直接根據文件中的音頻描述文本生成對座艙的智能控制信號。

    3、但是,目前大部分音頻生成時尚未具備這些音頻描述文本,需要后續基于人工手動為音頻文件中的音頻流進行文本描述,從而生成對應的音頻描述文本。上述人工生成描述文本的方式存在效率低、主觀性強、不同人之間存在差異的問題。


    技術實現思路

    1、本申請提供一種音頻描述文本預測模型訓練方法、裝置、電子設備以及存儲介質,用以解決現有技術中基于人工生成描述文本時存在的主觀性強、效率低的問題,通過采用預先訓練的神經網絡模型自動生成音頻描述文本,降低了人工生成描述文本所導致的主觀性誤差的問題,提高了描述文本的生成效率以及客觀準確性

    2、第一方面,本申請提供一種音頻描述文本預測模型訓練方法,包括:

    3、獲取音頻數據樣本以及所述音頻數據樣本對應的音頻描述文本樣本;

    4、基于所述音頻數據樣本和所述音頻描述文本樣本,通過對比學習,對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練,得到訓練完成的音頻編碼模型和文本編碼模型;所述音頻編碼模型用于輸出的音頻向量,所述文本編碼模型用于輸出的文本向量;

    5、基于所述文本編碼模型對所述音頻描述文本樣本進行編碼處理,得到文本向量,并基于所述文本向量和所述音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練,得到訓練完成的音頻描述文本預測模型;所述音頻描述文本預測模型用于根據音頻數據對應的音頻向量,預測音頻數據對應的音頻描述文本。

    6、可選的,基于所述音頻數據樣本和所述音頻描述文本樣本,通過對比學習,對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練,包括:

    7、構建正樣本對和負樣本對;其中,所述正樣本對包括匹配的音頻數據樣本和音頻描述文本樣本,所述負樣本對包括不匹配的音頻數據樣本和音頻描述文本樣本;

    8、根據所述正樣本對和所述負樣本對,訓練音頻編碼模型和文本編碼模型;其中,訓練的目標為:最小化正樣本對應的音頻向量和文本向量之間的差異;最大化負樣本對應的音頻向量和文本向量之間的差異。

    9、可選的,所述根據所述正樣本對和所述負樣本對,訓練音頻編碼模型和文本編碼模型,包括:

    10、迭代執行如下訓練過程,直至滿足訓練完成條件得到訓練完成的音頻編碼模型和文本編碼模型:

    11、將所述正樣本對和所述負樣本對中的音頻數據樣本輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理,得到音頻向量;

    12、將所述正樣本對和所述負樣本對中的音頻描述文本樣本輸入至所述待訓練的文本編碼模型中進行數據編碼處理,得到文本向量;

    13、基于所述音頻向量和所述文本向量生成第一損失函數,基于所述第一損失函數分別對所述待訓練的音頻編碼模型和所述待訓練的文本編碼模型進行參數調節。

    14、可選的,所述第一損失函數包括:

    15、

    16、其中,loss1表示第一損失函數;n表示音頻樣本/音頻描述文本樣本的數量;i表示第i個音頻樣本/第i個音頻描述文本樣本;j表示第j個音頻樣本/第j個音頻描述文本樣本;exp()表示指數函數;eai表示第i個音頻樣本對應的音頻向量;eti表示第i個音頻描述文本對應的文本向量;etj表示第j個音頻描述文本樣本對應的文本向量。

    17、可選的,基于所述第一損失函數分別對所述待訓練的音頻編碼模型和所述待訓練的文本編碼模型進行參數調節,包括:

    18、獲取所述待訓練的音頻編碼模型的第一模型參數和所述待訓練的文本編碼模型的第二模型參數;

    19、基于所述第一損失函數和所述第一模型參數確定所述待訓練的音頻編碼模型的第一模型調節參數,并基于所述第一模型參數對所述第一模型參數進行參數調節;

    20、基于所述第一損失函數和所述第二模型參數確定所述待訓練的文本編碼模型的第二模型調節參數,并基于所述第二模型參數對所述第二模型參數進行參數調節。

    21、可選的,所述將所述正樣本對和所述負樣本對中的音頻數據樣本輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理,得到音頻向量,包括:

    22、對所述音頻數據樣本進行數據預處理,得到處理后的音頻數據樣本,并將所述處理后的音頻數據樣本輸入至預設的譜編碼模型中進行譜編碼處理,得到譜編碼數據;

    23、將所述譜編碼數據輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理,得到音頻向量;

    24、其中,基于所述音頻向量所生成的所述第一損失函數還用于同步調節所述待訓練的譜編碼模型的第三模型參數。

    25、可選的,所述基于所述文本向量和所述音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練,得到訓練完成的音頻描述文本預測模型,包括:

    26、迭代執行如下訓練過程,直至滿足訓練完成條件得到訓練完成的音頻描述文本預測模型:

    27、將所述文本向量輸入至所述待訓練的音頻描述文本預測模型中進行數據預測,得到音頻描述文本預測結果;

    28、基于所述音頻描述文本預測結果和所述音頻描述文本樣本生成第二損失函數,基于所述第二損失函數對所述待訓練的音頻描述文本預測模型進行參數調節。

    29、可選的,所述第二損失函數包括:

    30、其中,loss2表征第二損失函數;n表示音頻樣本/音頻描述文本樣本的數量;m表示文本向量的向量維數;c表示第i維文本向量;yic表示輸入樣本i的真實類別等于c取1,否則取0;pic表示預測樣本i屬于類別c的預測概率。

    31、第二方面,本申請提供一種音頻描述文本預測方法,該方法包括:

    32、獲取車載音頻數據,將所述音頻數據輸入至預先訓練完成的音頻編碼模型中進行音頻編碼處理,得到音頻向量;

    33、將所述音頻向量輸入至預先訓練完成的音頻描述文本預測模型中進行文本預測處理,得到所述車載音頻數據對應的音頻描述文本;所述音頻描述文本預測模型第一方面所述的音頻描述文本預測模型訓練方法進行訓練得到。

    34、可選的,所述方法還包括:

    35、獲取預先訓本文檔來自技高網...

    【技術保護點】

    1.一種音頻描述文本預測模型訓練方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,基于所述音頻數據樣本和所述音頻描述文本樣本,通過對比學習,對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練,包括:

    3.根據權利要求2所述的方法,其特征在于,所述根據所述正樣本對和所述負樣本對,訓練音頻編碼模型和文本編碼模型,包括:

    4.根據權利要求3所述的方法,其特征在于,所述第一損失函數包括:

    5.根據權利要求3所述的方法,其特征在于,基于所述第一損失函數分別對所述待訓練的音頻編碼模型和所述待訓練的文本編碼模型進行參數調節,包括:

    6.根據權利要求3所述的方法,其特征在于,所述將所述正樣本對和所述負樣本對中的音頻數據樣本輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理,得到音頻向量,包括:

    7.根據權利要求1所述的方法,其特征在于,所述基于所述文本向量和所述音頻描述文本樣本對待訓練的音頻描述文本預測模型進行迭代訓練,得到訓練完成的音頻描述文本預測模型,包括:

    8.根據權利要求7所述的方法,其特征在于,所述第二損失函數包括:

    9.一種音頻描述文本預測方法,其特征在于,所述方法包括:

    10.根據權利要求9所述的方法,其特征在于,所述方法還包括:

    11.一種音頻描述文本預測模型訓練裝置,其特征在于,所述裝置包括:

    12.一種音頻描述文本預測裝置,其特征在于,所述裝置包括:

    13.一種電子設備,其特征在于,包括:處理器以及與所述處理器通信連接的存儲器;

    14.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機執行指令,所述計算機執行指令被處理器執行時用于實現如權利要求1至8中任意一項所述的音頻描述文本預測模型訓練方法,和/或,如權利要求9至10中任意一項所述的音頻描述文本預測方法。

    ...

    【技術特征摘要】

    1.一種音頻描述文本預測模型訓練方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,基于所述音頻數據樣本和所述音頻描述文本樣本,通過對比學習,對待訓練的音頻編碼模型和待訓練的文本編碼模型進行聯合迭代訓練,包括:

    3.根據權利要求2所述的方法,其特征在于,所述根據所述正樣本對和所述負樣本對,訓練音頻編碼模型和文本編碼模型,包括:

    4.根據權利要求3所述的方法,其特征在于,所述第一損失函數包括:

    5.根據權利要求3所述的方法,其特征在于,基于所述第一損失函數分別對所述待訓練的音頻編碼模型和所述待訓練的文本編碼模型進行參數調節,包括:

    6.根據權利要求3所述的方法,其特征在于,所述將所述正樣本對和所述負樣本對中的音頻數據樣本輸入至所述待訓練的音頻編碼模型中進行音頻編碼處理,得到音頻向量,包括:

    7.根據權利要求1所述的方法,其特征在于,所述基于所述文...

    【專利技術屬性】
    技術研發人員:陳笑天潘興德
    申請(專利權)人:北京全景聲信息科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 潮喷失禁大喷水aⅴ无码| 国产精品亚洲αv天堂无码| 无码国产精品一区二区免费3p | 国产精品无码专区AV在线播放| 亚洲国产精品无码久久九九大片 | 自慰无码一区二区三区| 影音先锋中文无码一区| 伊人久久综合无码成人网| 无码熟妇人妻av| 亚洲AV无码一区二区三区人| 一本加勒比hezyo无码专区| 国产成人无码精品久久久小说| 亚洲AV无码久久寂寞少妇| 精品无码久久久久久久久久| 亚洲人片在线观看天堂无码| 无码AV岛国片在线播放| 亚洲av永久无码精品古装片| 无码少妇一区二区浪潮av| 无码精油按摩潮喷在播放| 永久免费av无码网站韩国毛片| 亚洲AV无码欧洲AV无码网站| 免费无码黄网站在线看| 无码国产成人午夜电影在线观看| 69久久精品无码一区二区 | 噜噜综合亚洲AV中文无码| 亚洲AV无码一区二区三区人| 人妻无码第一区二区三区| 亚洲熟妇无码AV在线播放| 人妻AV中出无码内射| 国产成人无码a区在线视频| 免费无码专区毛片高潮喷水| 无码av天天av天天爽| 无码熟熟妇丰满人妻啪啪软件| 伊人久久一区二区三区无码| 一本色道久久综合无码人妻| 69堂人成无码免费视频果冻传媒| 亚洲AV综合色区无码二区偷拍 | 国产aⅴ激情无码久久| 免费a级毛片无码a∨免费软件| 日韩av无码中文无码电影| yy111111电影院少妇影院无码|