System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能,尤其涉及一種模型訓練方法、語音文本轉換方法、裝置、設備及介質。
技術介紹
1、隨著人工智能技術的不斷發展,語音和文本之間的跨模態任務得到了廣泛應用,這些任務涵蓋了語音到文本、文本到文本、文本到語音以及語音到語音等多種任務類型,旨在實現不同模態信息之間的有效轉換和理解。現有技術中,通常采用獨立的模型架構、訓練目標和推理方法,來分別訓練對應任務類型的模型,以實現對對應任務的處理,但該方法存在一定的局限性,例如,不同任務之間的模型架構相互獨立,導致模型參數無法共享,從而增加了模型的復雜性和內存占用;不同任務的訓練數據源往往存在不一致性,可能出現跨域問題進而導致模型在特定任務上的性能下降,甚至無法正常工作。
2、因此,如何將語音數據和文本數據聯合使用,以提高模型訓練的準確度,從而應對多任務的處理成為亟待解決的問題。
技術實現思路
1、基于此,提供一種模型訓練方法、語音文本轉換方法、裝置、設備及介質,以解決如何將語音數據和文本數據聯合使用,以提高模型訓練的準確度,從而應對多任務的處理的問題。
2、第一方面,本專利技術實施例提供一種模型訓練方法,包括:
3、獲取訓練樣本集,其中,所述訓練樣本集包括源文本數據和源語音數據,以及每個數據的文本化任務標簽和語音化任務標簽;
4、將所述源文本數據輸入預設模型的文本編碼器,通過所述預設模型的第一解碼器解碼輸出第一結果,將所述源語音數據輸入所述預設模型的語音編碼器,通過所述預設模型的第
5、根據所述第一結果、所述第二結果和對應數據的文本化任務標簽,對所述預設模型進行參數優化,得到預訓練好的預設模型;
6、將所述源文本數據輸入所述預訓練好的預設模型的文本編碼器,通過所述預訓練好的預設模型的第一解碼器和第二解碼器解碼輸出第三結果,將所述源語音數據輸入所述預訓練好的預設模型的語音編碼器,通過所述預訓練好的預設模型的第一解碼器和第二解碼器解碼輸出第四結果;
7、根據所述第三結果、所述第四結果和對應數據的語音化任務標簽,對所述預訓練好的預設模型進行參數優化,得到訓練好的預設模型。
8、第二方面,本專利技術實施例提供一種語音文本轉換方法,包括:
9、獲取上述第一方面的模型訓練方法得到的訓練好的預設模型;
10、獲取待轉換數據和對應的任務類型;
11、檢測所述待轉換數據是否為文本數據或者語音數據,以及檢測所述任務類型是否為文本化任務或者語音化任務;
12、若檢測到所述待轉換數據為文本數據或者語音數據,并且檢測到所述任務類型為文本化任務或者語音化任務,則將所述待轉換數據輸入至所述訓練好的預設模型中,使得所述訓練好的預設模型根據所述任務類型進行轉換,得到轉換結果。
13、第三方面,本專利技術實施例提供一種模型訓練裝置,包括:
14、樣本獲取模塊,用于獲取訓練樣本集,其中,所述訓練樣本集包括源文本數據和源語音數據,以及每個數據的文本化任務標簽和語音化任務標簽;
15、第一訓練模塊,用于將所述源文本數據輸入預設模型的文本編碼器,通過所述預設模型的第一解碼器解碼輸出第一結果,將所述源語音數據輸入所述預設模型的語音編碼器,通過所述預設模型的第一解碼器解碼輸出第二結果;
16、第一優化模塊,用于根據所述第一結果、所述第二結果和對應數據的文本化任務標簽,對所述預設模型進行參數優化,得到預訓練好的預設模型;
17、第二訓練模塊,用于將所述源文本數據輸入所述預訓練好的預設模型的文本編碼器,通過所述預訓練好的預設模型的第一解碼器和第二解碼器解碼輸出第三結果,將所述源語音數據輸入所述預訓練好的預設模型的語音編碼器,通過所述預訓練好的預設模型的第一解碼器和第二解碼器解碼輸出第四結果;
18、第二優化模塊,用于根據所述第三結果、所述第四結果和對應數據的語音化任務標簽,對所述預訓練好的預設模型進行參數優化,得到訓練好的預設模型。
19、第四方面,本專利技術實施例提供一種語音文本轉換裝置,包括:
20、模型獲取模塊,用于獲取上述第一方面的模型訓練方法得到的訓練好的預設模型;
21、數據獲取模塊,用于獲取待轉換數據和對應的任務類型;
22、檢測模塊,用于檢測所述待轉換數據是否為文本數據或者語音數據,以及檢測所述任務類型是否為文本化任務或者語音化任務;
23、轉換模塊,用于若檢測到所述待轉換數據為文本數據或者語音數據,并且檢測到所述任務類型為文本化任務或者語音化任務,則將所述待轉換數據輸入至所述訓練好的預設模型中,使得所述訓練好的預設模型根據所述任務類型進行轉換,得到轉換結果。
24、第五方面,本專利技術實施例提供一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現上述第一方面的模型訓練方法,或者上述第二方面的語音文本轉換方法。
25、第六方面,本專利技術實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述第一方面的模型訓練方法,或者上述第二方面的語音文本轉換方法。
26、本專利技術區別于現有技術方案所取得的技術效果:本專利技術的模型訓練方法將所述源文本數據輸入預設模型的文本編碼器,通過預設模型的第一解碼器解碼輸出第一結果,將源語音數據輸預設模型的語音編碼器,通過預設模型的第一解碼器解碼輸出第二結果,根據第一結果、第二結果和對應數據的文本化任務標簽,對預設模型進行參數優化,得到預訓練好的預設模型,將源文本數據輸入預訓練好的預設模型的文本編碼器,通過預訓練好的預設模型的第一解碼器和第二解碼器解碼輸出第三結果,將源語音數據輸入預訓練好的預設模型的語音編碼器,通過預訓練好的預設模型的第一解碼器和第二解碼器解碼輸出第四結果,根據第三結果、第四結果和對應數據的語音化任務標簽,對預訓練好的預設模型進行參數優化,得到訓練好的預設模型。在根據訓練好的預設模型進行語音文本轉換時,若檢測到待轉換數據為文本數據或者語音數據,并且檢測到任務類型為文本化任務或者語音化任務,則將待轉換數據輸入至訓練好的預設模型中,得到轉換結果。
27、其中,將語音數據和文本數據聯合使用,通過統一的訓練樣本集和統一的模型架構,對模型進行聯合訓練和多任務學習,消除了不同任務訓練數據源之間的不一致性,避免了跨域問題,以及避免了先完成一個任務得到結果再用另外的模型完成接下來的任務的級聯操作帶來的誤差傳遞,使得模型能夠同時學習到不同任務的特征,提高了模型訓練的準確度和泛化能力,從而提高了訓練好的模型對多任務語音文本轉換的處理準確性。
本文檔來自技高網...【技術保護點】
1.一種模型訓練方法,其特征在于,包括:
2.如權利要求1所述的模型訓練方法,其特征在于,所述根據所述第一結果、所述第二結果和對應數據的文本化任務標簽,對所述預設模型進行參數優化,得到預訓練好的預設模型,包括:
3.如權利要求1所述的模型訓練方法,其特征在于,所述根據所述第三結果、所述第四結果和對應數據的語音化任務標簽,對所述預訓練好的預設模型進行參數優化,得到訓練好的預設模型,包括:
4.一種語音文本轉換方法,其特征在于,包括:
5.如權利要求4所述的語音文本轉換方法,其特征在于,所述若檢測到所述待轉換數據為文本數據或者語音數據,并且檢測到所述任務類型為文本化任務或者語音化任務,則將所述待轉換數據輸入至所述訓練好的預設模型中,使得所述訓練好的預設模型根據所述任務類型進行轉換,得到轉換結果,包括:
6.如權利要求4所述的語音文本轉換方法,其特征在于,所述若檢測到所述待轉換數據為文本數據或者語音數據,并且檢測到所述任務類型為文本化任務或者語音化任務,則將所述待轉換數據輸入至所述訓練好的預設模型中,使得所述訓練好的預設模型根
7.一種模型訓練裝置,其特征在于,包括:
8.一種語音文本轉換裝置,其特征在于,包括:
9.一種計算機設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至3任一項所述模型訓練方法,或者如權利要求4至6任一項所述語音文本轉換方法。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至3任一項所述模型訓練方法,或者如權利要求4至6任一項所述語音文本轉換方法。
...【技術特征摘要】
1.一種模型訓練方法,其特征在于,包括:
2.如權利要求1所述的模型訓練方法,其特征在于,所述根據所述第一結果、所述第二結果和對應數據的文本化任務標簽,對所述預設模型進行參數優化,得到預訓練好的預設模型,包括:
3.如權利要求1所述的模型訓練方法,其特征在于,所述根據所述第三結果、所述第四結果和對應數據的語音化任務標簽,對所述預訓練好的預設模型進行參數優化,得到訓練好的預設模型,包括:
4.一種語音文本轉換方法,其特征在于,包括:
5.如權利要求4所述的語音文本轉換方法,其特征在于,所述若檢測到所述待轉換數據為文本數據或者語音數據,并且檢測到所述任務類型為文本化任務或者語音化任務,則將所述待轉換數據輸入至所述訓練好的預設模型中,使得所述訓練好的預設模型根據所述任務類型進行轉換,得到轉換結果,包括:
6.如權利要求4所述的語音文本轉換方法...
【專利技術屬性】
技術研發人員:張旭龍,王健宗,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。