System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及計算機,特別是涉及一種歌曲表征輸出模型的訓練方法、歌曲處理方法、計算機設備、計算機可讀存儲介質和計算機程序產品。
技術介紹
1、基于對比學習方式的跨模態歌曲表征大模型可以利用歌曲的文本信息和音樂信息,讓模型學習表征空間內跨模態信息的交互。
2、在相關技術中,通常是采用正樣本和隨機挑選出的負樣本,對基于對比學習方式的跨模態歌曲表征大模型進行模型訓練。由于在模型訓練過程中,隨機選出的負樣本中歌曲的文本信息與正樣本中歌曲的文本信息之間可能存在語義關聯,在語義關聯性越大的情況下,使用存在語義關聯的負樣本越容易對模型訓練產生混淆影響,導致模型訓練效果不佳。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種能夠提升模型訓練效果的歌曲表征輸出模型的訓練方法、歌曲處理方法、計算機設備、計算機可讀存儲介質和計算機程序產品。
2、第一方面,本申請提供了一種歌曲表征輸出模型的訓練方法。所述方法包括:
3、獲取多個樣本對的歌曲訓練數據;每個所述樣本對包括同一歌曲的歌曲音頻和歌曲描述文本;
4、針對當前樣本對,根據所述當前樣本對中的歌曲描述文本分別與各其他樣本對中的歌曲描述文本之間的文本差異,從各所述其他樣本對中選擇文本差異相對較大的多個歌曲描述文本作為所述當前樣本對中的歌曲音頻的負樣本;其中所述當前樣本對為所述多個樣本對中任一樣本對,所述其他樣本對為所述多個樣本對中所述當前樣本對之外的樣本對;
5、確定所述當前樣本對中的歌曲音
6、基于所述第一表征距離和所述第二表征距離,對所述歌曲表征輸出模型進行對比學習訓練,直至得到訓練后的歌曲表征輸出模型;所述訓練后的歌曲表征輸出模型用于輸出歌曲音頻表征和歌曲描述文本表征。
7、在其中一個實施例中,所述根據所述當前樣本對中的歌曲描述文本分別與各其他樣本對中的歌曲描述文本之間的文本差異,從各所述其他樣本對中選擇文本差異相對較大的多個歌曲描述文本作為所述當前樣本對中的歌曲音頻的負樣本,包括:
8、將所述當前樣本對中的歌曲描述文本輸入至所述歌曲表征輸出模型中的文本編碼模型,得到第一文本表征,將每個所述其他樣本對中的歌曲描述文本輸入至所述文本編碼模型,得到第二文本表征;
9、確定所述第一文本表征分別與每個所述第二文本表征之間的表征距離;
10、按照多個所述表征距離的大小排序選擇預設篩選數量的排序靠前的表征距離,將選擇的表征距離對應的所述其他樣本對的歌曲描述文本作為所述當前樣本對中的歌曲音頻的負樣本。
11、在其中一個實施例中,所述確定所述當前樣本對中的歌曲音頻與歌曲描述文本之間的第一表征距離,包括:
12、將所述當前樣本對中的歌曲描述文本輸入至所述歌曲表征輸出模型中的文本編碼模型,得到第一文本表征;
13、將所述當前樣本對中的歌曲音頻輸入至所述歌曲表征輸出模型中的音頻編碼模型,得到音頻表征;
14、分別對所述第一文本表征和所述音頻表征進行維度變換,將維度變換后的第一文本表征與維度變換后的音頻表征之間的表征距離作為所述第一表征距離。
15、在其中一個實施例中,所述確定所述當前樣本對中的歌曲音頻與多個所述負樣本之間的第二表征距離,包括:
16、將所述當前樣本對中的歌曲音頻輸入至所述歌曲表征輸出模型中的音頻編碼模型,得到音頻表征;
17、將每個所述其他樣本對中的歌曲描述文本輸入至所述歌曲表征輸出模型中的文本編碼模型,得到每個所述負樣本的第二文本表征;
18、分別對每個所述負樣本的第二文本表征和所述音頻表征進行維度變換,將維度變換后的第二文本表征與維度變換后所述音頻表征之間的表征距離,作為所述第二表征距離。
19、在其中一個實施例中,所述基于所述第一表征距離和所述第二表征距離,對所述歌曲表征輸出模型進行對比學習訓練,直至得到訓練后的歌曲表征輸出模型,包括:
20、將所述第一表征距離與所述第二表征距離的比值,結合加權參數計算得到目標損失值;所述加權參數為根據所述正樣本的第一文本表征和多個所述負樣本的第二文本表征之間的距離均值確定的;
21、根據所述目標損失值進行對比學習訓練至損失函數收斂,得到所述訓練后的歌曲表征輸出模型。
22、在其中一個實施例中,所述確定所述當前樣本對中的歌曲音頻與多個所述負樣本之間的第二表征距離,包括:
23、在每次迭代損失的過程中,分別從多個所述負樣本中隨機選取部分負樣本,并確定所述當前樣本對中的歌曲音頻分別與每次隨機選取的所述負樣本之間的第二表征距離;
24、所述基于所述第一表征距離和所述第二表征距離,對所述歌曲表征輸出模型進行對比學習訓練,包括:
25、在每次迭代損失的過程中,基于所述第一表征距離和每次確定的所述第二表征距離,對所述歌曲表征輸出模型進行對比學習訓練。
26、第二方面,本申請提供了一種歌曲處理方法。所述方法包括:
27、獲取待處理歌曲的歌曲音頻和歌曲描述文本;
28、將所述歌曲音頻和所述歌曲描述文本輸入至訓練后的歌曲表征輸出模型,得到所述待處理歌曲的歌曲音頻表征和歌曲描述文本表征;所述待處理歌曲的歌曲音頻表征和歌曲描述文本表征在表征空間中相互靠近;
29、其中,所述訓練后的歌曲表征輸出模型為由任一項所述的歌曲表征輸出模型的訓練方法訓練得到。
30、第三方面,本申請還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現如第一方面所述的歌曲表征輸出模型的訓練方法的步驟,和/或,如第二方面所述的歌曲處理方法的步驟。
31、第四方面,本申請還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如第一方面所述的歌曲表征輸出模型的訓練方法的步驟,和/或,如第二方面所述的歌曲處理方法的步驟。
32、第五方面,本申請還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現如第一方面所述的歌曲表征輸出模型的訓練方法的步驟,和/或,如第二方面所述的歌曲處理方法的步驟。
33、上述一種歌曲表征輸出模型的訓練方法、歌曲處理方法、計算機設備、計算機可讀存儲介質和計算機程序產品,通過獲取多個樣本對的歌曲訓練數據,該每個樣本對包括同一歌曲的歌曲音頻和歌曲描述文本,針對當前樣本對,根據當前樣本對中的歌曲描述文本分別與各其他樣本對中的歌曲描述文本之間的文本差異,從各其他樣本對中選擇文本差異相對較大的多個歌曲描述文本作為當前樣本對中的歌曲音頻的負樣本,其中當前樣本對為多個本文檔來自技高網...
【技術保護點】
1.一種歌曲表征輸出模型的訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述當前樣本對中的歌曲描述文本分別與各其他樣本對中的歌曲描述文本之間的文本差異,從各所述其他樣本對中選擇文本差異相對較大的多個歌曲描述文本作為所述當前樣本對中的歌曲音頻的負樣本,包括:
3.根據權利要求1所述的方法,其特征在于,所述確定所述當前樣本對中的歌曲音頻與歌曲描述文本之間的第一表征距離,包括:
4.根據權利要求1所述的方法,其特征在于,所述確定所述當前樣本對中的歌曲音頻與多個所述負樣本之間的第二表征距離,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述第一表征距離和所述第二表征距離,對所述歌曲表征輸出模型進行對比學習訓練,直至得到訓練后的歌曲表征輸出模型,包括:
6.根據權利要求1所述的方法,其特征在于,所述確定所述當前樣本對中的歌曲音頻與多個所述負樣本之間的第二表征距離,包括:
7.一種歌曲處理方法,其特征在于,所述方法包括:
8.一種計算機設備,包括存儲器和處
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法的步驟。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法的步驟。
...【技術特征摘要】
1.一種歌曲表征輸出模型的訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述當前樣本對中的歌曲描述文本分別與各其他樣本對中的歌曲描述文本之間的文本差異,從各所述其他樣本對中選擇文本差異相對較大的多個歌曲描述文本作為所述當前樣本對中的歌曲音頻的負樣本,包括:
3.根據權利要求1所述的方法,其特征在于,所述確定所述當前樣本對中的歌曲音頻與歌曲描述文本之間的第一表征距離,包括:
4.根據權利要求1所述的方法,其特征在于,所述確定所述當前樣本對中的歌曲音頻與多個所述負樣本之間的第二表征距離,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述第一表征距離和所述第二表征距離,對所述歌曲表征輸出模型進行對比...
【專利技術屬性】
技術研發人員:王武城,宋澤文,
申請(專利權)人:騰訊音樂娛樂科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。