System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及語音合成,尤其涉及一種發音預測方法及相關裝置。
技術介紹
1、目前的語音合成系統,首先會對待合成的文本進行分詞,得到一個個獨立的單詞,再對各單詞進行發音預測,確定各單詞的發音信息,最后根據各單詞的發音信息進行合成。其中,各單詞的發音信息準確度對最終合成的效果起著至關重要的作用。
2、現有的發音預測方案一般采用檢索語料資源庫的方式,即預先構建語料資源庫,語料資源庫中收錄有多個詞的發音信息。在對分詞后的單詞進行發音預測時,可以直接從語料資源庫中確定單詞的發音信息。但是,分詞后的某些詞,語料資源庫中收錄的發音信息可能有多種,這種情況下,將無法準確確定這些詞的發音信息。另外,還有些詞,語料庫中可能并未收錄,這種情況下,現有的發音預測方案會采用其他手段(如,跳過本詞不發音或填充靜音段、采用按字母讀、使用c45決策樹等機器學習方法進行發音預測中的任一手段)對這些詞的發音信息進行預測,但是這些詞的形式多樣,采用的手段可能無法準確確定出某些形式的詞的發音信息。
3、因此,如何提供一種發音預測方法,以能夠準確確定出待合成文本中各詞的發音信息,進而提升語音合成的效果,成為本領域技術人員亟待解決的技術問題。
技術實現思路
1、鑒于上述問題,本申請提供了一種發音預測方法及相關裝置,以實現準確確定出待合成文本中各詞的發音信息,進而提升語音合成的效果的目的。具體方案如下:
2、本申請第一方面提供一種發音預測方法,包括:
3、對待合成的文本進行分詞處理,
4、基于預設的語料資源庫確定出第一類詞的發音信息;
5、基于所述分詞序列中各個詞的詞性信息,確定各個第二類詞的發音類別,所述第二類詞為所述分詞序列中除第一類詞之外的其他詞;
6、針對每個所述第二類詞,基于預設的與所述第二類詞的發音類別對應的發音信息確定方式確定所述第二類詞的發音信息。
7、在一種可能的實現中,所述基于預設的語料資源庫確定出第一類詞的發音信息,包括:
8、循環遍歷所述分詞序列中的每一個詞,在所述語料資源庫中查找是否存在與該詞對應的發音信息,得到該詞的發音信息查找結果,該詞的發音信息查找結果用于指示所述語料資源庫中與該詞對應的發音信息;
9、基于各詞的發音信息查找結果確定所述第一類詞以及所述第一類詞的發音信息;所述第一類詞為所述分詞序列中能夠基于所述語料資源庫確定出唯一發音信息的詞,從所述語料資源庫確定的發音信息為所述第一類詞的發音信息。
10、在一種可能的實現中,所述基于所述分詞序列中各個詞的詞性信息,確定各個第二類詞的發音類別,包括:
11、循環遍歷所述分詞序列中的每一個詞,在所述語料資源庫中查找是否存在與該詞對應的詞性信息,得到該詞的詞性信息查找結果,該詞的詞性信息查找結果用于指示所述語料資源庫中與該詞對應的詞性信息;
12、基于各詞的所述發音信息查找結果,生成發音信息序列以及發音信息注意力掩碼序列;
13、基于各詞的所述詞性信息查找結果,生成詞性信息序列以及詞性信息注意力掩碼序列;
14、基于所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,確定各個所述第二類詞的發音類別。
15、在一種可能的實現中,所述基于所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,確定各個所述第二類詞的發音類別,包括:
16、將所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,輸入詞性及發音類別預測模型,得到所述詞性及發音類別預測模型輸出的各個所述第二類詞的發音類別;
17、其中,所述詞性及發音類別預測模型是利用訓練用分詞序列、訓練用發音信息序列、訓練用發音信息注意力掩碼序列、訓練用詞性信息序列以及訓練用詞性信息注意力掩碼序列為訓練樣本,以所述訓練用發音信息序列對應的發音類別標簽序列以及所述訓練用詞性信息序列對應的詞性信息標簽序列為樣本標簽,以所述詞性及發音類別預測模型輸出的詞性預測結果趨近于所述詞性信息標簽序列以及輸出的發音類別預測結果趨近于所述發音類別標簽序列為訓練目標訓練得到的。
18、在一種可能的實現中,所述將所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,輸入詞性及發音類別預測模型,得到所述詞性及發音類別預測模型輸出的各個所述第二類詞的發音類別,包括:
19、對所述分詞序列進行特征提取處理,得到分詞特征向量序列;
20、對所述發音信息序列進行特征提取處理,得到發音信息特征向量序列;
21、對所述詞性信息序列進行特征提取處理,得到詞性信息特征向量序列;
22、將所述分詞特征向量序列、所述發音信息特征向量序列、所述詞性信息特征向量序列、所述發音信息注意力掩碼序列以及所述詞性信息注意力掩碼序列,進行特征融合處理,得到融合特征向量序列;
23、將所述融合特征向量序列輸入所述詞性及發音類別預測模型,得到所述詞性及發音類別預測模型輸出的所述分詞序列中各個詞的詞性預測結果和所述分詞序列中各個詞的發音類別預測結果;
24、從所述分詞序列中各個詞的發音類別預測結果中,確定各個所述第二類詞的發音類別。
25、在一種可能的實現中,所述基于預設的與所述第二類詞的發音類別對應的發音信息確定方式確定所述第二類詞的發音信息,包括:
26、獲取預設的各發音類別對應的發音預測模塊;
27、從各發音預測模塊中,確定目標發音預測模塊,所述目標發音預測模塊為所述各發音預測模塊中與所述第二類詞的發音類別對應的發音預測模塊;
28、將所述文本或所述第二類詞提供給所述目標發音預測模塊,得到所述目標發音預測模塊輸出的所述第二類詞的發音信息。
29、本申請第二方面提供一種發音預測裝置,包括:
30、分詞處理單元,用于對待合成的文本進行分詞處理,得到分詞序列,所述分詞序列中包含多個詞;
31、第一發音信息確定單元,用于基于預設的語料資源庫確定出第一類詞的發音信息;
32、發音類別確定單元,用于基于所述分詞序列中各個詞的詞性信息,確定各個第二類詞的發音類別,所述第二類詞為所述分詞序列中除第一類詞之外的其他詞;
33、第二發音信息確定單元,用于針對每個所述第二類詞,基于預設的與所述第二類詞的發音類別對應的發音信息確定方式確定所述第二類詞的發音信息。
34、在一種可能的實現中,所述第一發音信息確定單元,具體用于:
35、循環遍歷所述分詞序列中的每一個詞,在所述語料資源庫中查找是否存在與該詞對應的發音信息,得到該詞的發音信本文檔來自技高網...
【技術保護點】
1.一種發音預測方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于預設的語料資源庫確定出第一類詞的發音信息,包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述分詞序列中各個詞的詞性信息,確定各個第二類詞的發音類別,包括:
4.根據權利要求3所述的方法,其特征在于,所述基于所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,確定各個所述第二類詞的發音類別,包括:
5.根據權利要求4所述的方法,其特征在于,所述將所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,輸入詞性及發音類別預測模型,得到所述詞性及發音類別預測模型輸出的各個所述第二類詞的發音類別,包括:
6.根據權利要求1所述的方法,其特征在于,所述基于預設的與所述第二類詞的發音類別對應的發音信息確定方式確定所述第二類詞的發音信息,包括:
7.一種發音預測裝置,其特征在于,包括:
8.一種
9.一種電子設備,其特征在于,包括至少一個處理器和與所述處理器連接的存儲器,其中:
10.一種計算機存儲介質,其特征在于,所述計算機存儲介質承載有一個或多個計算機程序,當所述一個或多個計算機程序被電子設備執行時,能夠使所述電子設備實現如權利要求1至6中任意一項所述的發音預測方法。
...【技術特征摘要】
1.一種發音預測方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于預設的語料資源庫確定出第一類詞的發音信息,包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述分詞序列中各個詞的詞性信息,確定各個第二類詞的發音類別,包括:
4.根據權利要求3所述的方法,其特征在于,所述基于所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,確定各個所述第二類詞的發音類別,包括:
5.根據權利要求4所述的方法,其特征在于,所述將所述分詞序列、所述發音信息序列、所述發音信息注意力掩碼序列、所述詞性信息序列,以及,所述詞性信息注意力掩碼序列,輸入詞性及發音類別預測模型,得到所述詞性及發音類別預測模型...
【專利技術屬性】
技術研發人員:李沛霖,朱榮華,蔡明琦,方昕,吳江照,高建清,
申請(專利權)人:合肥智能語音創新發展有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。