本發(fā)明專利技術(shù)實施例提供一種語音合成方法、裝置、設(shè)備和存儲介質(zhì),該方法包括:響應(yīng)于用戶觸發(fā)的交互行為,獲取與該交互行為對應(yīng)的文本內(nèi)容和目標(biāo)用戶的標(biāo)識信息;確定文本內(nèi)容對應(yīng)的語言學(xué)特征;將語言學(xué)特征和目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以通過語音合成模型獲得目標(biāo)用戶與文本內(nèi)容對應(yīng)的聲學(xué)特征;根據(jù)該聲學(xué)特征生成目標(biāo)用戶與該文本內(nèi)容對應(yīng)的語音信號并輸出。通過該方案,可以實現(xiàn)以特定某人的聲音與某用戶進(jìn)行個性化的語音交互的目的。
【技術(shù)實現(xiàn)步驟摘要】
語音合成方法、裝置、設(shè)備和存儲介質(zhì)
本專利技術(shù)涉及人工智能
,尤其涉及一種語音合成方法、裝置、設(shè)備和存儲介質(zhì)。
技術(shù)介紹
隨著人工智能技術(shù)的發(fā)展,各種支持語音交互的應(yīng)用程序?qū)映霾桓F,比如各種問答機(jī)器人、智能音箱,等等。以問答機(jī)器人為例,響應(yīng)于用戶的問題語音,問答機(jī)器人可以向用戶輸出應(yīng)答語音。目前,問答機(jī)器人輸出的各種應(yīng)答語音往往都是具有統(tǒng)一的聲學(xué)特征的,互動性較差。
技術(shù)實現(xiàn)思路
本專利技術(shù)實施例提供一種語音合成方法、裝置、設(shè)備和存儲介質(zhì),可以實現(xiàn)個性化的語音交互目的。第一方面,本專利技術(shù)實施例提供一種語音合成方法,該方法包括:響應(yīng)于用戶觸發(fā)的交互行為,獲取與所述交互行為對應(yīng)的文本內(nèi)容和目標(biāo)用戶的標(biāo)識信息;確定所述文本內(nèi)容對應(yīng)的語言學(xué)特征;將所述語言學(xué)特征和所述目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以通過所述語音合成模型獲得所述目標(biāo)用戶與所述文本內(nèi)容對應(yīng)的聲學(xué)特征;根據(jù)所述聲學(xué)特征,生成與所述文本內(nèi)容對應(yīng)的語音信號,以輸出所述語音信號。第二方面,本專利技術(shù)實施例提供一種語音合成裝置,該裝置包括:第一獲取模塊,用于響應(yīng)于用戶觸發(fā)的交互行為,獲取與所述交互行為對應(yīng)的文本內(nèi)容和目標(biāo)用戶的標(biāo)識信息;確定模塊,用于確定所述文本內(nèi)容對應(yīng)的語言學(xué)特征;第二獲取模塊,用于將所述語言學(xué)特征和所述目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以通過所述語音合成模型獲得所述目標(biāo)用戶與所述文本內(nèi)容對應(yīng)的聲學(xué)特征;生成模塊,用于根據(jù)所述聲學(xué)特征,生成與所述文本內(nèi)容對應(yīng)的語音信號,以輸出所述語音信號。第三方面,本專利技術(shù)實施例提供一種電子設(shè)備,包括:存儲器、處理器;其中,所述存儲器上存儲有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被所述處理器執(zhí)行時,使所述處理器至少可以實現(xiàn)如第一方面所述的語音合成方法。本專利技術(shù)實施例提供了一種非暫時性機(jī)器可讀存儲介質(zhì),所述非暫時性機(jī)器可讀存儲介質(zhì)上存儲有可執(zhí)行代碼,當(dāng)所述可執(zhí)行代碼被電子設(shè)備的處理器執(zhí)行時,使所述處理器至少可以實現(xiàn)如第一方面所述的語音合成方法。在本專利技術(shù)實施例中,當(dāng)希望以目標(biāo)用戶(如用戶B)的聲音向某用戶(如用戶A)輸出對應(yīng)于某文本內(nèi)容的語音信號時,先確定該文本內(nèi)容對應(yīng)的語言學(xué)特征,進(jìn)而,將該語言學(xué)特征和目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以通過語音合成模型獲得目標(biāo)用戶與該文本內(nèi)容對應(yīng)的聲學(xué)特征。其中,該語音合成模型已經(jīng)學(xué)習(xí)到了目標(biāo)用戶的聲學(xué)特征。最終,語音合成模型輸出的根據(jù)聲學(xué)特征,通過聲碼器(vocoder)生成與文本內(nèi)容對應(yīng)的語音信號。通過該方案,可以實現(xiàn)以特定某人的聲音與某用戶進(jìn)行個性化的語音交互的目的。附圖說明為了更清楚地說明本專利技術(shù)實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術(shù)的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本專利技術(shù)實施例提供的一種語音合成方法的流程圖;圖2為本專利技術(shù)實施例提供的一種使用語音合成模型進(jìn)行語音合成過程的示意圖;圖3為本專利技術(shù)實施例提供的一種語音合成方法的使用場景的示意圖;圖4為本專利技術(shù)實施例提供的一種語音合成模型的第一訓(xùn)練階段的流程示意圖;圖5為本專利技術(shù)實施例提供的一種語音合成模型的第一訓(xùn)練階段的訓(xùn)練原理示意圖;圖6為本專利技術(shù)實施例提供的一種語音合成模型的第二訓(xùn)練階段的流程示意圖;圖7為本專利技術(shù)實施例提供的一種語音合成模型的第二訓(xùn)練階段的訓(xùn)練原理示意圖;圖8為本專利技術(shù)實施例提供的一種語音合成裝置的結(jié)構(gòu)示意圖;圖9為與圖8所示實施例提供的語音合成裝置對應(yīng)的電子設(shè)備的結(jié)構(gòu)示意圖。具體實施方式為使本專利技術(shù)實施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本專利技術(shù)實施例中的附圖,對本專利技術(shù)實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本專利技術(shù)一部分實施例,而不是全部的實施例。基于本專利技術(shù)中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術(shù)保護(hù)的范圍。在本專利技術(shù)實施例中使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本專利技術(shù)。在本專利技術(shù)實施例和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義,“多種”一般包含至少兩種。取決于語境,如在此所使用的詞語“如果”、“若”可以被解釋成為“在……時”或“當(dāng)……時”或“響應(yīng)于確定”或“響應(yīng)于檢測”。類似地,取決于語境,短語“如果確定”或“如果檢測(陳述的條件或事件)”可以被解釋成為“當(dāng)確定時”或“響應(yīng)于確定”或“當(dāng)檢測(陳述的條件或事件)時”或“響應(yīng)于檢測(陳述的條件或事件)”。另外,下述各方法實施例中的步驟時序僅為一種舉例,而非嚴(yán)格限定。本專利技術(shù)實施例提供的語音合成方法可以由一電子設(shè)備來執(zhí)行,該電子設(shè)備可以是諸如PC機(jī)、筆記本電腦、智能手機(jī)、智能機(jī)器人等終端設(shè)備,也可以是服務(wù)器。該服務(wù)器可以是包含一獨(dú)立主機(jī)的物理服務(wù)器,或者也可以為虛擬服務(wù)器,或者也可以為云端服務(wù)器或服務(wù)器集群。本專利技術(shù)實施例提供的語音合成方法可以適用于任何需要向用戶輸出語音信號的場景中,比如用戶使用智能機(jī)器人進(jìn)行人機(jī)對話的場景中,再比如用戶使用語音助手的語音交互場景中,等等?;诖?,上述電子設(shè)備中可以具有支持語音交互功能的一種或多種應(yīng)用程序,以供廣大用戶使用。下面結(jié)合以下實施例對本文提供的語音合成方法的執(zhí)行過程進(jìn)行示例性說明。圖1為本專利技術(shù)實施例提供的一種語音合成方法的流程圖,如圖1所示,該方法包括如下步驟:101、響應(yīng)于用戶觸發(fā)的交互行為,獲取與該交互行為對應(yīng)的文本內(nèi)容和目標(biāo)用戶的標(biāo)識信息。102、確定文本內(nèi)容對應(yīng)的語言學(xué)特征。103、將語言學(xué)特征和目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以通過語音合成模型獲得目標(biāo)用戶與文本內(nèi)容對應(yīng)的聲學(xué)特征。104、根據(jù)所述聲學(xué)特征,生成與文本內(nèi)容對應(yīng)的語音信號,以輸出該語音信號。概括來說,本專利技術(shù)實施例提供的語音合成方法的目的是:將某文本內(nèi)容以特定用戶(即上述目標(biāo)用戶)的聲音輸出。實際應(yīng)用中,上述步驟101中所述的用戶觸發(fā)的交互行為,可以理解為用戶在使用支持語音交互功能的APP或智能設(shè)備的過程中向該APP或智能設(shè)備輸入語音指令等行為。以人機(jī)對話場景為例,上述文本內(nèi)容可以是諸如智能機(jī)器人等終端設(shè)備基于用戶A觸發(fā)的交互行為,確定出的需要向該用戶A輸出的文本內(nèi)容。假設(shè)目標(biāo)用戶為用戶B,則需要以用戶B的聲音向用戶A輸出該文本內(nèi)容。比如,用戶A說出“明天北京天氣怎么樣”的語音,假設(shè)基于對該語音進(jìn)行語音識別和語義理解后確定出需要響應(yīng)的文本內(nèi)容為:明天北京天氣晴朗,氣溫在-5℃至3℃,東北風(fēng)1級。則最終會以用戶B的聲音輸出該文本內(nèi)容。以支持語音交互功能的某應(yīng)用程序為例來說,假設(shè)用戶A為使用該應(yīng)用程序的普通用戶,可選地,用戶A可以定本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種語音合成方法,其特征在于,包括:/n響應(yīng)于用戶觸發(fā)的交互行為,獲取與所述交互行為對應(yīng)的文本內(nèi)容和目標(biāo)用戶的標(biāo)識信息;/n確定所述文本內(nèi)容對應(yīng)的語言學(xué)特征;/n將所述語言學(xué)特征和所述目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以通過所述語音合成模型獲得所述目標(biāo)用戶與所述文本內(nèi)容對應(yīng)的聲學(xué)特征;/n根據(jù)所述聲學(xué)特征,生成與所述文本內(nèi)容對應(yīng)的語音信號,以輸出所述語音信號。/n
【技術(shù)特征摘要】
1.一種語音合成方法,其特征在于,包括:
響應(yīng)于用戶觸發(fā)的交互行為,獲取與所述交互行為對應(yīng)的文本內(nèi)容和目標(biāo)用戶的標(biāo)識信息;
確定所述文本內(nèi)容對應(yīng)的語言學(xué)特征;
將所述語言學(xué)特征和所述目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以通過所述語音合成模型獲得所述目標(biāo)用戶與所述文本內(nèi)容對應(yīng)的聲學(xué)特征;
根據(jù)所述聲學(xué)特征,生成與所述文本內(nèi)容對應(yīng)的語音信號,以輸出所述語音信號。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音合成模型中包括第一編碼器和解碼器;
所述通過所述語音合成模型獲得所述目標(biāo)用戶與所述文本內(nèi)容對應(yīng)的聲學(xué)特征,包括:
通過所述第一編碼器對所述語言學(xué)特征進(jìn)行編碼,以得到與所述語言學(xué)特征對應(yīng)的第一編碼向量;
確定與所述目標(biāo)用戶的標(biāo)識信息對應(yīng)的第二編碼向量;
拼接所述第一編碼向量與所述第二編碼向量;
通過所述解碼器對拼接后的編碼向量進(jìn)行解碼,以得到所述聲學(xué)特征。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述語音合成模型中還包括第二編碼器,所述第二編碼器與所述第一編碼器共用所述解碼器;
所述方法還包括:
獲取與所述目標(biāo)用戶對應(yīng)的語音信號樣本,所述語音信號樣本不對應(yīng)于所述文本內(nèi)容;
確定所述語音信號樣本對應(yīng)的音素后驗概率特征和聲學(xué)特征;
以所述語音信號樣本對應(yīng)的聲學(xué)特征作為監(jiān)督信息,將所述語音信號樣本對應(yīng)的音素后驗概率特征和所述目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以訓(xùn)練所述第二解碼器和所述解碼器。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述語音信號樣本對應(yīng)的音素后驗概率特征和所述目標(biāo)用戶的標(biāo)識信息輸入到語音合成模型中,以訓(xùn)練所述第二解碼器和所述解碼器,包括:
通過所述第二編碼器對所述音素后驗概率特征進(jìn)行編碼,以得到與所述音素后驗概率特征對應(yīng)的第三編碼向量;
拼接對應(yīng)于所述目標(biāo)用戶的標(biāo)識信息的所述第二編碼向量和所述第三編碼向量;
通過所述解碼器對拼接后的編碼向量進(jìn)行解碼,以得到所述解碼器輸出的聲學(xué)特征。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取與所述目標(biāo)用戶對應(yīng)的語音信號樣本,包括:
獲取多個用戶對應(yīng)的標(biāo)識信息和語音信號樣本,所述多個用戶中包括所述目標(biāo)用戶,所述多個用戶的語音信號樣本用于訓(xùn)練所述第二解碼器和所述解碼器;
從所述多個用戶對應(yīng)的語音信號樣本中獲取所述目標(biāo)用戶對應(yīng)的語音信號樣本。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定所述語音信號樣本對應(yīng)的音素后驗概率特征和聲學(xué)特征,包括:
對所述語音信號樣本進(jìn)行分幀處理,以得到多幀語音信號;
提取所述多幀語音信號各自對應(yīng)的聲學(xué)特征;
將所述多幀語音信號各自對應(yīng)的聲學(xué)特征輸入到聲學(xué)模型中,以通過所述聲學(xué)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:黃智穎,雷鳴,
申請(專利權(quán))人:阿里巴巴集團(tuán)控股有限公司,
類型:發(fā)明
國別省市:開曼群島;KY
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。