本申請涉及語音合成,尤其涉及一種基于因果音頻編碼的對話語音生成方法及裝置。
背景技術(shù):
1、隨著生成式人工智能技術(shù)的突破,語音對話系統(tǒng)正從傳統(tǒng)的、機(jī)械的指令應(yīng)答模式向具有深度上下文理解能力的、自然流暢的開放域?qū)υ捘J窖葸M(jìn)。在智能投顧、電話客服、風(fēng)險(xiǎn)確認(rèn)等金融業(yè)務(wù)和智能問診、慢病管理、心理健康輔導(dǎo)等醫(yī)療場景中,對能夠進(jìn)行復(fù)雜、連續(xù)對話、低延遲、高質(zhì)量的智能助手的需求日益增長。然而,現(xiàn)有端到端的語音對話生成方案雖然在自然度上有所提升,但依然存在語音生成高延遲、語音合成質(zhì)量低的問題,因此如何降低語音生成延遲,提高語音合成質(zhì)量成為了亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法及裝置,以降低語音生成延遲,提高語音合成質(zhì)量。
2、第一方面,本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法,所述方法包括:
3、基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;
4、將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;
5、獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;
6、獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。
7、第二方面,本申請還提供了一種基于因果音頻編碼的對話語音生成裝置,所述裝置包括:
8、音頻采集模塊,用于基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;
9、音頻編碼模塊,用于將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;
10、特征預(yù)測模塊,用于獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;
11、語音合成模塊,用于獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。
12、第三方面,本申請還提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;所述存儲器,用于存儲計(jì)算機(jī)程序;所述處理器,用于執(zhí)行所述計(jì)算機(jī)程序并在執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。
13、第四方面,本申請還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。
14、本申請公開了一種基于因果音頻編碼的對話語音生成方法及裝置,基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。本申請通過對短幀音頻進(jìn)行流式傳輸和編碼,無需等待用戶語音的完整輸入,降低了響應(yīng)時(shí)間,避免了語音生成延遲,其次,將風(fēng)格表示解耦為音色特征向量和韻律特征向量,克服了現(xiàn)有單一耦合風(fēng)格向量容易導(dǎo)致音色與韻律特征混淆的問題,在多輪對話中能夠穩(wěn)定保持目標(biāo)說話人音色不變,同時(shí)根據(jù)歷史信息預(yù)設(shè)合理韻律,提高了合成語音的質(zhì)量。
1.一種基于因果音頻編碼的對話語音生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量,包括:
3.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后,還包括:
4.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述雙路風(fēng)格編碼器包括音色提取支路和韻律提取支路,所述基于所述語音對話系統(tǒng)對應(yīng)的雙路風(fēng)格編碼器對各所述音頻嵌入向量進(jìn)行音色特征和韻律特征提取和編碼,獲得當(dāng)前音色特征向量、當(dāng)前韻律特征向量以及第一置信度,包括:
5.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述基于各所述短幀音頻對應(yīng)的所述當(dāng)前音色特征向量、所述當(dāng)前韻律特征向量、所述當(dāng)前文本片段和所述目標(biāo)置信度對所述對話歷史信息進(jìn)行更新,包括:
6.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻之前,還包括:
7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后,還包括:
8.一種基于因果音頻編碼的對話語音生成裝置,其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法。