基于因果音頻編碼的對話語音生成方法及裝置與流程

文檔序號：45272904發(fā)布日期：2026-04-17 20:15閱讀：8來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本申請涉及語音合成，尤其涉及一種基于因果音頻編碼的對話語音生成方法及裝置。

背景技術(shù)：

1、隨著生成式人工智能技術(shù)的突破，語音對話系統(tǒng)正從傳統(tǒng)的、機(jī)械的指令應(yīng)答模式向具有深度上下文理解能力的、自然流暢的開放域?qū)υ捘Ｊ窖葸M(jìn)。在智能投顧、電話客服、風(fēng)險(xiǎn)確認(rèn)等金融業(yè)務(wù)和智能問診、慢病管理、心理健康輔導(dǎo)等醫(yī)療場景中，對能夠進(jìn)行復(fù)雜、連續(xù)對話、低延遲、高質(zhì)量的智能助手的需求日益增長。然而，現(xiàn)有端到端的語音對話生成方案雖然在自然度上有所提升，但依然存在語音生成高延遲、語音合成質(zhì)量低的問題，因此如何降低語音生成延遲，提高語音合成質(zhì)量成為了亟需解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法及裝置，以降低語音生成延遲，提高語音合成質(zhì)量。

2、第一方面，本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法，所述方法包括：

3、基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊，對用戶輸入語音進(jìn)行短幀采樣，獲得至少一個(gè)短幀音頻；

4、將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼，獲得各所述短幀音頻對應(yīng)的音頻嵌入向量；

5、獲取對話歷史信息，并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理，獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量；

6、獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量，基于語音合成模型，對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成，獲得合成語音。

7、第二方面，本申請還提供了一種基于因果音頻編碼的對話語音生成裝置，所述裝置包括：

8、音頻采集模塊，用于基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊，對用戶輸入語音進(jìn)行短幀采樣，獲得至少一個(gè)短幀音頻；

9、音頻編碼模塊，用于將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼，獲得各所述短幀音頻對應(yīng)的音頻嵌入向量；

10、特征預(yù)測模塊，用于獲取對話歷史信息，并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理，獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量；

11、語音合成模塊，用于獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量，基于語音合成模型，對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成，獲得合成語音。

12、第三方面，本申請還提供了一種計(jì)算機(jī)設(shè)備，所述計(jì)算機(jī)設(shè)備包括存儲器和處理器；所述存儲器，用于存儲計(jì)算機(jī)程序；所述處理器，用于執(zhí)行所述計(jì)算機(jī)程序并在執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。

13、第四方面，本申請還提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。

14、本申請公開了一種基于因果音頻編碼的對話語音生成方法及裝置，基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊，對用戶輸入語音進(jìn)行短幀采樣，獲得至少一個(gè)短幀音頻；將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼，獲得各所述短幀音頻對應(yīng)的音頻嵌入向量；獲取對話歷史信息，并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理，獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量；獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量，基于語音合成模型，對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成，獲得合成語音。本申請通過對短幀音頻進(jìn)行流式傳輸和編碼，無需等待用戶語音的完整輸入，降低了響應(yīng)時(shí)間，避免了語音生成延遲，其次，將風(fēng)格表示解耦為音色特征向量和韻律特征向量，克服了現(xiàn)有單一耦合風(fēng)格向量容易導(dǎo)致音色與韻律特征混淆的問題，在多輪對話中能夠穩(wěn)定保持目標(biāo)說話人音色不變，同時(shí)根據(jù)歷史信息預(yù)設(shè)合理韻律，提高了合成語音的質(zhì)量。

技術(shù)特征：

1.一種基于因果音頻編碼的對話語音生成方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法，其特征在于，所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼，獲得各所述短幀音頻對應(yīng)的音頻嵌入向量，包括：

3.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法，其特征在于，所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼，獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后，還包括：

4.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法，其特征在于，所述雙路風(fēng)格編碼器包括音色提取支路和韻律提取支路，所述基于所述語音對話系統(tǒng)對應(yīng)的雙路風(fēng)格編碼器對各所述音頻嵌入向量進(jìn)行音色特征和韻律特征提取和編碼，獲得當(dāng)前音色特征向量、當(dāng)前韻律特征向量以及第一置信度，包括：

5.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法，其特征在于，所述基于各所述短幀音頻對應(yīng)的所述當(dāng)前音色特征向量、所述當(dāng)前韻律特征向量、所述當(dāng)前文本片段和所述目標(biāo)置信度對所述對話歷史信息進(jìn)行更新，包括：

6.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法，其特征在于，所述基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊，對用戶輸入語音進(jìn)行短幀采樣，獲得至少一個(gè)短幀音頻之前，還包括：

7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法，其特征在于，所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼，獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后，還包括：

8.一種基于因果音頻編碼的對話語音生成裝置，其特征在于，包括：

9.一種計(jì)算機(jī)設(shè)備，其特征在于，所述計(jì)算機(jī)設(shè)備包括存儲器和處理器；

10.一種計(jì)算機(jī)可讀存儲介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法。

技術(shù)總結(jié)
本申請涉及語音合成技術(shù)領(lǐng)域，具體公開了一種基于因果音頻編碼的對話語音生成方法及裝置。本申請通過對短幀音頻進(jìn)行流式傳輸和編碼，無需等待用戶語音的完整輸入，降低了響應(yīng)時(shí)間，避免了語音生成延遲，其次，將風(fēng)格表示解耦為音色特征向量和韻律特征向量，克服了現(xiàn)有單一耦合風(fēng)格向量容易導(dǎo)致音色與韻律特征混淆的問題，在多輪對話中能夠穩(wěn)定保持目標(biāo)說話人音色不變，同時(shí)根據(jù)歷史信息預(yù)設(shè)合理韻律，提高了合成語音的質(zhì)量。將本方法應(yīng)用于智能投顧、電話客服、風(fēng)險(xiǎn)確認(rèn)等金融業(yè)務(wù)和智能問診、慢病管理、心理健康輔導(dǎo)等醫(yī)療業(yè)務(wù)的語音對話系統(tǒng)中，能夠針對用戶輸入語音，實(shí)時(shí)生成高質(zhì)量回復(fù)語音，避免語音生成延遲，提高用戶體驗(yàn)。

技術(shù)研發(fā)人員：黃耀,薛青,陳閩川,王少軍
受保護(hù)的技術(shù)使用者：平安科技（深圳）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2026/4/16

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃耀,薛青,陳閩川,王少軍
技術(shù)所有人：平安科技（深圳）有限公司
我是此專利的發(fā)明人

網(wǎng)友詢問留言留言:0條

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

文明留言，給您點(diǎn)贊！

同類技術(shù)