• <rt id="52juo"></rt>
    <form id="52juo"><optgroup id="52juo"></optgroup></form>
    av午夜福利一片免费看久久,熟女精品色一区二区三区,亚洲一区二区三级av,好男人日本社区www,四虎永久精品免费视频,国产成人av免费网址,国产自产对白一区,九九热在线视频精品免费

    基于因果音頻編碼的對話語音生成方法及裝置與流程

    文檔序號:45272904發(fā)布日期:2026-04-17 20:15閱讀:8來源:國知局

    本申請涉及語音合成,尤其涉及一種基于因果音頻編碼的對話語音生成方法及裝置。


    背景技術(shù):

    1、隨著生成式人工智能技術(shù)的突破,語音對話系統(tǒng)正從傳統(tǒng)的、機(jī)械的指令應(yīng)答模式向具有深度上下文理解能力的、自然流暢的開放域?qū)υ捘J窖葸M(jìn)。在智能投顧、電話客服、風(fēng)險(xiǎn)確認(rèn)等金融業(yè)務(wù)和智能問診、慢病管理、心理健康輔導(dǎo)等醫(yī)療場景中,對能夠進(jìn)行復(fù)雜、連續(xù)對話、低延遲、高質(zhì)量的智能助手的需求日益增長。然而,現(xiàn)有端到端的語音對話生成方案雖然在自然度上有所提升,但依然存在語音生成高延遲、語音合成質(zhì)量低的問題,因此如何降低語音生成延遲,提高語音合成質(zhì)量成為了亟需解決的問題。


    技術(shù)實(shí)現(xiàn)思路

    1、本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法及裝置,以降低語音生成延遲,提高語音合成質(zhì)量。

    2、第一方面,本申請?zhí)峁┝艘环N基于因果音頻編碼的對話語音生成方法,所述方法包括:

    3、基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;

    4、將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;

    5、獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;

    6、獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。

    7、第二方面,本申請還提供了一種基于因果音頻編碼的對話語音生成裝置,所述裝置包括:

    8、音頻采集模塊,用于基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;

    9、音頻編碼模塊,用于將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;

    10、特征預(yù)測模塊,用于獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;

    11、語音合成模塊,用于獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。

    12、第三方面,本申請還提供了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;所述存儲器,用于存儲計(jì)算機(jī)程序;所述處理器,用于執(zhí)行所述計(jì)算機(jī)程序并在執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。

    13、第四方面,本申請還提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如上述的基于因果音頻編碼的對話語音生成方法。

    14、本申請公開了一種基于因果音頻編碼的對話語音生成方法及裝置,基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻;將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量;獲取對話歷史信息,并基于大語言模型對所述對話歷史信息和各所述音頻嵌入向量進(jìn)行處理,獲得各所述音頻嵌入向量對應(yīng)的預(yù)測文本令牌和預(yù)測韻律特征向量;獲取目標(biāo)說話人對應(yīng)的目標(biāo)音色特征向量,基于語音合成模型,對各所述預(yù)測文本令牌、各所述預(yù)測韻律特征向量以及所述目標(biāo)音色特征向量進(jìn)行語音合成,獲得合成語音。本申請通過對短幀音頻進(jìn)行流式傳輸和編碼,無需等待用戶語音的完整輸入,降低了響應(yīng)時(shí)間,避免了語音生成延遲,其次,將風(fēng)格表示解耦為音色特征向量和韻律特征向量,克服了現(xiàn)有單一耦合風(fēng)格向量容易導(dǎo)致音色與韻律特征混淆的問題,在多輪對話中能夠穩(wěn)定保持目標(biāo)說話人音色不變,同時(shí)根據(jù)歷史信息預(yù)設(shè)合理韻律,提高了合成語音的質(zhì)量。


    技術(shù)特征:

    1.一種基于因果音頻編碼的對話語音生成方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量,包括:

    3.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后,還包括:

    4.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述雙路風(fēng)格編碼器包括音色提取支路和韻律提取支路,所述基于所述語音對話系統(tǒng)對應(yīng)的雙路風(fēng)格編碼器對各所述音頻嵌入向量進(jìn)行音色特征和韻律特征提取和編碼,獲得當(dāng)前音色特征向量、當(dāng)前韻律特征向量以及第一置信度,包括:

    5.根據(jù)權(quán)利要求3所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述基于各所述短幀音頻對應(yīng)的所述當(dāng)前音色特征向量、所述當(dāng)前韻律特征向量、所述當(dāng)前文本片段和所述目標(biāo)置信度對所述對話歷史信息進(jìn)行更新,包括:

    6.根據(jù)權(quán)利要求1所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述基于語音對話系統(tǒng)對應(yīng)的音頻采集模塊,對用戶輸入語音進(jìn)行短幀采樣,獲得至少一個(gè)短幀音頻之前,還包括:

    7.根據(jù)權(quán)利要求1至6任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法,其特征在于,所述將各所述短幀音頻流式傳輸至預(yù)設(shè)的因果音頻編碼器進(jìn)行編碼,獲得各所述短幀音頻對應(yīng)的音頻嵌入向量之后,還包括:

    8.一種基于因果音頻編碼的對話語音生成裝置,其特征在于,包括:

    9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括存儲器和處理器;

    10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)使所述處理器實(shí)現(xiàn)如權(quán)利要求1至7中任一項(xiàng)所述的基于因果音頻編碼的對話語音生成方法。


    技術(shù)總結(jié)
    本申請涉及語音合成技術(shù)領(lǐng)域,具體公開了一種基于因果音頻編碼的對話語音生成方法及裝置。本申請通過對短幀音頻進(jìn)行流式傳輸和編碼,無需等待用戶語音的完整輸入,降低了響應(yīng)時(shí)間,避免了語音生成延遲,其次,將風(fēng)格表示解耦為音色特征向量和韻律特征向量,克服了現(xiàn)有單一耦合風(fēng)格向量容易導(dǎo)致音色與韻律特征混淆的問題,在多輪對話中能夠穩(wěn)定保持目標(biāo)說話人音色不變,同時(shí)根據(jù)歷史信息預(yù)設(shè)合理韻律,提高了合成語音的質(zhì)量。將本方法應(yīng)用于智能投顧、電話客服、風(fēng)險(xiǎn)確認(rèn)等金融業(yè)務(wù)和智能問診、慢病管理、心理健康輔導(dǎo)等醫(yī)療業(yè)務(wù)的語音對話系統(tǒng)中,能夠針對用戶輸入語音,實(shí)時(shí)生成高質(zhì)量回復(fù)語音,避免語音生成延遲,提高用戶體驗(yàn)。

    技術(shù)研發(fā)人員:黃耀,薛青,陳閩川,王少軍
    受保護(hù)的技術(shù)使用者:平安科技(深圳)有限公司
    技術(shù)研發(fā)日:
    技術(shù)公布日:2026/4/16
    網(wǎng)友詢問留言 留言:0條
    • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
    主站蜘蛛池模板: 日韩中文字幕精品人妻| 久久99精品九九九久久婷婷 | 国精一二二产品无人区免费应用| 无码专区人妻系列日韩精品少妇| 亚洲伊人精品久视频国产| 色吊丝永久免费| 一本色道久久88加勒比中文字幕| 性视频网址| 国产成人无码午夜视频在线观看| 男女性高爱潮免费网站| 国产在线你懂| 亚洲AV中文无码字幕色三| 亚洲国产美女精品久久久| 五月婷婷开心| 香蕉久久人人爽人人爽人人片AV| 野花韩国高清电影| 九九热色| 国产成人户外露出视频在线| 成人日本有码在线| 内射极品少妇xxxxxhd| 日韩h| 欧美成人WWW在线观看| 国产一区二区av天堂热| 亚洲女同精品久久女同| 精东av| 91精品乱码一区二区三区| 熟女中文字幕在线| 亚洲无码AV观看| 在线a级毛片无码免费真人| 国产美女久久久亚洲综合 | 日本人妻人人人澡人人爽| 午夜三级A三级三点在线观看| 少妇激情一区二区三区视频 | 国产精品免费视频不卡| 人妻少妇精品无码专区二区| 无码人妻热线精品视频| 亚洲精品一区国产精品| 男女激情一区二区三区| 中国少妇人妻xxxxx| 久久人人蜜桃97精品蜜臀| 午夜成人性爽爽免费视频|