• <rt id="52juo"></rt>
    <form id="52juo"><optgroup id="52juo"></optgroup></form>
    av午夜福利一片免费看久久,熟女精品色一区二区三区,亚洲一区二区三级av,好男人日本社区www,四虎永久精品免费视频,国产成人av免费网址,国产自产对白一区,九九热在线视频精品免费

    基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì)與流程

    文檔序號:45272903發(fā)布日期:2026-04-17 20:15閱讀:5來源:國知局

    本申請涉及語音語義,尤其涉及一種基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì)。


    背景技術(shù):

    1、在人工智能技術(shù)蓬勃發(fā)展的今天,文本轉(zhuǎn)語音系統(tǒng)作為人機交互的關(guān)鍵接口,其應(yīng)用已深入到各行各業(yè)。特別是在金融科技與醫(yī)療健康養(yǎng)老兩大關(guān)乎民生福祉與社會效率的關(guān)鍵領(lǐng)域,高質(zhì)量、高可信度、高表現(xiàn)力的語音合成技術(shù)具有巨大的應(yīng)用需求。

    2、在金融科技領(lǐng)域,文本轉(zhuǎn)語音技術(shù)被廣泛應(yīng)用于智能客服外呼、風(fēng)險交易確認、金融產(chǎn)品推介、賬單提醒及投資者教育等場景,這些場景對語音生成的內(nèi)容準確性、專業(yè)性和可信度出了極高要求。例如,在自動播報股價或交易明細時,一個數(shù)字的讀錯或重復(fù)都可能導(dǎo)致嚴重的客戶糾紛與財務(wù)損失;在推銷金融產(chǎn)品時,單調(diào)、機械或含有噪聲的語音會顯著降低用戶的信任感和購買意愿。然而,當(dāng)前的業(yè)務(wù)系統(tǒng)大多依賴于傳統(tǒng)的或基于種子模型的分層文本轉(zhuǎn)語音技術(shù),這些技術(shù)在應(yīng)對金融文本中復(fù)雜的專業(yè)術(shù)語、數(shù)字及特定韻律時顯得力不從心。

    3、在醫(yī)療健康養(yǎng)老領(lǐng)域,文本轉(zhuǎn)語音技術(shù)扮演著更為重要的角色,如智能問診導(dǎo)診、用藥提醒與指導(dǎo)、慢性病管理建議的播報,以及為視障或年邁用戶提供信息播報服務(wù)。該領(lǐng)域?qū)φZ音的清晰度、自然度、情感親和力有著特殊要求。例如,向老年人播報用藥說明時,語音必須絕對清晰、無歧義,任何內(nèi)容的遺漏或背景偽音都可能引發(fā)用藥安全風(fēng)險。

    4、因此,如何在金融科技以及醫(yī)療健康養(yǎng)老等業(yè)務(wù)領(lǐng)域中,提高智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性成為了目前亟待解決的技術(shù)問題。


    技術(shù)實現(xiàn)思路

    1、本申請?zhí)峁┝艘环N基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì),以提高智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性。

    2、第一方面,本申請?zhí)峁┝艘环N基于自引導(dǎo)擴散模型的語音生成方法,所述方法包括:

    3、獲取待轉(zhuǎn)換文本序列,并通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列;

    4、根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖;

    5、通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息。

    6、第二方面,本申請還提供了一種基于自引導(dǎo)擴散模型的語音生成裝置,所述裝置包括:

    7、語義標記序列生成模塊,用于獲取待轉(zhuǎn)換文本序列,并通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列;

    8、梅爾頻譜圖生成模塊,用于根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖;

    9、目標語音信息生成模塊,用于通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息。

    10、第三方面,本申請還提供了一種計算機設(shè)備,所述計算機設(shè)備包括存儲器和處理器;所述存儲器用于存儲計算機程序;所述處理器,用于執(zhí)行所述計算機程序并在執(zhí)行所述計算機程序時實現(xiàn)如上述的基于自引導(dǎo)擴散模型的語音生成方法。

    11、第四方面,本申請還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時使所述處理器實現(xiàn)如上述的基于自引導(dǎo)擴散模型的語音生成方法。

    12、本申請公開了一種基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì),所述基于自引導(dǎo)擴散模型的語音生成方法包括獲取待轉(zhuǎn)換文本序列,并通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列;根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖;通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息。通過上述方式,本申請通過弱化語義引導(dǎo)模型與主語義預(yù)測模型協(xié)同工作,在語義標記生成過程中進行自引導(dǎo)增強,降低錯誤語義標記的產(chǎn)生概率。通過粗粒度與細粒度兩級擴散模型的自引導(dǎo)優(yōu)化,實現(xiàn)了層級式精細化生成語音特征,避免了傳統(tǒng)單一擴散模型易產(chǎn)生的細微噪聲,在金融科技以及醫(yī)療健康養(yǎng)老等業(yè)務(wù)領(lǐng)域中,提高了智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性。


    技術(shù)特征:

    1.一種基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述通過主語義預(yù)測模型、弱化語義引導(dǎo)模型和所述待轉(zhuǎn)換文本序列,生成語義標記序列,包括:

    3.根據(jù)權(quán)利要求2所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述基于預(yù)設(shè)語義引導(dǎo)強度系數(shù)將所述主輸出概率分布和所述引導(dǎo)輸出概率分布進行加權(quán)融合,生成自引導(dǎo)概率分布之前,包括:

    4.根據(jù)權(quán)利要求1所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖之前,包括:

    5.根據(jù)權(quán)利要求4所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述根據(jù)粗粒度擴散模型、細粒度擴散模型和所述語義標記序列生成梅爾頻譜圖,包括:

    6.根據(jù)權(quán)利要求5所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述根據(jù)所述粗粒度擴散模型、所述粗粒度引導(dǎo)模型和所述語義標記序列生成粗粒度聲學(xué)特征,包括:

    7.根據(jù)權(quán)利要求1至6中任一項所述的基于自引導(dǎo)擴散模型的語音生成方法,其特征在于,所述通過預(yù)設(shè)特征轉(zhuǎn)換技術(shù)和所述梅爾頻譜圖,生成目標語音信息,包括:

    8.一種基于自引導(dǎo)擴散模型的語音生成裝置,其特征在于,包括:

    9.一種計算機設(shè)備,其特征在于,所述計算機設(shè)備包括存儲器和處理器;

    10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)存儲有計算機程序,所述計算機程序被處理器執(zhí)行時使所述處理器實現(xiàn)如權(quán)利要求1至7中任一項所述的基于自引導(dǎo)擴散模型的語音生成方法。


    技術(shù)總結(jié)
    本申請涉及語音語義技術(shù)領(lǐng)域,公開了一種基于自引導(dǎo)擴散模型的語音生成方法、裝置、設(shè)備及介質(zhì),所述方法包括生成語義標記序列;根據(jù)粗粒度擴散模型、細粒度擴散模型和語義標記序列生成梅爾頻譜圖;通過特征轉(zhuǎn)換技術(shù)和梅爾頻譜圖生成目標語音信息。通過上述方式,本申請通過弱化語義引導(dǎo)模型與主語義預(yù)測模型協(xié)同工作,在語義標記生成過程中進行自引導(dǎo)增強,降低錯誤語義標記的產(chǎn)生概率。通過粗粒度與細粒度兩級擴散模型的自引導(dǎo)優(yōu)化,實現(xiàn)了層級式精細化生成語音特征,避免了傳統(tǒng)單一擴散模型易產(chǎn)生的細微噪聲,本申請可應(yīng)用于金融科技以及醫(yī)療健康養(yǎng)老等業(yè)務(wù)領(lǐng)域,提高了智能客服系統(tǒng)將文本信息轉(zhuǎn)換為語音信息的可靠性。

    技術(shù)研發(fā)人員:陳閩川,萬臣臣,王少軍
    受保護的技術(shù)使用者:平安科技(深圳)有限公司
    技術(shù)研發(fā)日:
    技術(shù)公布日:2026/4/16
    網(wǎng)友詢問留言 留言:0條
    • 還沒有人留言評論。精彩留言會獲得點贊!
    主站蜘蛛池模板: 欧美深夜福利| 国产成人啪精品午夜网站| 国产制服丝袜在线| 综合久久综合| 人妻第一页| 国产午精品午夜福利757视频播放| 久肏| 91在线无码精品秘 入口九色十| 色视频不卡一区二区三区| 色婷婷久久视屏| 欧美日韩精品一区二区三区不卡91麻豆久久 | 日韩深夜视频在线观看| 色二区| 国产18禁美女无遮挡| 福利成人午夜国产一区| 欧美专区第二页| 亚洲乳大丰满中文字幕| 又污又黄又无遮挡的网站| 精品av无码国产一区二区| 性爱激情网| 国产精品麻豆欧美日韩ww| 精品日本一区二区三区在线观看 | 亚洲欧洲日产国无高清码图片| 亚洲国产精品一区二区www| 久久精品成人一区二区三区| 丰满无码人妻热妇无码区| 国产精品久久久久久亚洲毛片| 176精品免费| 亚洲国产另类久久久精品黑人| 丰满人妻一区二区三区在线视频53| 国产玖玖玖玖精品电影| 亚洲天堂精品一区| 国产精品婷婷色色| 野欲av观看| 最大色网男人的av天堂| 亚洲熟女視頻| 亚洲精品日韩久久精品| 成人精品一区日本无码网| 激情综合网激情综合| 超碰草| 97中文字幕在线观看|