• <rt id="52juo"></rt>
    <form id="52juo"><optgroup id="52juo"></optgroup></form>
    av午夜福利一片免费看久久,熟女精品色一区二区三区,亚洲一区二区三级av,好男人日本社区www,四虎永久精品免费视频,国产成人av免费网址,国产自产对白一区,九九热在线视频精品免费

    一種音視頻的核心內容處理方法及相關裝置與流程

    文檔序號:45734081發布日期:2026-06-06 00:28閱讀:3來源:國知局

    本申請涉及音視頻處理,特別是涉及一種音視頻的核心內容處理方法及相關裝置。


    背景技術:

    1、目前處于信息爆炸時代,音視頻海量增長。在音視頻平臺中,用戶通?;谝粢曨l的核心內容例如標題內容等快速篩選出感興趣的音視頻,因此,針對音視頻展示好的核心內容能夠顯著提高音視頻的曝光度和點擊率。

    2、相關技術中,音視頻的核心內容處理方法是:簡單融合音視頻中視覺特征和音頻特征得到融合特征,通過預訓練生成模型在核心內容生成提示詞的引導下生成音視頻的核心內容。

    3、然而,簡單融合音視頻中視覺特征和音頻特征得到的融合特征,難以準確地表示音視頻中視覺信息與音頻信息之間的關聯,導致針對音視頻生成的核心內容難以準確地反映音視頻的核心,且預訓練生成模型的訓練成本較高。


    技術實現思路

    1、為了解決上述技術問題,本申請提供了一種音視頻的核心內容處理方法及相關裝置,通過跨模態投射層的特征投射,使得視覺特征的特征維度和音頻特征的特征維度均對齊至預設生成模型的文本嵌入維度,消除不同模態特征之間的特征維度差異,為多模態特征融合奠定結構兼容基礎;基于注意力層的特征融合實現深度融合視覺特征和音頻特征,以充分挖掘不同模態特征之間的深層關聯,引入低秩適配器為訓練模型時減少訓練參數量提供技術實現基礎;微調訓練跨模態投射層和低秩適配器,無需訓練注意力層和生成層,大大減少訓練參數量,以降低訓練成本,且使得核心內容生成模型針對音視頻能夠高效且精準地生成核心內容。

    2、本申請實施例公開了如下技術方案:

    3、一方面,本申請實施例提供一種音視頻的核心內容處理方法,所述方法包括:

    4、通過預設生成模型中的跨模態投射層,對樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及所述樣本音視頻的音頻分幀序列的第一音頻特征序列進行特征投射,獲得符合所述預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;

    5、通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列;

    6、通過所述預設生成模型中的生成層,對所述第一融合特征序列進行核心內容生成,獲得所述樣本音視頻的預測核心內容;

    7、根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型。

    8、另一方面,本申請實施例提供一種音視頻的核心內容處理裝置,所述裝置包括:特征投射單元、特征融合單元、核心內容生成單元和微調訓練單元;

    9、所述特征投射單元,用于通過預設生成模型中的跨模態投射層,對樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及所述樣本音視頻的音頻分幀序列的第一音頻特征序列進行特征投射,獲得符合所述預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;

    10、所述特征融合單元,用于通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列;

    11、所述核心內容生成單元,用于通過所述預設生成模型中的生成層,對所述第一融合特征序列進行核心內容生成,獲得所述樣本音視頻的預測核心內容;

    12、所述微調訓練單元,用于根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型。

    13、另一方面,本申請實施例提供一種計算機設備,所述計算機設備包括處理器以及存儲器:

    14、所述存儲器用于存儲計算機程序,并將所述計算機程序傳輸給所述處理器;

    15、所述處理器用于根據所述計算機程序中的指令執行前述任一方面所述的方法。

    16、另一方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質用于存儲計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行前述任一方面所述的方法。

    17、另一方面,本申請實施例提供一種計算機程序產品,包括計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行前述任一方面所述的方法。

    18、由上述技術方案可以看出,將樣本音視頻中的關鍵幀序列的第一視覺特征序列、以及樣本音視頻的音頻分幀序列的第一音頻特征序列,輸入預設生成模型中的跨模態投射層進行特征投射,輸出符合預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;通過跨模態投射層的特征投射,使得視覺特征的特征維度和音頻特征的特征維度均對齊至預設生成模型的文本嵌入維度,消除不同模態特征之間的特征維度差異,為多模態特征融合奠定結構兼容基礎。

    19、將第二視覺特征序列、第二音頻特征序列、以及核心內容生成提示詞的提示詞特征,輸入預設生成模型中的注意力層和低秩適配器進行特征融合,輸出第一融合特征序列;基于注意力層的特征融合實現深度融合視覺特征和音頻特征,以充分挖掘不同模態特征之間的深層關聯,引入低秩適配器為訓練模型時減少訓練參數量提供技術實現基礎。

    20、將第一融合特征序列輸入預設生成模型中的生成層,基于預設生成模型的強大生成能力明確核心內容生成任務,輸出樣本音視頻的預測核心內容,使得預測核心內容準確地反映樣本音視頻的核心;基于預測核心內容與樣本音視頻對應的樣本核心內容之間的差異,微調訓練跨模態投射層和低秩適配器,使得預設生成模型學習針對樣本音視頻輸出樣本核心內容,以得到核心內容生成模型;無需訓練注意力層和生成層,大大減少訓練參數量,以降低訓練成本,且使得核心內容生成模型針對音視頻能夠高效且精準地生成核心內容。


    技術特征:

    1.一種音視頻的核心內容處理方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列,包括:

    3.根據權利要求2所述的方法,其特征在于,所述通過所述注意力層,對所述第二視覺特征序列和所述第二音頻特征序列進行特征融合,獲得多模態特征序列,包括:

    4.根據權利要求1所述的方法,其特征在于,所述通過所述預設生成模型中的注意力層和低秩適配器,對所述第二視覺特征序列、所述第二音頻特征序列、以及核心內容生成提示詞的提示詞特征進行特征融合,獲得第一融合特征序列,包括:

    5.根據權利要求2或4所述的方法,其特征在于,所述降維矩陣的矩陣維度和所述升維矩陣的矩陣維度的確定步驟,包括:

    6.根據權利要求1所述的方法,其特征在于,所述根據所述預測核心內容與所述樣本音視頻對應的樣本核心內容之間的差異,對所述跨模態投射層和所述低秩適配器進行微調訓練,獲得核心內容生成模型,包括:

    7.根據權利要求1所述的方法,其特征在于,所述跨模態投射層包括第一變換矩陣和第二變換矩陣,所述第一變換矩陣用于將所述第一視覺特征序列投射為所述第二視覺特征序列,所述第二變換矩陣用于將所述第一音頻特征序列投射為所述第二音頻特征序列;所述第一變換矩陣的矩陣維度和第二變換矩陣的矩陣維度的確定步驟,包括:

    8.根據權利要求1所述的方法,其特征在于,所述方法還包括:

    9.根據權利要求1所述的方法,其特征在于,所述方法還包括:

    10.根據權利要求9所述的方法,其特征在于,所述方法還包括:

    11.根據權利要求10所述的方法,其特征在于,所述方法還包括:

    12.一種音視頻的核心內容處理裝置,其特征在于,所述裝置包括:特征投射單元、特征融合單元、核心內容生成單元和微調訓練單元;

    13.一種計算機設備,其特征在于,所述計算機設備包括處理器以及存儲器:

    14.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于存儲計算機程序,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行權利要求1-11任一項所述的方法。

    15.一種計算機程序產品,包括計算機程序,其特征在于,當所述計算機程序在計算機設備上運行時,使得所述計算機設備執行權利要求1-11任一項所述的方法。


    技術總結
    本申請公開一種音視頻的核心內容處理方法及相關裝置。該方法:將樣本音視頻中的關鍵幀序列的第一視覺特征序列、樣本音視頻的音頻分幀序列的第一音頻特征序列,輸入預設生成模型中的跨模態投射層,輸出符合預設生成模型的文本嵌入維度的第二視覺特征序列和第二音頻特征序列;將第二視覺特征序列、第二音頻特征序列、核心內容生成提示詞的提示詞特征,輸入預設生成模型中的注意力層和低秩適配器,輸出第一融合特征序列;將第一融合特征序列輸入預設生成模型中的生成層,輸出樣本音視頻的預測核心內容;基于預測核心內容與樣本音視頻對應的樣本核心內容之間的差異,微調訓練跨模態投射層和低秩適配器,得到核心內容生成模型。

    技術研發人員:郝彥超
    受保護的技術使用者:騰訊科技(深圳)有限公司
    技術研發日:
    技術公布日:2026/6/5
    網友詢問留言 留言:0條
    • 還沒有人留言評論。精彩留言會獲得點贊!
    主站蜘蛛池模板: 国产成AV人片久青草影院| 成人区人妻精品一| 青草国产超碰人人添人人碱| 99久久精品费精品国产一区二| 国产精品天天搞天天搞| 久久精品亚洲成人av| 色偷偷av一区二区三区| 国产第1页| 亚洲日本中文字幕天天更新| 日韩在线一区二区| 伊人中文在线最新版天堂| 久久久WWW成人免费精品| 91免费高清网站| 成人免费av高清在线| 欧美视频专区一二在线观看| 国内自拍av在线免费| 亚洲天堂一区二区成人在线| 东京AV丝袜热在线| 精品久久中文久久久| 国产老熟女伦老熟妇露脸| 国产精品护士| 久久国产自偷自偷免费一区| 亚洲一区视频| 狠狠色综合网站久久久久久久| 国产地址二永久伊甸园| 日本一区不卡高清更新二区| 国产亚洲av综合三区| 欧美另类3| 国产综合色在线精品| 亚洲精品无码永久在线观看性色| 中文字幕乱妇无码AV在线| 国产老熟女狂叫对白| www.18av| 四虎国产精品永久地址99| 欧美不卡无线在线一二三区观| 日韩在线视频线观看一区| 国产在线观看免费观看不卡| 医院人妻闷声隔着帘子被中出 | 国产亚洲精品自在久久vr| 少妇|91最新-91PORNY|九色| 桃花影视无码专区一区二区|