• <rt id="52juo"></rt>
    <form id="52juo"><optgroup id="52juo"></optgroup></form>
    av午夜福利一片免费看久久,熟女精品色一区二区三区,亚洲一区二区三级av,好男人日本社区www,四虎永久精品免费视频,国产成人av免费网址,国产自产对白一区,九九热在线视频精品免费

    基于提示向量與CLIP獎懲機制的圖像描述方法及裝置

    文檔序號:45273609發布日期:2026-04-17 20:17閱讀:18來源:國知局

    本發明屬于圖像描述,尤其涉及一種基于提示向量與clip獎懲機制的圖像描述方法及裝置。


    背景技術:

    1、近年來,隨著深度學習技術和多模態智能技術的快速發展,視覺-語言聯合建模逐漸成為圖像描述與語義生成領域的重要研究方向。基于大規模圖像-文本數據訓練的預訓練視覺-語言模型,在圖像描述與語言生成任務中展現出良好的通用性,為復雜場景下的圖像描述提供了新的技術手段。

    2、在實際應用中,圖像描述技術已被廣泛應用于目標描述、場景理解、人機交互等任務。然而,在復雜場景下,圖像中往往存在目標模糊、關鍵信息缺失、背景噪聲干擾嚴重以及目標語義不確定等問題,使得模型難以準確理解圖像所包含的核心語義信息,對語義生成方法的魯棒性和可靠性提出了更高要求。

    3、現有的語義生成方法通常依賴預訓練視覺-語言模型,通過引入提示信息或微調映射網絡實現圖像到文本的語義生成。從實現方式上看,相關方案大多通過以下途徑完成語義生成任務:一是利用大規模圖像-文本對對模型進行監督訓練,使模型學習圖像與文本之間的對應關系;二是直接利用預訓練模型的零樣本能力,在推理階段通過提示詞引導模型生成描述文本;三是通過自監督方式訓練語言生成模塊,依賴預訓練模型的跨域遷移能力實現圖像語義表達。

    4、上述方法在標準場景或信息完備條件下能夠取得一定效果,但在復雜場景中,由于圖像信息不完整或目標語義存在不確定性,模型往往難以準確聚焦于圖像中的關鍵目標,生成結果容易受到語言先驗或外部文本信息的影響,導致語義偏移或生成內容與圖像事實不一致的問題。因此,如何在復雜場景下實現穩定、可信的圖像語義生成,仍是現有技術需要解決的關鍵問題。


    技術實現思路

    1、本發明的目的是提供一種基于提示向量與clip獎懲機制的圖像描述方法及裝置,以在提升語義描述的語言邏輯性的同時抑制視覺幻覺現象。

    2、本發明采用以下技術方案:基于提示向量與clip獎懲機制的圖像描述方法,包括以下步驟:

    3、獲取輸入圖像;

    4、基于clip模型的圖像編碼器生成輸入圖像的圖像嵌入向量,基于圖像嵌入向量從預設文本庫中篩選出輸入圖像的若干個近鄰文本;

    5、基于clip模型的文本編碼器生成近鄰文本的文本嵌入向量,并根據其他近鄰文本的文本嵌入向量對當前近鄰文本的文本嵌入向量進行加權處理,將加權處理后的所有文本嵌入向量作為輸入圖像的軟提示并輸入語義生成解碼器;

    6、語義生成解碼器根據軟提示和硬提示生成輸入圖像的語義描述;其中,硬提示為近鄰文本中的關鍵詞組成的詞組。

    7、本發明的另一種技術方案:基于提示向量與clip獎懲機制的圖像描述裝置,包括存儲器、處理器以及存儲在存儲器中并在處理器上運行的計算機程序,處理器執行計算機程序時實現上述的方法。

    8、本發明的有益效果是:本發明方法基于檢索增強的軟提示機制,利用預設文本庫篩選并加權近鄰文本,引導語義生成解碼器學習符合自然語言邏輯的語義風格,同時結合硬提示能有效抑制視覺幻覺現象,并提升對實體以及關系的理解能力,使輸出的語義描述更符合輸入圖像的特征。


    技術特征:

    1.基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,包括以下步驟:

    2.如權利要求1所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述加權處理的方法包括:

    3.如權利要求2所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述硬提示的生成方法為:

    4.如權利要求2或3所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,凍結所述clip模型的文本編碼器和圖像編碼器。

    5.如權利要求4所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,從所述預設文本庫中選擇候選文本作為輸入文本來替代所述輸入圖像。

    6.如權利要求5所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時:

    7.如權利要求6所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,隨機丟棄預定比例的關鍵詞。

    8.如權利要求5-7任一項所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,在所述語義生成解碼器進行訓練時,損失函數包括帶有標簽平滑的交叉熵損失函數;

    9.如權利要求8所述的基于提示向量與clip獎懲機制的圖像描述方法,其特征在于,所述損失函數還包括向量對齊損失函數;

    10.基于提示向量與clip獎懲機制的圖像描述裝置,包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1-9任一項所述的方法。


    技術總結
    本發明屬于圖像描述技術領域,公開了基于提示向量與CLIP獎懲機制的圖像描述方法及裝置,獲取輸入圖像;基于CLIP模型的圖像編碼器生成輸入圖像的圖像嵌入向量,基于圖像嵌入向量從預設文本庫中篩選出輸入圖像的若干個近鄰文本;基于CLIP模型的文本編碼器生成近鄰文本的文本嵌入向量,并根據其他近鄰文本的文本嵌入向量對當前近鄰文本的文本嵌入向量進行加權處理,將加權處理后的所有文本嵌入向量作為輸入圖像的軟提示并輸入語義生成解碼器;語義生成解碼器根據軟提示和硬提示生成輸入圖像的語義描述;本發明方法可以在提升語義描述的語言邏輯性的同時抑制視覺幻覺現象,使輸出的語義描述更符合輸入圖像的特征。

    技術研發人員:張作偉,申瑞,劉傳琦,王祎琨,劉宏偉,段一得,楊才興
    受保護的技術使用者:西北工業大學
    技術研發日:
    技術公布日:2026/4/16
    網友詢問留言 留言:0條
    • 還沒有人留言評論。精彩留言會獲得點贊!
    主站蜘蛛池模板: 国产午夜亚洲精品国产成人| 天天摸天天做天天爽| 久操无码| 人妻少妇精品视频三区二区一区| 国产亚洲精品中文字幕| 精品在线wwwww| 妇女性内射冈站hdwww000| 亚洲无码在线播放| 伊人色影院| 精品亚洲成人免费在线| 在线a人片免费观看| 欧美日本在线一区二区三区| 夜夜躁很很躁日日躁麻豆| 日韩一卡二卡3卡四卡2021精品| 亚洲不卡一区在线播放| 亚洲免费的福利片| 国产成人精品亚洲资源| 超碰97人人天天蜜芽| 天堂中文字幕| 亚洲黄色一级片在线观看| 国产仑乱无码内谢| 色婷婷久久综合中文久久一本` | 色哟哟国产成人精品| 亚洲另类在线制服丝袜国产 | 九九在线视频| 国产乱子伦视频在线播放| AV大帝| 人妻国产精品在线| 麻豆视频网页麻豆美女视频 | 第一福利成人AV导航| 美女无遮挡免费视频网站| 国产美女爽到喷出水来视频| 亚洲区一区二区三区亚洲| 国产18女人毛片真多水| 公交车上拨开少妇内裤进入| 亚洲乱理伦片在线观看中字| 日韩精品卡1卡2日韩在线| 久草精品视频| 亚洲网站一区| 国产在线观看人成激情视频| 99在线精品国自产拍不卡|