本發明涉及一種基于擴散模型的水下場景多模態生成方法,屬于計算機視覺與圖像生成。
背景技術:
1、隨著計算機視覺技術的發展,水下數據在海洋探測、水下機器人以及自主導航等領域具有重要應用價值。然而,由于水下環境復雜多變,光照衰減嚴重、散射效應明顯,導致高質量數據采集成本高、難度大,現有水下數據集規模有限,難以滿足深度學習模型對大規模數據的需求。此外,水下場景數據通常包含圖像、語義分割、深度信息及表面法向等多種模態,這些模態在語義和幾何層面具有強關聯性?,F有方法多針對單一模態進行建模,或采用松耦合方式處理多模態數據,難以實現統一建模,導致生成結果在結構一致性和語義一致性方面存在不足。近年來,擴散模型在圖像生成領域取得了顯著進展,但現有擴散模型大多應用于單模態生成任務,缺乏對多模態信息的統一建模能力。因此,亟需一種能夠統一生成多模態信息并增強結構一致性的水下場景生成方法。
技術實現思路
1、本發明的目的在于提供一種基于擴散模型的水下場景多模態生成方法(umdm-usg),以解決現有技術中水下數據獲取困難、多模態標注不足以及生成結果跨模態一致性差的問題。
2、基于擴散模型的水下場景多模態生成方法,其特征是包括如下步驟:
3、(1)采集多個原始水下圖像,通過該圖像生成深度圖、語義分割圖、表面法向圖以及文本信息,從而得到多個五元組多模態。
4、所述原始水下圖像也可采用各種水下數據集。所述原始水下圖像及其深度圖、語義分割圖、表面法向圖統稱視覺模態,文本信息為文本模態。
5、(2)?通過文本編碼器和視覺編碼器對所述五元組多模態進行特征編碼,將其數據化。從而將圖像與文本加工成便于使用的數字化結構。
6、(3)通過角色分配模塊將各五元組多模態的五個模態隨機劃分為生成模態與條件模態,生成模態與條件模態數量不少于一個,且文本模態僅作條件模態使用,生成模態用于作為擴散模型的預測目標,條件模態用于為生成模態提供條件約束信息。
7、所有五元組多模態數據的生成模態構成生成模態集合,所有五元組多模態數據的條件模態構成條件模態集合。
8、(4)?將所述生成模態的集合與條件模態的集合輸入多模態對齊模塊,所述多模態對齊模塊包括:
9、(4.1)全局對齊注意力,用于對輸入的各非文本模態進行統一建模以獲得全局對齊特征;
10、(4.2)生成條件對齊注意力,用于構建生成模態與條件模態之間的生成條件聯合特征;
11、(4.3)門控融合模塊,用于將(4.1)生成的全局對齊特征與(4.2)生成的生成條件聯合特征進行加權融合,生成多模態特征;
12、(4.4)交叉注意力,當條件模態含有文本時,用于將文本語義信息注入所述多模態特征中得到聯合表示。
13、(5)將所述多模態特征或聯合表示輸入至多層感知機mlp中分離出各模態,再輸入至解碼器,將其中生成模態對應的解碼結果進行輸出。
14、(6)通過步驟(1)-步驟(5)訓練得到水下場景多模態模型。
15、(7)模型的部署:
16、當訓練完成之后,在實際應用中,輸入五元組多模態中的任意一種條件模態,模型輸出除條件模態及文本模態以外的其他模態。
17、步驟(1)中,所述深度圖、語義分割圖和表面法向圖是對所述原始水下圖像分別通過預訓練的深度估計模型、語義分割模型和表面法向估計模型進行處理,從而生成對應的深度圖、語義分割圖和表面法向圖;所述文本信息是將所述原始水下圖像輸入預訓練的大語言模型而生成;以此構建出包含原始圖像、語義分割圖、深度圖、表面法向圖及文本信息的多個五元組多模態數據。
18、步驟(1)所述多模態數據構建過程中,所述預訓練深度估計模型使用priorda和vggt,提取圖像的幾何結構信息,語義分割模型采用watermask、watersam?和?spda-sam,獲取像素級語義類別信息,表面法向估計模型采用stablenormal、dsine和?lotus,描述物體表面的空間方向信息。
19、步驟(2)所述文本編碼器采用gemma3,視覺編碼器采用深度壓縮自編碼器。
20、所述步驟(4)是針對跨模態結構一致性不足的問題,通過構建多模態對齊模塊,實現多模態之間的聯合建模與信息交互,其中:
21、(4.1)全局對齊注意力:
22、將各個五元組多模態數據中,除文本外的各模態潛在特征在token維度進行拼接,構建統一的全局序列表示,并采用線性自注意力機制對該序列進行建模,以捕獲不同模態之間的長程依賴關系,從而獲得全局對齊特征;
23、(4.2)生成條件對齊注意力:
24、根據角色分配結果,以生成模態特征作為查詢,以條件模態特征作為鍵和值,構建跨模態注意力,實現生成模態對條件模態的對齊;同時,以條件模態為查詢、生成模態為鍵和值,構建反向對齊關系,從而形成生成模態與條件模態之間雙向對齊的生成條件聯合特征(即建立了跨模態對齊關系);
25、(4.3)門控融合模塊:
26、對全局對齊特征與生成條件聯合特征進行自適應加權融合,并通過反向傳播動態調整權重參數,以獲得多模態特征;
27、(4.4)文本交叉注意力:
28、利用文本編碼器輸出與多模態特征進行交叉注意力計算,將文本語義信息注入多模態表示中,實現語義層面的對齊,得到聯合表示。
29、步驟(5)所述解碼器采用深度壓縮自解碼器。
30、步驟(6)中,訓練時,模型優化過程采用重建損失與表征對齊正則化的聯合損失函數對模型進行訓練,其中:
31、所述重建損失用于約束擴散模型在去噪過程中的預測精度,使生成結果在像素空間或潛在表示空間中接近真實數據分布;
32、所述表征對齊正則化用于對模型中間特征施加約束,通過引入預訓練視覺特征提取模型獲取真實多模態數據的特征表示,并將模型中間隱藏特征映射至相同特征空間,使兩者在特征層面保持一致,從而引導模型學習符合自然場景統計特性的結構表示;
33、所述聯合損失通過加權方式組合重建損失與表征對齊正則化,以平衡生成精度與多模態結構一致性。
34、步驟(7)具體如下:當訓練完成之后,在實際應用中,輸入五元組多模態中五種以下任意組合的模態作為條件模態,且文本模態只作為條件模態,除條件模態之外的作為生成模態,執行(2)將各條件模態數據化,將其拼接起來執行(4.1)全局對齊注意力獲得全局對齊特征,然后執行(4.2)生成條件對齊注意力,以所述條件模態為鍵和值,以條件模態所對應的生成模態為查詢,得到生成條件聯合特征;并通過步驟(4.3)的門控融合模塊將全局對齊特征與生成條件聯合特征進行加權融合生成多模態特征;當存在文本信息時執行(4.4)交叉注意力,用于引入語義信息得到聯合表示;最后將所述多模態特征或聯合表示輸入至多層感知機中分離出各模態,再輸入至解碼器,將生成模態對應的解碼結果進行輸出,從而實現基于各種條件模態的多模態生成。
35、所述方法應用于水下場景多模態數據生成,通過將五元組多模態中的任意一種條件模態作為輸入,從而生成除文本模態以外的其余模態,作為補充數據或輔助數據應用于水下視覺任務。
36、發明優點
37、與現有技術相比,本發明具有顯著優點。本發明基于統一擴散框架對水下場景中的圖像、語義分割、深度及表面法向等多模態信息進行聯合建模,避免了傳統方法中采用外掛式或獨立模態對齊模塊所帶來的結構割裂與信息利用不充分的問題,通過構建統一的多模態對齊模塊,實現所有模態在同一特征空間中的協同對齊,從而顯著提升跨模態之間的結構一致性與語義一致性。同時,本發明通過引入生成條件對齊注意力,顯式建模生成模態與條件模態之間的雙向依賴關系,使生成過程能夠有效利用條件模態中的結構約束信息,進一步提高生成結果的幾何合理性與細節表達能力。此外,通過門控融合機制對全局對齊信息與局部條件約束信息進行自適應平衡,使模型在復雜水下場景中能夠同時兼顧整體結構一致性與局部細節刻畫能力。進一步地,本發明引入表征對齊正則化策略,通過預訓練視覺模型提供的特征先驗對模型中間表示進行約束,使生成分布更加接近真實自然場景,從而提高模型訓練穩定性并加快收斂速度。
38、綜上,本發明不僅能夠有效提升多模態生成結果的質量與一致性,還能夠生成高質量多模態數據,為水下語義分割、深度估計及法向估計等下游任務提供可靠的數據支持,具有良好的應用前景和推廣價值。