• <rt id="52juo"></rt>
    <form id="52juo"><optgroup id="52juo"></optgroup></form>
    av午夜福利一片免费看久久,熟女精品色一区二区三区,亚洲一区二区三级av,好男人日本社区www,四虎永久精品免费视频,国产成人av免费网址,国产自产对白一区,九九热在线视频精品免费

    一種具身智能的越獄攻擊檢測方法、系統及設備

    文檔序號:45765506發布日期:2026-06-10 01:04閱讀:1來源:國知局

    本申請涉及具身智能領域,特別是涉及一種具身智能的越獄攻擊檢測方法、系統及設備。


    背景技術:

    1、隨著大語言模型(large?language?model,llm)?在具身智能領域的應用,具身智能獲得了理解自然語言并將其轉化為控制策略代碼的能力。然而,llm本身存在安全漏洞,容易受到越獄攻擊的影響。

    2、現有技術存在的問題:目前的越獄攻擊研究主要集中在純文本對話領域。當直接將這些攻擊方法(如gcg,gptfuzzer)應用于具身智能時,存在嚴重的不適用性:

    3、優化目標偏差:傳統越獄攻擊僅優化“讓模型不拒絕”,但未考慮生成的控制策略代碼是否符合python語法或具身智能api規范。導致模型雖然同意了請求,但生成的控制策略代碼無法執行和產生有害行為。

    4、評估標準失效:傳統評估僅看回復中是否有敏感詞。但在具身智能領域,必須代碼能運行且產生物理傷害才算成功。現有評估器無法檢測控制策略代碼的有效性。


    技術實現思路

    1、本申請的目的是提供一種具身智能的越獄攻擊檢測方法、系統及設備,以解決無法檢測控制策略代碼的有效性的問題。

    2、為實現上述目的,本申請提供了如下方案:

    3、第一方面,本申請提供了一種具身智能的越獄攻擊檢測方法,包括:

    4、構建以“人-物體-環境“風險為中心的具身智能安全數據集;所述具身智能安全數據集包括有害指令和對應的仿真場景;

    5、隨機初始化對抗后綴,并設置單詞級約束;所述單詞級約束用于限定所述對抗后綴的token必須為可發音的英文單詞,且具備可發音性;

    6、基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數;所述輔助llm,為未對齊模型,用于將有害指令直接映射至策略有效的語義子空間;所述目標llm為對齊模型;

    7、計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴;

    8、將附加有所述優化后的對抗后綴的有害指令輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼;

    9、利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄。

    10、第二方面,本申請提供了一種具身智能的越獄攻擊檢測系統,包括:

    11、具身智能安全風險數據集構建模塊,用于構建以“人-物體-環境“風險為中心的具身智能安全數據集;所述具身智能安全數據集包括有害指令和對應的仿真場景;

    12、初始化模塊,用于隨機初始化對抗后綴,并設置單詞級約束;所述單詞級約束用于限定所述對抗后綴的token必須為可發音的英文單詞,且具備可發音性;

    13、損失函數確定模塊,用于基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數;所述輔助llm,為未對齊模型,用于將有害指令直接映射至策略有效的語義子空間;所述目標llm為對齊模型;

    14、對抗后綴優化模塊,用于計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴;

    15、控制策略代碼生成模塊,用于將附加有所述優化后的對抗后綴的有害指令輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼;

    16、自動化評估模塊,用于利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄。

    17、第三方面,本申請提供了一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序以實現上述的具身智能的越獄攻擊檢測方法。

    18、根據本申請提供的具體實施例,本申請具有以下技術效果:

    19、本申請構建以“人-物體-環境“風險為中心的具身智能安全數據集,隨機初始化對抗后綴,并設置單詞級約束,使得生成的對抗后綴由發音正常的英文單詞組成,而非亂碼,確保了攻擊可以通過語音通道對具身智能實施,又基于輔助llm和目標llm,根據有害指令和對抗后綴,確定損失函數,其中,輔助llm為未對齊模型,利用未對齊模型引導,使得生成的攻擊指令在多個目標llm上的物理執行成功率顯著提高,降低了優化目標偏差;計算損失函數相對于對抗后綴中每個token的梯度,更新對抗后綴,確定優化后的對抗后綴,以輸入至目標具身智能的基于llm的規劃模塊中,生成控制策略代碼,該控制策略代碼不僅包含惡意意圖,而且符合具身智能的物理約束,從而解決了現有生成的代碼空有惡意而無法運行的問題,保證了生成的控制策略代碼具備物理可執行性,避免了評估標準失效的問題,提高了控制策略代的有效性并提升了具身智能控制策略代碼有效性評估準確率。


    技術特征:

    1.一種具身智能的越獄攻擊檢測方法,其特征在于,包括:

    2.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,基于輔助llm和目標llm,根據所述有害指令和所述對抗后綴,確定損失函數,具體包括:

    3.根據權利要求2所述的具身智能的越獄攻擊檢測方法,其特征在于,所述損失函數為:

    4.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,計算所述損失函數相對于所述對抗后綴中每個token的梯度,并依據所述梯度更新所述對抗后綴,確定優化后的對抗后綴,具體包括:

    5.根據權利要求1所述的具身智能的越獄攻擊檢測方法,其特征在于,所述多個級聯的llm智能體包括接受性智能體、有害性智能體、邏輯性智能體以及簡潔性智能體。

    6.根據權利要求5所述的具身智能的越獄攻擊檢測方法,其特征在于,利用多個級聯的llm智能體對所述控制策略代碼進行自動化評估,判定是否構成有效越獄,具體包括:

    7.一種具身智能的越獄攻擊檢測系統,其特征在于,所述具身智能的越獄攻擊檢測系統執行權利要求1-6任一項所述的具身智能的越獄攻擊檢測方法,所述具身智能的越獄攻擊檢測系統包括:

    8.一種計算機設備,包括:存儲器、處理器以及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序以實現權利要求1-6中任一項所述的具身智能的越獄攻擊檢測方法。


    技術總結
    本申請公開了一種具身智能的越獄攻擊檢測方法、系統及設備,涉及具身智能領域,該方法包括:構建以“人?物體?環境“風險為中心的具身智能安全數據集;隨機初始化對抗后綴,并設置單詞級約束;基于輔助LLM和目標LLM,根據有害指令和對抗后綴,確定損失函數;計算損失函數相對于對抗后綴中每個Token的梯度,并依據梯度更新對抗后綴,確定優化后的對抗后綴;將附加有優化后的對抗后綴的有害指令輸入至目標具身智能的基于LLM的規劃模塊中,生成控制策略代碼;利用多個級聯的LLM模型智能體對控制策略代碼進行自動化評估,判定是否構成有效越獄,本申請提高了控制策略代的有效性,并提升了具身智能控制策略代碼有效性評估準確率。

    技術研發人員:冀曉宇,徐文淵,陸炫存
    受保護的技術使用者:浙江大學
    技術研發日:
    技術公布日:2026/6/9
    網友詢問留言 留言:0條
    • 還沒有人留言評論。精彩留言會獲得點贊!
    主站蜘蛛池模板: 男人天堂网2020| 亚洲综合图片区| 国内精品无码一区二区三区| 国产精品免费中文字幕| 亚洲成人在线网址| 久草天堂| 熟妇丰满人妻av无码区| 国产精品色哟哟成人av| 无遮挡免费高清羞羞视频| 午夜三级成人在线观看| jizz欧美| 亚洲av综合久久成人网| 亚洲18禁私人影院| av在线亚洲男人天堂| 欧美寡妇xxxx黑人猛交| 国产精品aⅴ免费视频| 色婷婷综合久久久久中文一区二区 | 国产成人a∨激情视频厨房| 一级做a爰全过程免费视频| 人妻 日韩精品 中文字幕| 国产亚洲欧美日韩俺去了| 四川丰满少妇被弄到高潮| 亚洲AV永久天堂在线观看| 国产精品13页| 中文文字幕文字幕亚洲色| 久久天天躁夜夜躁狠狠85| 肉色超薄丝袜脚交一区二区| 亚洲欭美日韩颜射在线二 | 国产av成人精品播放| 深夜A级毛片免费无码 | av新版天堂在线观看| 国产成人8X人网站视频| 色综合久久综合欧美综合网| 好紧好爽好湿别拔出来视频男男| 亚洲男同志网站| 亚洲人成人网站18禁| 亚洲人成色7777在线观看不卡 | 污网站在线看| 亚洲成av一区二区三区| 制服丝袜美腿一区二区| 热99re久久精品这里都是精品|