Aladdin Security的「複合越獄」研究論文獲國際人工智慧與網路安全會議(AISEC 2026)及人工智慧學會全國大會(JSAI 2026)採納
Aladdin Security關於「複合越獄」的研究論文已獲國際人工智慧與網路安全會議(AISEC 2026)和人工智慧學會全國大會(JSAI 2026)採納。這項研究從理論和實證兩方面證明,LLM安全機制可透過結合單獨可預防的攻擊來繞過。
📋 文章處理履歷
- 📰 發表: 2026年5月1日 19:10
- 🔍 收集: 2026年5月1日 10:31
- 🤖 AI分析完成: 2026年5月1日 23:49(收集後13小時17分鐘)
Aladdin Security株式會社(總部:京都市京都府,代表取締役CEO:勘佐 圭吾)宣布,其研究團隊關於大型語言模型(LLM)安全性評估的研究論文「Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks(強化學習對齊的泛化限制:透過複合越獄檢測LLM漏洞)」已獲兩項會議採納:專門處理AI與網路安全交叉領域的國際學術會議「國際人工智慧與網路安全會議(AISEC 2026)」,以及日本國內最大規模的人工智慧研究會議「人工智慧學會全國大會(JSAI 2026,第40屆)」。
這項研究從理論和實證兩方面揭示,目前主流的LLM安全機制可以透過結合「單獨可防禦的攻擊」來突破,這項成果直接關係到主權AI(國家主權AI)的主動安全性評估。
關於獲選會議
【國際學術會議】國際人工智慧與網路安全會議(AISEC 2026)
正式名稱:International Conference on Artificial Intelligence and Cybersecurity 2026
定位:專門處理AI與網路安全交叉領域的國際學術會議。這是世界各國研究人員經過同行評審後發表成果的場所,本論文的採納表明Aladdin Security的白盒型AI安全研究已獲得國際認可。
人工智慧學會全國大會(JSAI 2026)
正式名稱:第40屆人工智慧學會全國大會
定位:日本國內最大規模的人工智慧研究會議,匯集了最尖端的AI研究成果。
研究背景 ── 強化學習對齊真的「泛化」了嗎?
自ChatGPT問世以來,LLM在對話、程式碼生成、文件撰寫等廣泛領域得到應用,同時也內含生成有害資訊、假訊息、惡意程式碼等風險。為此,現代LLM實施了結合RLHF(人類回饋強化學習)、Instruction Hierarchy(指令層次)和Deliberative Alignment(審議對齊)等多層次安全機制。
然而,這些方法是否能泛化到未知的攻擊模式尚不明確。近年來的理論研究指出,「透過強化學習進行訓練並非獲得新能力,而僅僅是重新分配現有能力的利用機率」。將此應用於安全訓練,則訓練數據中包含的攻擊模式分佈,可能結構性地限制了安全機制的泛化範圍。
研究概述 ── 「複合越獄(Compound Jailbreaks)」
本研究以OpenAI的開源模型gpt-oss-20b為對象,提出了一種新的攻擊範式「Compound Jailbreaks(複合越獄)」,該範式結合了多種單獨可防禦的攻擊方法,以飽和LLM的認知資源。
核心的複合角色扮演(Compound Role-Playing)結合了以下三個要素:
對比結構(Contrastive Structure):將有害回應和無害回應以Markdown表格形式並置,將有害內容生成合理化為「教育文本」。
權威角色(Authoritative Persona):賦予安全專家、醫療從業人員等角色,暗示有害內容生成的合法性。
自我評估要求(Self-Assessment Demand):要求以JSON格式輸出置信度分數,增加元認知負荷。
與傳統越獄研究不同的是,每個要素並非作為「矛盾」而是作為「認知負荷」發揮作用,飽和了維持指令層次本身的過程。
圖1:結合三個要素,飽和認知資源以規避安全機制的機制。
主要發現
發現1:單一攻擊ASR 14.3% → 複合攻擊ASR 71.4%
在使用生物武器、惡意軟體、網路釣魚、非法藥物、武器製造、詐騙、個人資訊洩露等7個類別共70個提示的評估中,單一方法的攻擊成功率(ASR)為14.3%,透過複合化被證明躍升至71.4%。這是Instruct
這項研究從理論和實證兩方面揭示,目前主流的LLM安全機制可以透過結合「單獨可防禦的攻擊」來突破,這項成果直接關係到主權AI(國家主權AI)的主動安全性評估。
關於獲選會議
【國際學術會議】國際人工智慧與網路安全會議(AISEC 2026)
正式名稱:International Conference on Artificial Intelligence and Cybersecurity 2026
定位:專門處理AI與網路安全交叉領域的國際學術會議。這是世界各國研究人員經過同行評審後發表成果的場所,本論文的採納表明Aladdin Security的白盒型AI安全研究已獲得國際認可。
人工智慧學會全國大會(JSAI 2026)
正式名稱:第40屆人工智慧學會全國大會
定位:日本國內最大規模的人工智慧研究會議,匯集了最尖端的AI研究成果。
研究背景 ── 強化學習對齊真的「泛化」了嗎?
自ChatGPT問世以來,LLM在對話、程式碼生成、文件撰寫等廣泛領域得到應用,同時也內含生成有害資訊、假訊息、惡意程式碼等風險。為此,現代LLM實施了結合RLHF(人類回饋強化學習)、Instruction Hierarchy(指令層次)和Deliberative Alignment(審議對齊)等多層次安全機制。
然而,這些方法是否能泛化到未知的攻擊模式尚不明確。近年來的理論研究指出,「透過強化學習進行訓練並非獲得新能力,而僅僅是重新分配現有能力的利用機率」。將此應用於安全訓練,則訓練數據中包含的攻擊模式分佈,可能結構性地限制了安全機制的泛化範圍。
研究概述 ── 「複合越獄(Compound Jailbreaks)」
本研究以OpenAI的開源模型gpt-oss-20b為對象,提出了一種新的攻擊範式「Compound Jailbreaks(複合越獄)」,該範式結合了多種單獨可防禦的攻擊方法,以飽和LLM的認知資源。
核心的複合角色扮演(Compound Role-Playing)結合了以下三個要素:
對比結構(Contrastive Structure):將有害回應和無害回應以Markdown表格形式並置,將有害內容生成合理化為「教育文本」。
權威角色(Authoritative Persona):賦予安全專家、醫療從業人員等角色,暗示有害內容生成的合法性。
自我評估要求(Self-Assessment Demand):要求以JSON格式輸出置信度分數,增加元認知負荷。
與傳統越獄研究不同的是,每個要素並非作為「矛盾」而是作為「認知負荷」發揮作用,飽和了維持指令層次本身的過程。
圖1:結合三個要素,飽和認知資源以規避安全機制的機制。
主要發現
發現1:單一攻擊ASR 14.3% → 複合攻擊ASR 71.4%
在使用生物武器、惡意軟體、網路釣魚、非法藥物、武器製造、詐騙、個人資訊洩露等7個類別共70個提示的評估中,單一方法的攻擊成功率(ASR)為14.3%,透過複合化被證明躍升至71.4%。這是Instruct