Aladdin Security的「複合越獄」研究論文獲國際人工智慧與網路安全會議（AISEC 2026）及人工智慧學會全國大會（JSAI 2026）採納

2026年5月1日

Aladdin Security關於「複合越獄」的研究論文已獲國際人工智慧與網路安全會議（AISEC 2026）和人工智慧學會全國大會（JSAI 2026）採納。這項研究從理論和實證兩方面證明，LLM安全機制可透過結合單獨可預防的攻擊來繞過。

調査NQ 88/100出典：PR Times

📋 文章處理履歷

📰 發表: 2026年5月1日 19:10
🔍 收集: 2026年5月1日 10:31
🤖 AI分析完成: 2026年5月1日 23:49（收集後13小時17分鐘）

Aladdin Security株式會社（總部：京都市京都府，代表取締役CEO：勘佐圭吾）宣布，其研究團隊關於大型語言模型（LLM）安全性評估的研究論文「Generalization Limits of Reinforcement Learning Alignment: Detecting LLM Vulnerabilities through Compound Jailbreaks（強化學習對齊的泛化限制：透過複合越獄檢測LLM漏洞）」已獲兩項會議採納：專門處理AI與網路安全交叉領域的國際學術會議「國際人工智慧與網路安全會議（AISEC 2026）」，以及日本國內最大規模的人工智慧研究會議「人工智慧學會全國大會（JSAI 2026，第40屆）」。

這項研究從理論和實證兩方面揭示，目前主流的LLM安全機制可以透過結合「單獨可防禦的攻擊」來突破，這項成果直接關係到主權AI（國家主權AI）的主動安全性評估。

關於獲選會議

【國際學術會議】國際人工智慧與網路安全會議（AISEC 2026）

正式名稱：International Conference on Artificial Intelligence and Cybersecurity 2026

定位：專門處理AI與網路安全交叉領域的國際學術會議。這是世界各國研究人員經過同行評審後發表成果的場所，本論文的採納表明Aladdin Security的白盒型AI安全研究已獲得國際認可。

人工智慧學會全國大會（JSAI 2026）

正式名稱：第40屆人工智慧學會全國大會

定位：日本國內最大規模的人工智慧研究會議，匯集了最尖端的AI研究成果。

研究背景 ── 強化學習對齊真的「泛化」了嗎？

自ChatGPT問世以來，LLM在對話、程式碼生成、文件撰寫等廣泛領域得到應用，同時也內含生成有害資訊、假訊息、惡意程式碼等風險。為此，現代LLM實施了結合RLHF（人類回饋強化學習）、Instruction Hierarchy（指令層次）和Deliberative Alignment（審議對齊）等多層次安全機制。

然而，這些方法是否能泛化到未知的攻擊模式尚不明確。近年來的理論研究指出，「透過強化學習進行訓練並非獲得新能力，而僅僅是重新分配現有能力的利用機率」。將此應用於安全訓練，則訓練數據中包含的攻擊模式分佈，可能結構性地限制了安全機制的泛化範圍。

研究概述 ── 「複合越獄（Compound Jailbreaks）」

本研究以OpenAI的開源模型gpt-oss-20b為對象，提出了一種新的攻擊範式「Compound Jailbreaks（複合越獄）」，該範式結合了多種單獨可防禦的攻擊方法，以飽和LLM的認知資源。

核心的複合角色扮演（Compound Role-Playing）結合了以下三個要素：

對比結構（Contrastive Structure）：將有害回應和無害回應以Markdown表格形式並置，將有害內容生成合理化為「教育文本」。

權威角色（Authoritative Persona）：賦予安全專家、醫療從業人員等角色，暗示有害內容生成的合法性。

自我評估要求（Self-Assessment Demand）：要求以JSON格式輸出置信度分數，增加元認知負荷。

與傳統越獄研究不同的是，每個要素並非作為「矛盾」而是作為「認知負荷」發揮作用，飽和了維持指令層次本身的過程。

圖1：結合三個要素，飽和認知資源以規避安全機制的機制。

主要發現

發現1：單一攻擊ASR 14.3% → 複合攻擊ASR 71.4%

在使用生物武器、惡意軟體、網路釣魚、非法藥物、武器製造、詐騙、個人資訊洩露等7個類別共70個提示的評估中，單一方法的攻擊成功率（ASR）為14.3%，透過複合化被證明躍升至71.4%。這是Instruct

返回 Newsroom (3)