MONO BRAIN 開源實踐性AI安全驗證環境「Model Security Range」
MONO BRAIN 開源了實踐性AI安全驗證環境「Model Security Range」,透過可重現的攻擊情境,如提示注入和工具濫用,讓使用者學習安全的AI操作。
📋 文章處理履歷
- 📰 發表: 2026年4月2日 22:30
株式會社MONO BRAIN(總公司:東京都澀谷區,代表董事:加藤 真規)宣布開源發布實踐性AI安全驗證環境「Model Security Range」。

什麼是Model Security Range?
「Model Security Range」是一個框架,允許對故意存在漏洞的AI應用程式執行可重現的攻擊、評估和恢復程序。它被配置為能夠在實作層面而非僅僅理論層面,驗證在實際操作中容易出現問題的攻擊類別,例如提示注入、工具權限濫用和模型污染。
▼ GitHub儲存庫(免費公開)
https://github.com/monobrain-development/model-security-range
■ 本次公開的重點
・可執行的AI漏洞情境,以應用程式主體和攻擊程式碼的組合形式公開。
・標準化設定、攻擊執行和恢復,實現高度可重現的驗證。
・可跨RAG、代理、OCR、機器學習模型等多種模式進行評估。
・AI開發者、安全負責人、研究人員可作為共同驗證平台使用。
■ 公開背景
儘管生成式AI在業務中的應用不斷推進,但對AI系統的威脅已無法僅憑傳統的網路安全來全面掌握。
例如,由於提示注入導致的內部資訊洩露、與外部工具連結時過度權限的濫用、以及針對營運數據或學習過程的污染攻擊等,AI特有的攻擊面正在迅速擴大。
然而,在實務中,仍然存在「無法重現攻擊,因此無法評估對策的有效性」和「負責人驗證方法不同,無法比較結果」等問題。
「Model Security Range」旨在解決這些實務挑戰。透過明確攻擊步驟和評估目標,並提供一個無論誰執行都能在相同條件下進行驗證的環境,從而推動AI安全的實作和營運。
■ Model Security Range概述
「Model Security Range」的構成理念如下:
・準備故意存在漏洞的應用程式,明確攻擊成立條件。
・針對每個攻擊情境,獨立管理設定、執行和恢復。
・提供強調可重現性、透明度和可測量性的驗證工作流程。
・不僅適用於一次性演示,還可用於持續的強化學習。
■ 目前公開的主要驗證情境
1. 提示注入(RAG聊天機器人 / Gemma 3 4B)
・透過注入RAG上下文導致機密資訊洩露
・誘導揭露嵌入式知識檔案
・系統提示洩露
2. 工具濫用(帶資料庫的代理 / Gemma 3 4B)
・透過濫用過度權限工具導致數據外洩
・透過命令劫持執行破壞性SQL
3. 間接提示注入(AI OCR / Gemma 3 4B)
・透過檔案上傳間接誘導越獄
4. 供應鏈漏洞(信用評估 / ML)
・受污染學習成果導致的目標式後門行為
5. 數據污染(垃圾郵件分類 / ML)
・透過利用回饋迴圈導致分類器性能下降
■ 使用情境
・內部AI應用程式發布前的安全驗證
・紅隊/藍隊聯合演習
・開發者教育、實作訓練、研究用途的攻擊重現
・實施對策後的迴歸確認
■ 推薦給以下人士
・開發和營運利用生成式AI產品的工程師
・希望建立AI安全評估標準程序的安全負責人
・推進AI風險實證研究的研究人員、學生
・負責AI治理和審計合規的實務人員
■ 使用注意事項
本專案為教育和驗證目的而公開。公開的情境中故意包含脆弱的實作。
請勿將其用於攻擊生產環境或未經授權的目標。請遵守適用法律、組織政策和合約條款,並在受控環境中使用。
■ 關於AI安全平台「MODEL SAFE」
「MODEL SAFE」是一個AI安全平台,支援AI設計、開發、營運的整合管理,協助AI以「事後可解釋的狀態」運行。
透過AI供應鏈的可視化、變更管理、運行時監控和控制,全面支援技術安全性、營運統制和法規遵循。
正在建立治理體系或可視化風險的企業,歡迎洽詢。
▼ 洽詢
▼ MODEL SAFE 服務介紹
常見問題
什麼是Model Security Range?
它是一個開源驗證框架,允許對故意存在漏洞的AI應用程式執行可重現的攻擊、評估和恢復程序。
可以驗證哪些攻擊情境?
涵蓋範圍廣泛,包括提示注入、工具濫用、間接提示注入、供應鏈漏洞和數據污染等。
誰可以使用它?
AI開發者、安全人員、研究人員、學生以及AI治理和審計合規的實務人員等廣泛用戶都可以使用。