MONO BRAIN 開源實踐性AI安全驗證環境「Model Security Range」

MONO BRAIN 開源了實踐性AI安全驗證環境「Model Security Range」,透過可重現的攻擊情境,如提示注入和工具濫用,讓使用者學習安全的AI操作。
企業向けシステム・通信・機器,サイバーセキュリティNQ 100/100出典:PR Times

📋 文章處理履歷

  • 📰 發表: 2026年4月2日 22:30

株式會社MONO BRAIN(總公司:東京都澀谷區,代表董事:加藤 真規)宣布開源發布實踐性AI安全驗證環境「Model Security Range」。

什麼是Model Security Range?

「Model Security Range」是一個框架,允許對故意存在漏洞的AI應用程式執行可重現的攻擊、評估和恢復程序。它被配置為能夠在實作層面而非僅僅理論層面,驗證在實際操作中容易出現問題的攻擊類別,例如提示注入、工具權限濫用和模型污染。

■ 本次公開的重點

・可執行的AI漏洞情境,以應用程式主體和攻擊程式碼的組合形式公開。

・標準化設定、攻擊執行和恢復,實現高度可重現的驗證。

・可跨RAG、代理、OCR、機器學習模型等多種模式進行評估。

・AI開發者、安全負責人、研究人員可作為共同驗證平台使用。

■ 公開背景

儘管生成式AI在業務中的應用不斷推進,但對AI系統的威脅已無法僅憑傳統的網路安全來全面掌握。

例如,由於提示注入導致的內部資訊洩露、與外部工具連結時過度權限的濫用、以及針對營運數據或學習過程的污染攻擊等,AI特有的攻擊面正在迅速擴大。

然而,在實務中,仍然存在「無法重現攻擊,因此無法評估對策的有效性」和「負責人驗證方法不同,無法比較結果」等問題。

「Model Security Range」旨在解決這些實務挑戰。透過明確攻擊步驟和評估目標,並提供一個無論誰執行都能在相同條件下進行驗證的環境,從而推動AI安全的實作和營運。

■ Model Security Range概述

「Model Security Range」的構成理念如下:

・準備故意存在漏洞的應用程式,明確攻擊成立條件。

・針對每個攻擊情境,獨立管理設定、執行和恢復。

・提供強調可重現性、透明度和可測量性的驗證工作流程。

・不僅適用於一次性演示,還可用於持續的強化學習。

■ 目前公開的主要驗證情境

1. 提示注入(RAG聊天機器人 / Gemma 3 4B)

・透過注入RAG上下文導致機密資訊洩露

・誘導揭露嵌入式知識檔案

・系統提示洩露

2. 工具濫用(帶資料庫的代理 / Gemma 3 4B)

・透過濫用過度權限工具導致數據外洩

・透過命令劫持執行破壞性SQL

3. 間接提示注入(AI OCR / Gemma 3 4B)

・透過檔案上傳間接誘導越獄

4. 供應鏈漏洞(信用評估 / ML)

・受污染學習成果導致的目標式後門行為

5. 數據污染(垃圾郵件分類 / ML)

・透過利用回饋迴圈導致分類器性能下降

■ 使用情境

・內部AI應用程式發布前的安全驗證

・紅隊/藍隊聯合演習

・開發者教育、實作訓練、研究用途的攻擊重現

・實施對策後的迴歸確認

■ 推薦給以下人士

・開發和營運利用生成式AI產品的工程師

・希望建立AI安全評估標準程序的安全負責人

・推進AI風險實證研究的研究人員、學生

・負責AI治理和審計合規的實務人員

■ 使用注意事項

本專案為教育和驗證目的而公開。公開的情境中故意包含脆弱的實作。

請勿將其用於攻擊生產環境或未經授權的目標。請遵守適用法律、組織政策和合約條款,並在受控環境中使用。

■ 關於AI安全平台「MODEL SAFE」

「MODEL SAFE」是一個AI安全平台,支援AI設計、開發、營運的整合管理,協助AI以「事後可解釋的狀態」運行。

透過AI供應鏈的可視化、變更管理、運行時監控和控制,全面支援技術安全性、營運統制和法規遵循。

正在建立治理體系或可視化風險的企業,歡迎洽詢。

▼ 洽詢

https://modelsafe.jp/contact

▼ MODEL SAFE 服務介紹

https://modelsafe.jp/

常見問題

什麼是Model Security Range?

它是一個開源驗證框架,允許對故意存在漏洞的AI應用程式執行可重現的攻擊、評估和恢復程序。

可以驗證哪些攻擊情境?

涵蓋範圍廣泛,包括提示注入、工具濫用、間接提示注入、供應鏈漏洞和數據污染等。

誰可以使用它?

AI開發者、安全人員、研究人員、學生以及AI治理和審計合規的實務人員等廣泛用戶都可以使用。