株式会社 Corpy (總公司:東京都千代田區,代表董事:山元浩平,以下簡稱「Corpy」),一家源自東京大學和法國國家資訊與自動化研究所 (Inria) 的 AI 新創公司,透過 XAI & QAAI 技術支援任務關鍵型 AI 的實現。本公司特此宣布,已公開在國立研究開發法人新能源產業技術綜合開發機構 (NEDO) 的專案「AI 安全強化相關研究開發、驗證等推進專案/AI 安全強化相關研究開發」中,自 2025 年 4 月以來致力於生成的 AI 安全性評估的「從營運計畫與管理角度為企業製作實作解說」之研究開發成果。
本次專案的背景:生成式 AI 的安全性確保與應對國際標準刻不容緩 隨著生成式 AI 的迅速普及,幻覺(與事實不符的輸出)、提示詞注入(惡意輸入導致誤操作)和有害內容生成等與安全性相關的風險已成為社會問題。在歐洲,歐盟 AI 法案等國際 AI 監管措施正逐步生效並加速推動,日本國內企業也迫切需要建立系統性管理和評估 AI 安全性的體系。 在此背景下,AI 管理系統的國際標準 ISO/IEC 42001 為組織提供了應對 AI 風險的框架。然而,該標準並未規定具體的安全性評估方法和基準,目前「應評估什麼以及按什麼順序評估」仍由各組織自行決定。
研究開發概要與成果 Corpy 在本次專案中,以彌補 ISO/IEC 42001 的要求與生成式 AI 安全性評估實踐之間存在的實際「差距」為目標,開發了以下成果物。 成果物①:報告書「基於 AI 管理系統的生成式 AI 安全性評估協定及其實作指南」 這是一份與 ISO/IEC 42001 相符的生成式 AI 安全性評估協定,並將其系統化為三個階段(分析、測試、報告)的實作指南。其中整理了從風險評估、測試計畫制定、評估執行到報告書製作等一系列流程,以便實務人員具體掌握。報告中還舉例說明了具體的評估案例,例如以視覺語言模型(*1)為主題的虛擬客戶支援系統,針對越獄攻擊(*2)的整合測試(*3)和用於數據投毒檢測(*4)的單元測試(*5)等。 此外,報告還對實務中重要的概念進行了問題提出和舉例,例如風險評估中的「存取」與「代理」(*6)概念、在安全性評估中使用 LLM-as-a-Judge(*7) 時的「暴露映射」(*8),以及供應鏈管理中的「信任鏈」(*9)等。 成果物②:生成式 AI 安全性評估模板(附範例) 這是一個用於記錄評估協定各步驟的模板。它涵蓋了所有流程,包括業務狀況分析、利害關係人分析、系統結構分析、風險評估、風險應對計畫與適用聲明書、測試計畫、測試方法以及測試所使用的資源等。 該模板假設了一個虛擬的聊天機器人系統,並附有具體的填寫範例,企業可將其作為將其應用於自身 AI 系統時的參考。
本社所在地:東京都千代田区神田神保町1-44-11 コーピーの本社所在地は東京都千代田区神田神保町1-44-11である。
成果物特點 本成果物的主要特點如下: ・與 ISO/IEC 42001 的整合性:明確闡述了從 AI 管理系統標準要求出發,到將生成式 AI 安全性評估納入其中的過程。 ・三階段系統性評估協定:分析 (PA) → 測試 (PB) → 報告 (PC) 的明確步驟。 ・實踐性評估案例:提供了使用視覺語言模型的具體測試情境。 ・模板:與評估協定相對應,可用於記錄的格式。
成果物公開資訊 成果物①和②可透過以下連結下載。 https://corpy.app.box.com/s/fijqk4vu4nawvl15mxyt809xh3sp3jkq ・① 報告書(日文版、PDF 格式) ・② 評估模板(附範例、XLSX 格式) ※成果物預計在著作權歸屬確定後,依據創用 CC 姓名標示 4.0 國際(CC BY4.0)授權條款公開。
未來展望 Corpy 將運用本專案中獲得的知識,持續為 AI 安全性評估技術的國際標準化和社會實踐做出貢獻。我們將普及符合 ISO/IEC 42001 等 AI 管理系統標準的方法,並協助企業建立可安心使用 AI 的環境,從而加速「任務關鍵型 AI」的實現。
【關於本專案】 專案名稱:AI 安全強化相關研究開發、驗證等推進專案/AI 安全強化相關研究開發 專案主體:國立研究開發法人新能源產業技術綜合開發機構 (NEDO) 實施體制:國立研究開發法人產業技術綜合研究所 (AIST)、Citadel AI 株式会社、Corpy 株式会社 Corpy 負責主題:從營運計畫與管理角度為企業製作實作解說 實施期間:2025 年 4 月至 2026 年 3 月
【術語註釋】 *1 視覺語言模型(VLM: Vision-Language Model):能理解和處理圖像及文字兩者的 AI 模型總稱。能夠透過查看圖像來回答問題或解釋圖像內容。 *2 越獄攻擊 (Jailbreak Attack):一種攻擊手法,透過巧妙的指令文本(提示詞)規避 AI 設定的安全性限制,試圖引出原本應被拒絕的有害輸出。 *3 整合測試:將系統的多個組件(部件)組合起來,驗證其整體是否正常運作的測試。在此指確認整個 AI 系統的安全性。 *4 數據投毒(數據污染):一種攻擊手法,故意將惡意數據混入 AI 的訓練數據中,以誤導 AI 的判斷或輸出。 *5 單元測試:單獨驗證系統各個組件(部件)的測試。在此指單獨評估特定的安全性項目。 *6 存取與代理:風險評估中的兩個重要觀點。「存取」指 AI 系統可以接觸到哪些數據和功能,「代理」指 AI 在多大程度上可以自主判斷和行動。兩者程度越高,風險也越大。 *7 LLM 作為評審(LLM-as-a-Judge):一種將大型語言模型 (LLM) 作為「評審」來自動判斷 AI 輸出安全性及品質的方法。在減輕人工評估負擔的同時,確保一定的評估準確性。 *8 暴露映射:一種系統性地識別和視覺化 AI 系統可能遭受外部攻擊或濫用之處(暴露面)的方法。 *9 信任鏈:在 AI 系統的供應鏈(開發、提供的各階段)中,確認訓練數據、模型、工具等各要素的信任度是否持續不間斷地獲得確保的理念。只要其中一環的信任受損,便會影響整個系統的安全性。
關於 Corpy (Corpy&Co.) Corpy 是一家源自東京大學和法國國家資訊與自動化研究所 (Inria) 的 AI 新創公司,以「透過尖端 AI 技術拯救生命,擴展平等」為使命,旨在將 AI 導入不允許失敗的任務關鍵型領域並提供服務。公司專注於 AI 實際運營中不可或缺的品質保證,開發並提供綜合性演算法和解決方案,其中包括利用 XAI (可解釋 AI) 技術提高可解釋性,以及利用 QAAI (AI 品質驗證) 技術進行實際環境下的穩健性和脆弱性驗證。此外,在國立研究開發法人新能源產業技術綜合開發機構 (NEDO) 的「AI 安全強化相關研究開發」專案中,Corpy 致力於制定和推廣正確管理和使用生成式 AI 所需的 AI 安全標準,並開發 AI 安全評估和管理技術。 公司名稱:株式会社 Corpy (Corpy & Co., Inc.) 成立:2017 年 3 月 總公司地址:東京都千代田區神田神保町 1-44-11 代表董事:山元 浩平 官方網站:https://corpy.co.jp/
關於本新聞稿的洽詢 Corpy 株式会社 公關負責人:pr@corpy.co.jp
FACT BOX · 重點整理
- 來源:PR TIMES
- 分類:research