リコー、自社開発のセーフガードモデルを無償公開
株式会社リコーは、大規模言語モデル(LLM)の安全性向上のため、有害情報の入出力を検知する「Llama-Ricoh-SafeGuard-20260520」をHugging Faceにて無償公開しました。
📋 記事の処理履歴
- 📰 発表: 2026年5月20日 20:10
- 🔍 収集: 2026年5月20日 11:31
- 🤖 AI分析完了: 2026年5月22日 05:22(収集から41時間50分後)
株式会社リコーは、大規模言語モデル(LLM)に対する有害情報の入出力を検知する自社開発のガードレール機能を組み込んだLLM「Llama-Ricoh-SafeGuard-20260520」を無償公開しました。
本モデルはMeta Platforms社の「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースに、リコーで追加開発を行ったものです。独自の量子化技術により小型・軽量化を実現しています。従来は「RICOH オンプレLLMスターターキット」の一部として提供していましたが、生成AIの安全利活用推進を目的に無償公開されました。
モデルは、入力されたプロンプトやLLM生成回答を監視し、暴力、犯罪、差別など14種類のラベルに基づき不適切内容を検知・ブロックします。
本モデルはMeta Platforms社の「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースに、リコーで追加開発を行ったものです。独自の量子化技術により小型・軽量化を実現しています。従来は「RICOH オンプレLLMスターターキット」の一部として提供していましたが、生成AIの安全利活用推進を目的に無償公開されました。
モデルは、入力されたプロンプトやLLM生成回答を監視し、暴力、犯罪、差別など14種類のラベルに基づき不適切内容を検知・ブロックします。
よくある質問
リコーが無償公開したセーフガードモデルとは何ですか?
大規模言語モデルに対する有害情報の入出力を検知・ブロックするガードレール機能を組み込んだ「Llama-Ricoh-SafeGuard-20260520」です。
どのモデルをベースに開発されましたか?
Meta社が提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースに開発されています。
有害情報の検知対象にはどのようなものがありますか?
暴力、犯罪、差別、プライバシー侵害など14種類のラベルに分類されたデータで学習しており、不適切または有害な内容を検出可能です。
公開先はどこですか?
Hugging Face(https://huggingface.co/ricoh-ai/Llama-Ricoh-SafeGuard-20260520)にて無償公開されています。
開発の背景は?
生成AIの社会実装が進む中、安全な利活用への課題に対し、リコーが社内プロジェクトとして2024年10月から開発・実装に取り組んできた成果を社会へ還元する狙いがあります。