Ricoh Releases Proprietary Safeguard Model for Free

Ricoh has released 'Llama-Ricoh-SafeGuard-20260520,' a model featuring a proprietary guardrail function to detect harmful inputs and outputs in LLMs, for free on Hugging Face.
新製品NQ 90/100出典:PR Times

📋 Article Processing Timeline

  • 📰 Published: May 20, 2026 at 20:10
  • 🔍 Collected: May 20, 2026 at 11:31
  • 🤖 AI Analyzed: May 22, 2026 at 05:22 (41h 50m after Collected)
Ricoh Company, Ltd. has released 'Llama-Ricoh-SafeGuard-20260520,' a model incorporating a proprietary guardrail function designed to detect harmful information in inputs and outputs for Large Language Models (LLMs).

This model is based on 'Llama-3.1-Swallow-8B-Instruct-v0.5,' which enhances the Japanese language capabilities of Meta Platforms' 'Meta-Llama-3.1-8B,' with further development by Ricoh. The company has achieved a compact and lightweight design through proprietary quantization technology. While previously provided as part of the 'RICOH On-Premises LLM Starter Kit,' it is now released for free to promote the safe use of generative AI.

The model monitors prompts and AI-generated responses, automatically detecting and blocking inappropriate content based on 14 categories, including violence, crime, and discrimination.

FAQ

リコーが無償公開したセーフガードモデルとは何ですか?

大規模言語モデルに対する有害情報の入出力を検知・ブロックするガードレール機能を組み込んだ「Llama-Ricoh-SafeGuard-20260520」です。

どのモデルをベースに開発されましたか?

Meta社が提供する「Meta-Llama-3.1-8B」の日本語性能を向上させた「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースに開発されています。

有害情報の検知対象にはどのようなものがありますか?

暴力、犯罪、差別、プライバシー侵害など14種類のラベルに分類されたデータで学習しており、不適切または有害な内容を検出可能です。

公開先はどこですか?

Hugging Face(https://huggingface.co/ricoh-ai/Llama-Ricoh-SafeGuard-20260520)にて無償公開されています。

開発の背景は?

生成AIの社会実装が進む中、安全な利活用への課題に対し、リコーが社内プロジェクトとして2024年10月から開発・実装に取り組んできた成果を社会へ還元する狙いがあります。