APTO、日本語LLMの安全性向上を目的とした学習データセットおよび安全性チューニングモデルを公開

株式会社APTOは、日本語環境における生成AIの安全性向上を目指し、約18,000件の独自日本語安全性学習データセットと、安全性チューニング済みQwen3.5シリーズモデルを公開した。多段階の品質担保とLoRAを用いた最適化により、対話品質を維持した安全なAI応答を実現する。
新製品NQ 88/100出典:PR Times

📋 記事の処理履歴

  • 📰 発表: 2026年5月22日 19:00
  • 🔍 収集: 2026年5月22日 10:31
  • 🤖 AI分析完了: 2026年5月22日 11:19(収集から47分後)
株式会社APTO(本社:東京都渋谷区、代表取締役:高品良 以下、APTO)は、日本語環境における大規模言語モデル(LLM)の安全性向上を目的とした、安全性チューニング済みモデルおよび学習用データセットを公開したことをお知らせいたします。

近年、生成AIの活用が急速に広がる一方、有害出力への対応や倫理的な応答の実現は依然として重要な課題となっています。特に日本語LLM領域では、文化的背景や日本語特有の文脈を踏まえた安全性データの不足が課題となっていました。

APTOでは、約18,000件の日本語安全性学習データを独自設計し、安全性と対話品質の両立を目的とした安全性チューニングを実施。複数のベンチマークにおいて、安全性指標の改善と品質維持を確認しました。

■公開内容

◆安全性チューニング済みモデル
Qwen3.5シリーズをベースに、日本語安全性に特化したチューニングを施したモデルを公開いたしました。
- Qwen3.5-27B-SafetyTuned
- Qwen3.5-9B-Base-SafetyTuned
- Qwen3.5-9B-SafetyTuned
また、各モデルについて、推論環境に応じた GGUF 量子化版もご用意しています。

◆学習データセット(サンプル)
安全性チューニングに使用した約18,000件の日本語安全性学習データから、構成比を維持した500件のサンプルデータセットを公開いたしました。
公開データには、有害な質問への適切な拒否(safety_refusal)、過剰拒否の防止(overrefusal_prevention)、応答途中からの軌道修正(mid_refusal)、捏造防止(anti_hallucination)などのカテゴリが含まれています。

■安全性チューニングの概要

◆手法
APTOでは、約18,000件の学習データを設計。攻撃プロンプト設計から模範回答作成までを行う4段階プロセス、過剰拒否防止データ、DeRTa(Decoupled Refusal Training)に着想を得た軌道修正パターン、およびLLM-as-Judgeによる5段階の自動評価を採用しています。
また、学習にはLoRAを採用し、モデルサイズごとにランクやターゲット層の最適化を行っています。

◆技術的特徴
- 日本語特化の安全性データ設計:英語圏の手法を単純適用せず、日本語特有の文脈を考慮。
- 安全性と品質の両立:対話品質・知識・数学推論性能を維持しつつ安全性指標を改善。
- 多角的な評価体制:AnswerCarefully v2.2、SORRY-Bench、MultiJail、MT-Benchを採用し、Qwen・Mistral・Gemmaによるクロス評価で信頼性を担保。

■評価結果(簡易)
- AC Acceptable Rate: 84.1% → 89.8% (+5.7pt)
- SORRY-Bench 拒否率: 85.3% → 90.4% (+5.1pt)
- MT-Bench-ja: 8.97 (維持)
- JMMLU: 67.8% → 75.6% (+7.9pt)

よくある質問

APTOが公開した安全性学習データセットの規模はどれくらいですか?

APTOが独自設計した日本語安全性学習データセットは約18,000件です。

安全性チューニングに採用されたモデルは何ですか?

Qwen3.5シリーズをベースにチューニングが行われています。

データセットにはどのようなカテゴリが含まれますか?

有害な質問の拒否、過剰拒否防止、応答途中からの軌道修正、捏造防止などのカテゴリが含まれています。

チューニングの手法には何が採用されていますか?

攻撃プロンプト設計から模範回答作成までを行う多段階プロセスに加え、学習にはLoRAを採用し、モデルサイズごとに最適化を行っています。

安全性チューニングの効果はどのように測定されましたか?

AnswerCarefully v2.2、SORRY-Bench、MultiJail、MT-Benchなどのベンチマークと、Qwen・Mistral・Gemmaによるクロス評価で測定されました。