APTO 發布日語 LLM 安全性訓練資料集與安全性微調模型

株式会社APTO (APTO) 宣布推出包含約 18,000 筆資料的日語安全性訓練資料集,以及經安全性微調的 Qwen3.5 系列模型。該方案旨在解決日語大型語言模型 (LLM) 在安全性上的挑戰,透過多階段品質驗證與 LoRA 微調技術,在保障安全性的同時維持對話品質。
新製品NQ 88/100出典:PR Times

📋 文章處理履歷

  • 📰 發表: 2026年5月22日 19:00
  • 🔍 收集: 2026年5月22日 10:31
  • 🤖 AI分析完成: 2026年5月22日 11:19(收集後47分鐘)
株式会社APTO (APTO;總部:東京都澀谷區,代表董事:高品良) 宣布發布旨在增強日語環境下大型語言模型 (LLM) 安全性的微調模型與訓練資料集。

近年來,生成式 AI 的應用迅速擴展,但如何應對有害輸出與實現倫理對話仍是關鍵挑戰。特別是在日語 LLM 領域,缺乏考慮到文化背景與日語語境的安全性資料一直是主要障礙。

APTO 自行設計了約 18,000 筆日語安全性學習資料,並進行了旨在兼顧安全性與對話品質的微調。經多項基準測試驗證,模型在提升安全指標的同時,亦維持了既有的對話效能。

■ 發布內容

◆ 安全性微調模型
基於 Qwen3.5 系列,針對日語安全性進行了專門微調的模型:
- Qwen3.5-27B-SafetyTuned
- Qwen3.5-9B-Base-SafetyTuned
- Qwen3.5-9B-SafetyTuned
同時提供適用於各類推理環境的 GGUF 量化版本。

◆ 訓練資料集(樣本)
從用於微調的 18,000 筆資料中,釋出了保持相同比例的 500 筆樣本資料集。類別包括:
- safety_refusal:正確拒絕有害問題並提供安全建議。
- overrefusal_prevention:防止對安全問題進行過度拒絕。
- mid_refusal:回應過程中的修正模式。
- anti_hallucination:防止捏造不存在的資訊。

■ 安全性微調概況

◆ 技術手法
APTO 採用了四階段流程:攻擊提示設計、模型回應生成、示範安全回答製作以及品質稽核。導入了防止過度拒絕的資料、參考 ACL 2025 Decoupled Refusal Training (DeRTa) 的軌道修正模式,以及利用 LLM-as-Judge 進行五階段自動評估。
訓練過程採用 LoRA (Low-Rank Adaptation) 技術,針對不同模型大小最佳化 Rank 與目標層。

◆ 技術特點
- 日語特化資料設計:不簡單套用英語環境手法,優先考慮日語語境。
- 安全與品質兼顧:在提升安全指標的同時,維持知識、對話與數學推理效能。
- 多維度評估體系:採用 AnswerCarefully v2.2、SORRY-Bench、MultiJail 與 MT-Bench,並透過 Qwen、Mistral 與 Gemma 進行交叉評估以確保可靠性。

■ 評估結果(簡表)
- AC Acceptable Rate: 84.1% → 89.8% (+5.7pt)
- SORRY-Bench 拒絕率: 85.3% → 90.4% (+5.1pt)
- MT-Bench-ja: 8.97 (維持)
- JMMLU: 67.8% → 75.6% (+7.9pt)

常見問題

APTOが公開した安全性学習データセットの規模はどれくらいですか?

APTOが独自設計した日本語安全性学習データセットは約18,000件です。

安全性チューニングに採用されたモデルは何ですか?

Qwen3.5シリーズをベースにチューニングが行われています。

データセットにはどのようなカテゴリが含まれますか?

有害な質問の拒否、過剰拒否防止、応答途中からの軌道修正、捏造防止などのカテゴリが含まれています。

チューニングの手法には何が採用されていますか?

攻撃プロンプト設計から模範回答作成までを行う多段階プロセスに加え、学習にはLoRAを採用し、モデルサイズごとに最適化を行っています。

安全性チューニングの効果はどのように測定されましたか?

AnswerCarefully v2.2、SORRY-Bench、MultiJail、MT-Benchなどのベンチマークと、Qwen・Mistral・Gemmaによるクロス評価で測定されました。