医療現場の事務作業を支援する高性能な日本語LLMを開発しました
NEDOが推進するプロジェクトにおいて、連名機関10者は医療機関のオンプレミス環境等で安全に運用可能な高性能日本語医療LLMを開発した。専門医試験で90.8%の正答率を達成し、主要商用LLMに迫る性能を確認。患者情報の保護、診療ガイドラインへの準拠、安全性ベンチマークの策定など、医療現場での実用化に向けた安全性と業務効率化の両立を目指す。今後は段階的に社会実装を進める予定である。
📋 記事の処理履歴
- 📰 発表: 2026年5月28日 14:20
- 🔍 収集: 2026年6月1日 02:00(発表から83時間40分後)
- 🤖 AI分析完了: 2026年6月1日 22:51(収集から20時間50分後)
NEDOが推進した「AIの安全性確保に関する研究開発・検証等の推進事業/日本語版医療特化型LLMの社会実装に向けた安全性検証・実証」(以下、本事業)において、連名機関10者は、医療機関のオンプレミス環境または医療機関が管理する国内クラウド環境などの患者情報を安全に管理できる環境で運用可能で、世界最先端の商用LLMに迫る性能を有する医療業務支援向け日本語LLMを開発しました。
独自に構築したベンチマークによる検証の結果、専門医試験を模した学術試験において最大90.8%の正答率を達成し、比較対象とした主要な商用LLM(91.4%)に迫る水準に到達しました。あわせて、日本の医療特性を踏まえた安全性検証を実施し、医療現場での利用に求められる性能と安全性の両立を確認しました。
本研究開発の成果については、医療現場の業務効率化および医療の質向上に資することを目指し、今後、段階的に社会実装を進めていく予定です。
1.背景
医療機関がAIを活用するにあたっては、以下の三つの構造的課題が存在します。
1)患者情報の管理に関する課題:一般的なAIサービスの多くは、患者情報が国外のサーバや外部事業者の管理下で処理される構造になっており、医療機関側で患者情報の所在や取り扱いを十分に把握・管理することが困難です。
2)データ標準化の課題:医療機関ごとに用語やコード体系が異なり、データの相互運用性が十分に確保されていません。
3)安全性基準の課題:医療現場におけるLLM活用にあたっての安全性基準が未整備であり、導入判断のよりどころが乏しい状況にあります。
本事業では、患者情報を安全に管理できる環境で運用可能であり、かつ主要なAIに匹敵する性能を有するAIの開発を目標として、(1)LLM開発、(2)安全性検証、(3)ユースケース検証の3点に取り組みました。
2.今回の成果
(1)患者情報を安全に管理できる環境で運用可能な高性能日本語LLMの開発
公開されているオープンなLLMをベースモデルとして、日本の診療ガイドライン・専門医試験問題・臨床事例などの医療分野の教材から生成したデータを学習させた追加学習モデルを開発しました。その結果、患者情報を安全に管理できる環境で運用可能でありながら、主要な商用LLMに迫る性能を実現しました。
主な成果として、専門医試験を模した学術試験において、外部文書を参照しながら回答する方式(RAG)を用いることで最大90.8%の正答率に到達し、比較対象とした主要な商用LLM(91.4%)に迫る水準に到達しました。また、日本の診療ガイドラインに沿った応答ができるかを評価する指標では、ベースモデルと比較して最大10.8ポイントの性能向上を確認しました。
加えて、独自アーキテクチャによる国産のフルスクラッチ開発モデルも構築しました。同規模のオープンモデルと比較して競争力のある性能を示し、将来の国産基盤モデル開発に向けた技術的知見を蓄積しました。
(2)日本の医療特性を踏まえた独自の安全性検証
LLMが医療情報を扱ううえで重要となる安全性の検証として、以下の多面的な取り組みを実施しました。
1)学習データに含まれる患者情報がLLMに記憶されるリスクを定量的に評価する手法の確立
2)患者情報を自動で検出・マスキングする機能の実装
3)日本の医療特性を踏まえた対話型安全性ベンチマーク(5万件超)の策定・公開およびモデル評価
4)攻撃耐性を評価する試験(6000件規模のレッドチーミング)の実施
検証の結果、追加学習を行った後もベースモデルと同等の高い安全性を維持できることを確認しました。一方で、ベースとなるLLMの選択が安全性維持を大きく左右することも明らかになり、医療分野でより安全なAIを開発する際の重要な知見を得ました。
(3)医療業務支援を想定したユースケース検証
医療従事者の事務的・文書的業務を支援することを目的として、以下の複数のユースケースにおいて技術的な実現可能性を検証しました。
1)検査名称からJLAC11コードへの自動変換:3医療機関のマスタデータで検証し、最大80.3%の精度を達成
2)症例データの自動整理(脳卒中レジストリ構築):人間の作業精度(94〜95%)に対し、LLMで92.2%を記録
3)退院時サマリーの下書き作成:専門医9名による品質評価で、本事業の追加学習モデルが商用LLM相当の品質(5点満点で4.748、GPTー5.2比 -0.06ポイント)を達成
4)電子カルテへの自然言語による問い合わせ:複数の電子カルテシステムとの接続方法を確立し、自然言語による問い合わせが可能であることを確認
これらはいずれも医療従事者の事務作業・文書作成を補助するものであり、疾病の診断・治療そのものを行うものではありません。最終的な判断は医師および医療従事者が行います。
3.今後の予定
本研究開発で得られた医療業務支援向けLLMは、医療現場の業務効率化および医療の質向上に資することを目指し、今後、関係機関と連携しながら段階的に社会実装を進めていく予定です。
社会実装にあたっては、安全性・信頼性の確保を最優先に取り組むとともに、医療機関をはじめとする関係機関との丁寧な対話を重ねながら進めてまいります。
独自に構築したベンチマークによる検証の結果、専門医試験を模した学術試験において最大90.8%の正答率を達成し、比較対象とした主要な商用LLM(91.4%)に迫る水準に到達しました。あわせて、日本の医療特性を踏まえた安全性検証を実施し、医療現場での利用に求められる性能と安全性の両立を確認しました。
本研究開発の成果については、医療現場の業務効率化および医療の質向上に資することを目指し、今後、段階的に社会実装を進めていく予定です。
1.背景
医療機関がAIを活用するにあたっては、以下の三つの構造的課題が存在します。
1)患者情報の管理に関する課題:一般的なAIサービスの多くは、患者情報が国外のサーバや外部事業者の管理下で処理される構造になっており、医療機関側で患者情報の所在や取り扱いを十分に把握・管理することが困難です。
2)データ標準化の課題:医療機関ごとに用語やコード体系が異なり、データの相互運用性が十分に確保されていません。
3)安全性基準の課題:医療現場におけるLLM活用にあたっての安全性基準が未整備であり、導入判断のよりどころが乏しい状況にあります。
本事業では、患者情報を安全に管理できる環境で運用可能であり、かつ主要なAIに匹敵する性能を有するAIの開発を目標として、(1)LLM開発、(2)安全性検証、(3)ユースケース検証の3点に取り組みました。
2.今回の成果
(1)患者情報を安全に管理できる環境で運用可能な高性能日本語LLMの開発
公開されているオープンなLLMをベースモデルとして、日本の診療ガイドライン・専門医試験問題・臨床事例などの医療分野の教材から生成したデータを学習させた追加学習モデルを開発しました。その結果、患者情報を安全に管理できる環境で運用可能でありながら、主要な商用LLMに迫る性能を実現しました。
主な成果として、専門医試験を模した学術試験において、外部文書を参照しながら回答する方式(RAG)を用いることで最大90.8%の正答率に到達し、比較対象とした主要な商用LLM(91.4%)に迫る水準に到達しました。また、日本の診療ガイドラインに沿った応答ができるかを評価する指標では、ベースモデルと比較して最大10.8ポイントの性能向上を確認しました。
加えて、独自アーキテクチャによる国産のフルスクラッチ開発モデルも構築しました。同規模のオープンモデルと比較して競争力のある性能を示し、将来の国産基盤モデル開発に向けた技術的知見を蓄積しました。
(2)日本の医療特性を踏まえた独自の安全性検証
LLMが医療情報を扱ううえで重要となる安全性の検証として、以下の多面的な取り組みを実施しました。
1)学習データに含まれる患者情報がLLMに記憶されるリスクを定量的に評価する手法の確立
2)患者情報を自動で検出・マスキングする機能の実装
3)日本の医療特性を踏まえた対話型安全性ベンチマーク(5万件超)の策定・公開およびモデル評価
4)攻撃耐性を評価する試験(6000件規模のレッドチーミング)の実施
検証の結果、追加学習を行った後もベースモデルと同等の高い安全性を維持できることを確認しました。一方で、ベースとなるLLMの選択が安全性維持を大きく左右することも明らかになり、医療分野でより安全なAIを開発する際の重要な知見を得ました。
(3)医療業務支援を想定したユースケース検証
医療従事者の事務的・文書的業務を支援することを目的として、以下の複数のユースケースにおいて技術的な実現可能性を検証しました。
1)検査名称からJLAC11コードへの自動変換:3医療機関のマスタデータで検証し、最大80.3%の精度を達成
2)症例データの自動整理(脳卒中レジストリ構築):人間の作業精度(94〜95%)に対し、LLMで92.2%を記録
3)退院時サマリーの下書き作成:専門医9名による品質評価で、本事業の追加学習モデルが商用LLM相当の品質(5点満点で4.748、GPTー5.2比 -0.06ポイント)を達成
4)電子カルテへの自然言語による問い合わせ:複数の電子カルテシステムとの接続方法を確立し、自然言語による問い合わせが可能であることを確認
これらはいずれも医療従事者の事務作業・文書作成を補助するものであり、疾病の診断・治療そのものを行うものではありません。最終的な判断は医師および医療従事者が行います。
3.今後の予定
本研究開発で得られた医療業務支援向けLLMは、医療現場の業務効率化および医療の質向上に資することを目指し、今後、関係機関と連携しながら段階的に社会実装を進めていく予定です。
社会実装にあたっては、安全性・信頼性の確保を最優先に取り組むとともに、医療機関をはじめとする関係機関との丁寧な対話を重ねながら進めてまいります。
よくある質問
今回開発された医療用LLMの最大の特徴は何ですか?
医療機関のオンプレミス環境や管理下のクラウドで運用可能であり、患者情報の安全性を確保しつつ、主要な商用LLMに匹敵する高い専門性能を有している点です。
専門医試験における性能はどの程度ですか?
RAG(外部文書参照)技術を用いることで、専門医試験を模した学術試験において最大90.8%の正答率を達成しました。
医療現場での安全性はどのように担保されていますか?
患者情報の自動マスキング機能の実装、5万件超の対話型安全性ベンチマークの策定、および6000件規模のレッドチーミングによる攻撃耐性評価を実施しています。
どのような業務支援が想定されていますか?
検査名称のコード変換、症例データの自動整理、退院時サマリーの下書き作成、電子カルテへの自然言語による問い合わせなどが検証されています。
今後の社会実装の予定は?
安全性と信頼性を最優先とし、関係機関と連携しながら段階的に社会実装を進めていく予定です。