なぜその結果になったのか?推論根拠を説明できるマルチモーダルXAI技術を確立

NTTは、大規模視覚言語モデル(LVLM)が推論時に生成した根拠を無視する課題を解決する「根拠強化デコーディング」技術を確立した。本技術は、追加学習なしで画像と根拠の双方を忠実に活用した推論を可能にし、AIの信頼性を向上させる。2026年6月の国際会議CVPR 2026で発表予定であり、医療診断や意思決定支援など高信頼性が求められる分野への応用が期待される。
techNQ 54/100出典:PR Times

📋 記事の処理履歴

  • 📰 発表: 2026年6月1日 15:00
  • 🔍 収集: 2026年6月1日 15:27(発表から27分後)
  • 🤖 AI分析完了: 2026年6月1日 18:14(収集から2時間46分後)
NTT株式会社は、画像と言語を扱うマルチモーダルAI基盤モデルによる出力の信頼性を高める新たな推論の仕組みとして「根拠強化デコーディング」技術を確立しました。本技術は、LVLMがCoTを行う際、自身で生成した推論根拠を無視する傾向があるという課題に対して、通常の推論とは異なり、画像による推論と根拠による推論を分割しそれらを重みづけて組み合わせました。これにより、画像と根拠の双方から得られる情報を忠実に活用して回答を出力することを可能にしました。本成果は、2026年6月3日から2026年6月7日まで、米国・デンバーで開催されるコンピュータビジョン分野における最難関国際会議 Computer Vision and Pattern Recognition (CVPR) 2026において発表されます。背景として、近年LVLMの開発が進み、高度なマルチモーダル推論が可能となっていますが、既存のCoTメカニズムは根拠の使用をモデル任せにしており、根拠と最終出力の一貫性が保証されていませんでした。本研究では、追加学習を必要としないプラグアンドプレイ型の推論時デコーディング技術を確立し、LVLMの推論過程に解釈性を与えることに成功しました。これにより、医療画像診断や意思決定支援など、より確実で信頼性の高い推論システムが求められる分野への社会実装が加速することが期待されます。

よくある質問

「根拠強化デコーディング」とはどのような技術ですか?

LVLMが推論時に生成した根拠を無視する課題に対し、画像と根拠の情報を数学的に統合し、双方に忠実な回答を出力させるための推論時デコーディング技術です。

この技術の最大のメリットは何ですか?

追加の学習コストやデータセットを必要とせず、既存のLVLMにプラグアンドプレイで組み込める点と、AIの推論過程に解釈性を与えられる点です。

なぜLVLMはこれまで根拠を無視していたのですか?

既存のCoTメカニズムでは、画像と根拠を一つの系列として入力するため、根拠の内容を必ず使用するという因果構造がモデルに組み込まれていなかったためです。

どのような分野への応用が期待されていますか?

医療画像診断や、人間の意思決定に関わる重大なケースを扱う対話エージェントなど、高い信頼性が求められる分野への社会実装が期待されています。

本成果はどこで発表されますか?

2026年6月3日から7日にかけて米国デンバーで開催される、コンピュータビジョン分野の国際会議「CVPR 2026」にて発表されます。