為什麼會得出這個結果?NTT確立可解釋推理依據的多模態XAI技術
NTT確立了「依據增強解碼」技術,解決了大型視覺語言模型(LVLM)在推理時忽略自身生成依據的問題。該技術無需額外訓練,即可讓模型忠實利用圖像與依據進行推理,提升AI可靠性。此成果將於2026年6月的國際會議CVPR 2026發表,預計應用於醫療診斷與決策支援等高可靠性需求領域。
📋 文章處理履歷
- 📰 發表: 2026年6月1日 15:00
- 🔍 收集: 2026年6月1日 15:27(發表後27分鐘)
- 🤖 AI分析完成: 2026年6月1日 18:14(收集後2小時46分鐘)
NTT公司確立了一項名為「依據增強解碼」(Evidence-Enhanced Decoding)的技術,旨在提高處理圖像與語言的多模態AI基礎模型輸出的可靠性。針對LVLM在進行思維鏈(CoT)推理時傾向於忽略自身生成的推理依據這一問題,該技術與傳統推理不同,將基於圖像的推理與基於依據的推理分開,並進行加權組合。這使得模型能夠忠實地利用來自圖像與依據雙方的資訊來輸出答案。此項成果將於2026年6月3日至6月7日在美國丹佛舉行的計算機視覺領域頂級國際會議CVPR 2026上發表。背景方面,近年來LVLM發展迅速,實現了高度的多模態推理,但現有的CoT機制將依據的使用交由模型自行決定,無法保證依據與最終輸出的一致性。本研究確立了一種無需額外訓練的隨插即用型推理時解碼技術,成功賦予了LVLM推理過程可解釋性。這有望加速其在醫療影像診斷、決策支援等需要高度可靠推理系統領域的社會應用。
常見問題
這項技術對台灣AI產業有何意義?
對於台灣的軟硬體整合企業而言,提升AI模型的可靠性是增強邊緣AI與工業AI應用競爭力的關鍵因素。