理光在「GENIAC」第三期開發出具備推理性能的多模態大型語言模型

理光在經濟產業省和NEDO實施的「GENIAC(生成式AI加速挑戰)」第三期專案中,開發出具備推理性能的多模態大型語言模型「Qwen3-VL-Ricoh-32B-20260227」,能夠高精度地讀取包含圖表的複雜文件。基於此技術的輕量級模型「Qwen3-VL-Ricoh-8B-20260227」已免費公開,旨在提高企業內部知識利用效率。
新製品NQ 0/100出典:PR Times

📋 文章處理履歷

  • 📰 發表: 2026年3月30日 20:10
  • 🔍 收集: 2026年3月30日 22:56(發表後2小時46分鐘)
  • 🤖 AI分析完成: 2026年4月22日 22:42(收集後551小時46分鐘)
株式會社理光(社長執行董事:大山晃)宣布,在經濟產業省和國立研究開發法人新能源產業技術綜合開發機構(NEDO)實施的、旨在強化日本國內生成式AI開發能力的專案「GENIAC(Generative AI Accelerator Challenge)*1」第三期中,已完成開發具備推理性能*2的多模態大型語言模型(以下簡稱推理LMM)的基本模型「Qwen3-VL-Ricoh-32B-20260227」。該模型能夠高精度地讀取包含圖表在內的多樣化文件,其特點是透過多階段推論理解複雜文件。

此外,我們將從即日起免費公開利用本模型開發技術的輕量級模型「Qwen3-VL-Ricoh-8B-20260227」。同時,理光獨自開發的、專門用於評估推理性能的基準測試工具*3也將在未來公開。

【公開連結】
https://huggingface.co/ricoh-ai/Qwen-3-VL-Ricoh-8B-20260227



**1. 專案背景與社會課題**

LMM(大型多模態模型)是一種能夠同時處理文本、圖像、音訊、視訊等多種類型數據的AI技術。由於其在從螢幕截圖中提取文本摘要、回答包含圖表的提問等多種任務中表現出高水準的性能,因此作為能夠處理廣泛數據格式的AI,備受期待。

企業內部累積了多樣化的文件,包括發票、收據等交易數據,事業戰略和計畫等經營資料,服務手冊和內部制定的技術標準、品質管理標準等。這些文件不僅包含文本,還包含圖形、表格和圖像等。人們期望能夠在企業內部高效利用這些文件,並透過它們創造新的價值和創新。另一方面,也存在「文本搜尋無法獲得預期結果」、「僅靠搜尋功能難以充分利用文件」等課題。

此外,近年來,為應對勞動力減少而採取的有效工作方式、資深員工退休帶來的技能傳承、以及外籍勞工增加導致的文件多語言化等經營課題,都提出了相應的解決需求。在這種背景下,透過AI高效利用企業內部知識的需求日益增長。

理光在2024年8月實施的GENIAC第二期中,開發了700億參數的LMM,並免費公開了其基本模型和獨自開發的基準測試工具。此外,在2026年1月,理光還開發了基於中國阿里巴巴雲開發和提供的大型語言模型(LLM)家族「Qwen2.5-VL-32B-Instruct」的320億參數緊湊型LMM。



**2. 本次成果**

在第三期中,我們以「Qwen3-VL-32B-Instruct*4」為基礎,開發了透過多階段推論高精度理解複雜文件的推理LMM基本模型「Qwen3-VL-Ricoh-32B-20260227」。本模型透過強化學習*5和課程學習*6等學習方法的創新,能夠關聯並理解跨越多頁的圖表,即使對於閱讀理解難度高的問題,也能生成高精度的答案。在強化學習中,我們設定了獨特的獎勵函數,在提高學習效率的同時抑制過度擬合。在課程學習中,我們優化了難度設定和學習進度。

透過這些努力,我們確認了與「Gemini2.5-Pro」等大型商業模型同等的基準測試結果(截至2026年2月17日)。為了評估本模型的推理性能,理光獨自開發了基準測試工具。