理光开发具备图表识别推理能力的多模态大规模语言模型

日本理光株式会社于30日宣布，完成了具备高精度读取包含图表等多样文档推理能力的多模态大规模语言模型（以下简称推理LMM）基础模型“Qwen3-VL-Ricoh-32B-20260227”的开发。该项目是由日本经济产业省和日本国立研究开发法人新能源·产业技术综合开发机构（NEDO）推动的，旨在加强日本国内生成式AI开发能力的“GENIAC（Generative AI Accelerator Challenge）”第三期项目的一部分。

“Qwen3-VL-Ricoh-32B-20260227”模型的特点是能够通过多阶段推理理解复杂文档。此外，理光还基于该技术开发了轻量级模型“Qwen3-VL-Ricoh-8B-20260227”，并已开始免费公开。同时，理光计划未来发布专门用于评估推理性能的自研基准测试工具。

在2024年8月启动的GENIAC第二期中，理光开发了拥有700亿参数的LMM，并免费公开了基础模型及自研基准工具。2026年1月，理光基于中国阿里巴巴云开发的“Qwen2.5-VL-32B-Instruct”大规模语言模型家族，开发了参数量为320亿的紧凑型LMM。

第三期项目中，理光基于“Qwen3-VL-32B-Instruct”开发了能够通过多阶段推理高精度理解复杂文档的推理LMM基础模型“Qwen3-VL-Ricoh-32B-20260227”。该模型通过强化学习和课程学习等训练方法，能够关联跨多页的图表内容，针对高难度阅读理解问题生成准确回答。强化学习中，理光设置了独特的奖励函数以提升学习效率并抑制过拟合；课程学习则优化了难度设定和学习节奏。

通过这些技术，理光确认该模型在基准测试中表现与大型商业模型如“Gemini2.5-Pro”等相当（截至2026年2月17日）。为评估推理性能，理光开发了独有的基准测试工具，计划后续公开。

此外，理光针对日本企业实际应用需求，进行了思考过程的日语化处理，提升了日语文档的读取准确率，并使回答的判断依据和前提条件能够以日语确认，增强了实际应用的可信度。

理光指出，考虑到安全性、隐私和治理等因素，许多企业希望在本地或自有数据中心等内部专用环境中使用AI，因而对低资源消耗的AI应用环境需求日益增长。

此次开发的模型支持本地部署，能够根据企业行业和业务需求进行微调。理光强调，为加速企业内部应用，降低开发和运营成本至关重要。通过模型合并技术（将多个已训练的LLM模型组合以构建性能更优模型），理光建立了高效的开发流程，并将其应用于私有模型的提供。此外，理光还利用独特的图像令牌压缩技术，致力于降低因性能提升带来的运营成本增长。

理光开发具备图表识别推理能力的多模态大规模语言模型

标签

评论

相关阅读

12个月的窗口期

美国政府启动最新AI模型预先审查计划，携手Google DeepMind、xAI和微软

リンクス发布搭载AMD Ryzen AI Max+ 395的MINIX AI迷你电脑