理光提升日语文档中大型语言模型的阅读理解能力工作流程

理光技术示意图

理光公司开发了一套名为“文档阅读强化工作流程”的技术，旨在提升大型语言模型（LLM）对包含图表及复杂布局的日语文档的理解能力。该技术预计将于今年夏季作为生成AI应用开发平台“Dify（ディフィ）”的模板，集成到“RICOH本地部署LLM入门套件”中。

开发背景

随着生成式AI的快速普及，日本企业对企业内部文档的高级利用需求日益增长。企业内部积累了大量多样化文档，如发票、经营资料和手册等，这些文档中包含图表和图片，传统的文本检索方法难以充分发挥其价值。

此外，出于安全、隐私和治理的考虑，企业希望在本地部署环境或自有数据中心中使用AI技术。为满足这些需求，理光开发了“RICOH本地部署LLM入门套件”，并将持续增强其功能。

该技术能够高效提取包含图表和复杂布局文档中的文本、图形和表格信息，从而实现基于正文与图表关系的回答生成，显著提升商业文档的阅读理解准确度。

文档解析示意

引入“Self-MoA（Self Mixture-of-Agents）”技术，将同一LLM生成的多个回答候选进行整合。相比传统的多LLM组合“MoA”方式，该技术更高效利用GPU资源，同时提升回答质量。

Self-MoA示意

该工作流程支持用户自由选择配合使用的LLM，既可在云端也可在本地环境运行，兼容大型商业模型。无需对LLM进行额外训练，方便用户根据需求灵活搭配最新模型，实现个性化运用。

理光利用包含图表的日语文档理解AI推理性能评估工具“JDocQA Reasoning Benchmark”对该工作流程进行了测试，验证了其在提升图表含量文档阅读理解性能方面的效果。

性能评估图1

性能评估图2