理光技术示意图

理光公司开发了一套名为“文档阅读强化工作流程”的技术,旨在提升大型语言模型(LLM)对包含图表及复杂布局的日语文档的理解能力。该技术预计将于今年夏季作为生成AI应用开发平台“Dify(ディフィ)”的模板,集成到“RICOH本地部署LLM入门套件”中。

开发背景

随着生成式AI的快速普及,日本企业对企业内部文档的高级利用需求日益增长。企业内部积累了大量多样化文档,如发票、经营资料和手册等,这些文档中包含图表和图片,传统的文本检索方法难以充分发挥其价值。

此外,出于安全、隐私和治理的考虑,企业希望在本地部署环境或自有数据中心中使用AI技术。为满足这些需求,理光开发了“RICOH本地部署LLM入门套件”,并将持续增强其功能。

工作流程特点

提升图表理解能力的文档解析技术

该技术能够高效提取包含图表和复杂布局文档中的文本、图形和表格信息,从而实现基于正文与图表关系的回答生成,显著提升商业文档的阅读理解准确度。

文档解析示意

采用Self-MoA实现高效推理

引入“Self-MoA(Self Mixture-of-Agents)”技术,将同一LLM生成的多个回答候选进行整合。相比传统的多LLM组合“MoA”方式,该技术更高效利用GPU资源,同时提升回答质量。

Self-MoA示意

灵活选择LLM模型

该工作流程支持用户自由选择配合使用的LLM,既可在云端也可在本地环境运行,兼容大型商业模型。无需对LLM进行额外训练,方便用户根据需求灵活搭配最新模型,实现个性化运用。

集成于Dify平台的“RICOH本地部署LLM入门套件”模板

理光利用包含图表的日语文档理解AI推理性能评估工具“JDocQA Reasoning Benchmark”对该工作流程进行了测试,验证了其在提升图表含量文档阅读理解性能方面的效果。

性能评估图1

性能评估图2