
日本国家理光公司于5月29日宣布,免费公开一款用于评估包含图表的日语文档理解中AI推理(Reasoning)性能的基准测试工具——「JDocQA Reasoning Benchmark」。
该项目是日本国家经济产业省与日本国家新能源·产业技术综合开发机构(NEDO)共同推动的“GENIAC(生成式AI加速挑战)”第三期基础模型开发计划的一部分,旨在强化日本国内生成式AI的研发能力。
该基准测试工具的特色在于,针对包含图表的日语业务文档,不仅仅进行信息抽取,还能评估AI在计算、比较、趋势分析等多阶段推理能力。理光希望通过免费开放该工具,促进生成式AI技术基础的提升,推动其实际应用。
JDocQA Reasoning Benchmark的特点
独创问答标注,专注图表理解与多阶段推理
该工具基于日语视觉与文本结合的问答数据集JDocQA,选取了包含超过20种图表类型(如柱状图、折线图、财务报表、路线图等)的测试图像子集,理光公司为此新增了1287个一问一答形式的问答标注。问答内容限定于图表信息,设计了以下任务以多角度评估图表读取与推理能力:
- 抽取:直接提取图表或流程中展示的信息
- 计算:基于抽取数据进行四则运算、比例计算及统计汇总等数值处理
- 比较:对多个数值或元素进行对比,揭示其关系
- 补全:从现有元素推断或重构缺失数据
开源发布,支持商业与非商业使用
该数据集的评估代码采用Apache License 2.0许可协议,问答标注部分采用CC BY-SA 4.0许可协议公开,允许任何商业及非商业用途。
未来展望
理光表示,通过免费公开该基准测试工具,将助力提升生成式AI的推理性能与实际应用能力,推动企业数据利用的深化。秉持“让工作充满喜悦”的企业理念,理光将持续致力于业务创新与价值创造。


