日本株式会社マクニカ于3月30日宣布,与美国Unstructured Technologies(以下简称Unstructured)签订了日本国内首个代理销售合同,正式开始提供能够自动将非结构化数据整理为大规模语言模型(LLM)易于处理格式的平台“Unstructured”。
随着LLM的普及,利用生成式AI进行知识检索和提升业务效率的需求日益增长,越来越多企业开始构建基于内部文档的RAG(检索增强生成)系统。然而,企业内部存在的销售资料、合同、手册、技术文档等非结构化数据格式多样,AI难以准确识别段落、标题、表格、图片等结构,导致RAG系统出现检索遗漏和语境误判,虽然在概念验证阶段表现良好,但在实际应用中精度难以稳定。
因此,在构建RAG时,必须将非结构化数据整理成适合AI使用的格式。传统的数据整理流程需要设计人员针对每份文档设计和调整分块及信息提取规则,既专业性强又容易依赖个人。此外,随着文档数量增加和内容更新,频繁的调整工作使得运营负担持续加重,数据整理和运营成为生成式AI推广的瓶颈,导致项目停滞或难以全面展开。
“Unstructured”平台能够自动将非结构化数据整理成LLM易处理的格式,保持文档内段落、标题、表格、图片等结构不变,转换为JSON格式,从而提升RAG的准确性和稳定性。该平台减少了设计人员对文档的细致调优和更新响应工作,解决了依赖个人的问题,显著降低了持续运营负担。
平台支持与多种云服务通过标准连接器集成,无需移动或复制非结构化数据即可实现持续更新处理。通过考虑文档结构的分区、保持语义完整的分块设计及面向后续AI处理的元数据附加,将非结构化数据转换为可直接应用于业务的状态。
此外,平台配备无代码图形界面,使无专业知识的用户也能稳定执行复杂的非结构化数据处理。在合规与安全方面,符合HIPAA、SOC 2 Type 2、GDPR、ISO 27001等数据保护及信息安全相关法律法规和行业标准。
日本株式会社マクニカ表示,未来将从与企业现有数据基础设施和内容管理平台的集成设计到导入实施提供一体化支持,推动日本企业生成式AI的实际应用加速发展。



