产品详细介绍

Well Extract 是一款专为开发者设计的发票与收据(小票)数据提取工具,支持从 PDF 或图片中自动识别并输出结构化数据。它的核心特点是轻量级、可定制、并且开源,方便集成到现有系统或工作流中。

通过接入你偏好的 AI 模型(如主流大语言模型或视觉模型),Well Extract 可以从各类格式不统一的发票、收据中提取关键信息,例如:

  • 发票抬头与收款方信息
  • 地址与联系方式
  • VAT/税号等税务信息
  • 金额、税额、币种
  • 日期、发票号、订单号等

产品强调以下优势:

  1. 结构化输出:将非结构化的票据内容转化为 JSON 等结构化格式,便于后续入库、对账、报销或财务自动化处理。
  2. 模型无锁定:不绑定单一 AI 服务,你可以根据成本、性能、安全等需求,自由选择和切换底层模型。
  3. 轻量与易集成:适合嵌入到现有的财务系统、SaaS 产品、内部工具或自动化脚本中,减少自建 OCR+解析逻辑的工作量。
  4. 开源与可定制:作为开源项目,你可以查看源码、二次开发,按业务需要自定义字段、解析规则和输出格式。

Well Extract 已在 Product Hunt 上获得关注(曾获“当日第 5 名产品”),并由 wellapp.ai 团队在旧金山维护和迭代,适合需要稳定票据解析能力的团队与个人开发者。

简单使用教程

以下是一个面向开发者的简要上手流程,具体以 GitHub 仓库中的文档为准:

  1. 获取源码或安装包

    • 访问官网页面上的 “View on GitHub” 链接,进入 Well Extract 的 GitHub 仓库。
    • 将项目克隆到本地,或根据仓库说明通过包管理工具安装(如有提供)。
  2. 配置依赖与环境

    • 按 README 指引安装依赖库(如 Python/Node 依赖、OCR/图像处理库等)。
    • 在配置文件或环境变量中,填入你要使用的 AI 模型相关信息(例如 API Key、模型名称、接口地址等)。
  3. 准备发票或收据文件

    • 将待处理的发票或小票以 PDF 或图片(JPG/PNG 等)格式保存。
    • 确保文件清晰可读,以提升识别与提取的准确率。
  4. 调用提取接口或命令

    • 若项目提供命令行工具,可在终端中执行类似:
      • 指定输入文件路径
      • 指定输出格式(如 JSON)和输出目录
    • 若以 SDK/HTTP API 方式集成,在代码中调用对应函数或接口,将文件或文件 URL 传入。
  5. 获取结构化结果

    • 工具会调用你配置的 AI 模型,对票据内容进行识别与解析。
    • 输出通常为结构化数据(如 JSON),包含发票抬头、地址、VAT 号、金额、日期等字段,可直接用于入库或后续业务逻辑。
  6. 自定义字段与规则(可选)

    • 如需提取特定业务字段(例如项目编码、部门编号等),可在配置或代码中扩展字段定义。
    • 根据不同国家/地区的发票格式,调整解析模板或提示词,以提升准确率。

通过以上步骤,你可以在较短时间内将 Well Extract 集成到自己的应用或内部系统中,实现发票与收据的自动化数据提取。