产品详细介绍

Datavolo 是面向生成式 AI 场景的多模态数据管道基础设施,核心目标是帮助工程团队高效捕获、处理和输送各类非结构化数据(文档、日志、文件、多媒体等),为大语言模型(LLM)和其他 AI 应用提供稳定、可追踪的数据流支持。

产品基于 Apache NiFi 技术构建,并针对非结构化数据和 AI 应用进行了深度优化。与传统一次性、点对点的数据集成脚本不同,Datavolo 提供可视化、可复用、可扩展的数据流管道,让数据工程师和应用工程师可以将更多精力放在业务与模型创新上,而不是底层数据搬运和粘合代码。

主要特性包括:

  1. 全面捕获非结构化数据

    • 支持从多种源系统、文件存储和应用中采集非结构化数据,为 LLM 检索增强(RAG)、向量搜索、知识库构建等场景提供数据基础。
    • 让“所有为 LLM 服务的数据”都能被统一纳管和流转,避免数据孤岛和重复建设。
  2. 快速可扩展的数据管道

    • 在几分钟内即可搭建可运行的生产级数据管道,而非传统的数天或数周开发周期。
    • 随业务增长自动扩展,支持高吞吐和大规模数据处理,适应企业级 AI 应用的性能要求。
  3. 高度灵活、可配置的数据流

    • 支持从任意数据源到任意目标的灵活配置,可随时调整路由、转换和目标系统,无需大规模重写代码。
    • 通过可视化编排界面实现“infrastructure-as-visuals”,用户可以通过拖拽组件在画布上搭建数据流,所见即所得。
  4. 内建可观测性与数据血缘

    • 每条管道都内置数据血缘追踪能力,帮助团队了解数据从源头到下游系统的完整流转路径。
    • 提升数据可信度和可审计性,尤其适用于金融、通信等高监管行业的合规要求。
  5. 可视化开发与实时反馈

    • 通过拖拽组件(如 Pinecone 处理器等)在画布上搭建数据流,连接关系变化会实时映射为底层可执行配置或代码。
    • 实时更新和可视化监控让工程师可以快速调试和优化数据流,显著提升交付效率。
  6. 企业级实践与行业验证

    • 已在高度监管行业中落地,帮助客户显著提升新功能交付速度(如 10 倍提速)并节省可观成本(如每年节省百万美元级别的数据摄取成本)。
    • 创始团队长期深耕数据基础设施领域,对企业数据治理、数据集成和 AI 场景有丰富经验。

通过 Datavolo,企业可以告别一次性脚本和昂贵的定制集成,将非结构化数据转化为可持续复用的 AI 资产,加速生成式 AI 产品和功能的迭代。

简单使用教程

以下是基于 Datavolo 的一个简明上手流程示例,帮助你快速理解如何搭建面向 LLM 的非结构化数据管道:

  1. 规划数据源与目标

    • 明确要接入的非结构化数据源:如文档存储、日志系统、对象存储、内部知识库等。
    • 明确数据目标:如向量数据库(例如 Pinecone)、检索服务、数据湖、分析仓库或下游 AI 应用接口。
  2. 创建数据管道项目

    • 在 Datavolo 平台中新建一个数据流/管道项目,用于服务某个具体 AI 场景(例如“客服知识库 RAG 管道”)。
    • 为项目配置基础信息,如命名、环境(开发/测试/生产)等。
  3. 通过可视化画布搭建数据流

    • 打开可视化编排界面,在画布上拖拽数据源处理器(如文件读取、API 拉取、消息队列订阅等)。
    • 拖拽数据处理与转换组件(如解析、清洗、分片、格式转换、元数据提取等),并通过连线定义数据流向。
    • 如需对接向量数据库,可拖拽相应处理器(例如 Pinecone 处理器),将上游处理后的文本或嵌入数据连接到该组件。
  4. 配置组件参数

    • 在每个处理器上配置必要参数:连接信息(URL、密钥)、数据格式(JSON、文本、二进制)、批量大小、重试策略等。
    • 对于 AI 相关步骤(如向量化、分片策略),根据下游 LLM 或检索服务的要求进行设置。
  5. 启用数据血缘与监控

    • 确认已开启数据血缘跟踪和日志记录,以便后续审计和问题排查。
    • 在监控视图中查看各节点的吞吐量、延迟和错误情况,确保管道运行稳定。
  6. 试运行与调优

    • 先在测试环境中运行管道,使用一小部分样本数据验证:数据是否完整到达目标系统、格式是否正确、延迟是否可接受。
    • 根据监控结果调整处理器配置(如并发度、批量大小、重试策略),优化性能和成本。
  7. 切换到生产并持续迭代

    • 验证通过后,将管道部署到生产环境,开始持续采集和处理非结构化数据,为 LLM 和其他 AI 应用提供实时或准实时数据支持。
    • 当业务需求变化(新增数据源、更换目标系统、调整处理逻辑)时,可在可视化界面中直接修改数据流,无需大规模重写代码,实现快速迭代。

通过以上步骤,工程团队可以在 Datavolo 上快速构建从“多源非结构化数据”到“AI 可用数据资产”的完整链路,大幅缩短生成式 AI 项目的数据准备周期,并提升整体交付效率。