产品详细介绍

Embedditor 是一款面向开发者、数据科学家和 AI 应用构建者的在线嵌入(embeddings)可视化与编辑工具。它将原本抽象、难以直观理解的高维向量,通过交互式界面和多种可视化方式呈现出来,帮助你更轻松地调试、分析和优化模型输出的嵌入表示。

核心功能与特点包括:

  1. 嵌入可视化展示

    • 支持将高维向量通过降维(如 PCA、t-SNE、UMAP 等常见方法)映射到 2D/3D 空间中展示。
    • 以点云、聚类分布等形式呈现不同文本、文档或对象的嵌入关系,直观查看相似度与聚类结构。
    • 支持颜色、标签、分组等多种标记方式,便于对不同类别或来源的数据进行区分。
  2. 在线编辑与对比嵌入

    • 可以导入已有的嵌入向量(如从向量数据库、模型推理结果或本地文件导出)。
    • 支持对单个或一组嵌入进行编辑、删除、标注和备注,方便做实验和调参。
    • 提供相似度对比工具,可快速查看两个或多条嵌入之间的距离变化,辅助判断模型更新或数据清洗的效果。
  3. 多源数据与模型集成

    • 支持从常见的嵌入生成服务或模型(如 OpenAI、Cohere、本地向量模型等)接入数据。
    • 可通过 API 或文件上传方式导入嵌入,适配多种工作流。
    • 适合与现有的向量数据库、检索系统、RAG 应用、推荐系统等配合使用,用于调试和可视化分析。
  4. 调试与质量评估辅助

    • 帮助你发现嵌入中的异常点、离群点和错误聚类,定位数据或模型问题。
    • 可对比不同版本模型生成的嵌入分布,评估升级前后在语义聚合、类间分离等方面的变化。
    • 通过可视化方式辅助判断“相似样本是否足够接近”“不同类别是否被有效区分”等关键问题。
  5. 适用于多种应用场景

    • RAG / 向量检索应用:检查知识库文档嵌入是否合理聚类,优化召回质量。
    • 推荐系统:分析用户、物品向量分布,辅助特征工程与模型调优。
    • 语义搜索与分类:验证标签、类别在嵌入空间中的分布情况,发现潜在数据问题。
    • 教学与研究:作为教学工具帮助理解高维向量与语义空间,对研究人员进行实验可视化支持。

总体而言,Embedditor 让“看不见的向量空间”变得可视、可编辑、可调试,是构建和优化基于嵌入的 AI 系统时非常实用的辅助工具。

简单使用教程

以下是一个从零开始体验 Embedditor 的简明步骤示例(具体界面名称和按钮可能会随版本更新略有差异):

  1. 访问网站并注册/登录

    • 在浏览器中打开:https://embedditor.ai/
    • 根据页面提示完成注册或使用已有账号登录。
    • 登录后进入主控制台或项目列表页面。
  2. 创建或导入一个嵌入项目

    • 在首页或控制台点击“New Project / 新建项目”或类似按钮。
    • 为项目命名(例如:RAG 文档嵌入调试)。
    • 选择数据来源:
      • 通过 文件上传(如 JSON、CSV、Numpy 导出等)导入已有嵌入;或
      • 通过 API / 模型集成,从你的嵌入服务中拉取数据;或
      • 使用示例数据快速体验。
  3. 浏览与筛选嵌入数据

    • 在数据列表中查看每条记录的文本内容、标签和对应的向量信息。
    • 使用搜索、过滤或标签筛选功能,聚焦某一类样本(例如某个主题、某个用户群)。
    • 可为关键样本添加备注,方便后续对比和分析。
  4. 查看嵌入可视化分布

    • 切换到“Visualization / 可视化”视图。
    • 选择降维方式(如 PCA、t-SNE、UMAP 等),系统会将高维嵌入映射到 2D/3D 平面。
    • 通过鼠标拖拽、缩放查看整体分布,悬停或点击单个点查看对应文本或对象详情。
    • 使用颜色或分组选项,为不同标签、类别或来源的数据着色,观察聚类情况。
  5. 对比与调试嵌入

    • 在可视化界面中框选一片区域,查看其中样本的共同特征(例如同一主题的文档是否聚在一起)。
    • 选择两条或多条记录,使用“Compare / 对比”功能查看它们的向量距离或相似度。
    • 如果你有多个模型版本的嵌入,可在“模型版本”或“数据集版本”中切换,对比分布差异。
  6. 编辑与标注数据(可选)

    • 在数据详情面板中,可以修改文本标签、添加备注,或删除明显异常的样本。
    • 对需要重点关注的样本打上标记(如“难例”“误召回”等),为后续模型调优提供依据。
    • 如工具支持在线重新计算嵌入,可在修改文本或参数后重新生成并刷新可视化。
  7. 导出与集成到你的工作流

    • 当你完成分析与清洗后,可将处理后的嵌入和元数据导出为文件,或通过 API 回写到你的向量数据库/应用中。
    • 将 Embedditor 作为日常模型迭代和数据质量检查的一部分,定期用来审视嵌入空间的变化。

通过以上步骤,你可以快速上手 Embedditor,用可视化方式理解和优化嵌入表示,从而提升检索、推荐、RAG 等下游系统的整体效果。