产品详细介绍

Qdrant 是一款专为现代 AI 检索场景打造的开源向量搜索引擎,核心由 Rust 编写,兼具高性能、低延迟与高可靠性。它面向需要向量相似度搜索、语义检索、多模态检索和个性化推荐等场景的团队,帮助快速搭建从小规模实验到大规模生产级的检索基础设施。

Qdrant 支持将向量与结构化元数据一起存储,元数据以 JSON 形式管理,并提供丰富的过滤能力,包括嵌套字段过滤、文本过滤、地理位置过滤(geo)、has_vector 判断等。通过在 HNSW 图遍历过程中直接应用过滤条件,Qdrant 能在复杂过滤条件下依然保持高召回率和低延迟,无需额外的预过滤或后过滤步骤。

在检索能力上,Qdrant 不仅支持稠密向量搜索,还支持稀疏向量和关键词检索,可在同一查询中灵活组合关键词与向量搜索,实现真正的混合检索(Hybrid Search)。它内置对 BM25、SPLADE++、miniCOIL 等检索模型的支持,能够在传统关键词检索与语义检索之间取得更好的平衡,显著提升结果相关性。

为了满足更复杂的业务需求,Qdrant 提供多向量(multiple vectors per object)能力,使同一对象可以存储多种模态或多种语义空间的向量,例如文本、图像、音频等,从而构建更灵活、更具表现力的多模态检索层。配合业务逻辑可进行打分加权(score boosting)、使用 ColBERT 等晚交互模型实现 token 级精度,以及通过最大边际相关性(MMR)实现结果多样化。

在工程能力与部署模式上,Qdrant 具有“开源 DNA + 企业级特性”的组合优势。用户可以选择完全自托管部署(本地、私有云、混合云、边缘环境),也可以使用官方提供的 Qdrant Cloud 托管服务。Qdrant Cloud 在 AWS、GCP、Azure 上提供高可用、自动分片(auto-sharding)和弹性扩缩容能力,适合对运维成本敏感的团队。

对于有严格合规和数据安全要求的企业,Qdrant 支持隔离部署(air-gapped)、细粒度访问控制以及在自有 Kubernetes 集群中运行,控制面与数据面解耦,既能保持云原生弹性,又能确保数据完全掌控在企业内部。其轻量化、低延迟的特性也非常适合在边缘侧部署,将向量搜索能力尽可能靠近数据产生的位置,减少网络开销并提升实时性。

Qdrant 已经在多种行业和应用中得到验证:

  • 为旅游与出行场景提供 AI 行程规划,在处理数十亿条评论和图片数据的同时,显著提升转化率和收入(2–3 倍增长)。
  • 为实时对话与多智能体平台提供上下文检索,在数百万级会话中保持低延迟和高相关性。
  • 为 AI 代理平台和工具提供可扩展的向量检索基础设施,在降低延迟的同时提升吞吐量(如延迟降低 90%、吞吐提升 150%)。

无论是构建 RAG(检索增强生成)系统、语义搜索、推荐系统、多模态检索,还是复杂的企业知识库检索,Qdrant 都能作为核心的向量检索引擎,为上层 AI 应用提供稳定、高性能的检索底座。

简单使用教程

以下为基于典型使用流程的简明教程,帮助你快速理解如何上手 Qdrant(具体命令和 SDK 用法以官方文档为准):

  1. 选择部署方式

    • 若希望快速体验或减少运维,可选择 Qdrant Cloud,在 AWS/GCP/Azure 上创建托管集群。
    • 若需要自托管,可通过 Docker、Kubernetes 或二进制方式在本地、私有云或边缘环境部署 Qdrant 服务。
  2. 启动服务并确认健康状态

    • 启动 Qdrant 后,通过 HTTP API 访问健康检查端点(如 /healthz)或 Web 控制台,确认服务已正常运行。
    • 记录服务地址和端口(例如 http://localhost:6333),后续 SDK 或 API 调用将使用该地址。
  3. 创建集合(Collection)

    • 在 Qdrant 中,向量数据按集合组织。创建集合时需要指定:
      • 向量维度(如 384、768 等,需与上游向量模型一致);
      • 向量类型(稠密/稀疏,或多向量配置);
      • 距离度量方式(如 cosine、dot、euclid)。
    • 可通过 REST API 或官方 SDK(如 Python、TypeScript 等)发送创建集合请求。
  4. 写入向量与元数据

    • 将文本、图片等原始数据通过向量化模型(如 BERT、Sentence Transformers、CLIP 等)转换为向量。
    • 调用 Qdrant 的写入接口,将向量与对应的 JSON 元数据一起插入集合中:
      • 每条记录通常包含:唯一 ID、向量数组、元数据(如标题、标签、时间戳、地理位置等)。
    • 可选择批量写入以提升导入效率。
  5. 执行向量搜索与过滤

    • 在查询时,将用户输入(如搜索问题、查询文本、图像特征)转换为向量。
    • 调用搜索接口,指定:
      • 查询向量;
      • 返回结果数量(top-k);
      • 可选的过滤条件(如某个字段值、时间范围、地理范围、是否存在向量等)。
    • Qdrant 会在 HNSW 图遍历过程中直接应用过滤条件,返回满足条件且相似度最高的结果。
  6. 使用混合检索与多向量能力(可选)

    • 若需要同时利用关键词与语义检索,可在同一查询中组合 BM25 或 SPLADE++ 等稀疏向量,与稠密向量一起进行混合检索。
    • 对于多模态或多语义空间的场景,可以为同一对象存储多个向量(如文本向量、图像向量),在查询时选择或组合不同向量空间进行检索。
  7. 集成到 AI 应用中

    • 在 RAG 应用中,将 Qdrant 的检索结果作为上游知识片段,传入大语言模型进行回答生成。
    • 在推荐或搜索系统中,将 Qdrant 的相似度结果与业务打分逻辑结合,通过 score boosting、MMR 等策略优化排序和多样性。
    • 持续监控延迟、召回率和相关性,根据业务需求调整集合配置、索引参数和过滤策略。

通过以上步骤,你可以从零开始搭建一个基于 Qdrant 的向量检索服务,并逐步扩展到混合检索、多模态检索以及大规模生产环境部署。