产品详细介绍

Together AI 是一个专为大模型时代打造的 AI Native Cloud(AI 原生云)平台,聚焦于高性能推理、模型微调与弹性 GPU 计算资源,帮助开发者和企业快速构建、部署和扩展各类 AI 应用。

平台基于前沿研究成果构建,例如 FlashAttention-4 与 ATLAS 运行时加速技术,在 NVIDIA Blackwell 等新一代 GPU 上实现显著性能提升:

  • FlashAttention-4:在 NVIDIA Blackwell 上可比 cuDNN 提升最高约 1.3 倍速度,用于加速 Transformer 模型的注意力计算。
  • ATLAS 运行时学习加速器:通过运行时优化与自适应调度,实现最高可达 4 倍的大模型推理加速,显著降低延迟和成本。

Together AI 提供多层次的推理与计算产品,以满足从个人开发者到大型企业的不同需求:

  1. 推理(Inference)能力
  • Serverless Inference(无服务器推理):
    • 以 API 形式提供高性能推理服务,按调用计费,无需管理底层基础设施。
    • 适合原型开发、在线应用、对弹性伸缩要求高的场景。
  • Batch Inference(批量推理):
    • 面向离线或大规模任务的推理服务,可一次性处理海量请求或长文本。
    • 官方强调:对多数模型可在处理数十亿 tokens 时节省约 50% 成本,适合日志分析、内容生成、数据标注等批处理场景。
  • Dedicated Model Inference(专用模型推理):
    • 在专属硬件上运行指定模型,提供更稳定的性能与隔离性。
    • 适合对延迟、吞吐和安全性有更高要求的生产级业务。
  • Dedicated Container Inference(容器级推理):
    • 支持以容器形式部署自定义模型与运行环境。
    • 方便已有模型迁移上云,或运行经过深度定制的推理服务。
  1. 模型库(Model Library)
  • 提供主流开源大模型与多模态模型的统一入口,用户可直接调用或在此基础上进行微调与部署。
  • 通过统一 API 访问不同模型,简化模型选择与切换成本。
  1. 计算与 GPU 集群(Compute & GPU Clusters)
  • Accelerated Compute(加速计算):
    • 提供高性能 GPU 计算资源,适用于训练、微调和大规模推理任务。
  • Together GPU Clusters:
    • 自助式 NVIDIA GPU 集群服务,现已普遍可用(GA)。
    • 支持按需申请 GPU 集群,适合需要弹性扩容、分布式训练或大规模推理的团队。
  1. 微调与平台升级
  • Fine-Tuning Platform:
    • 支持更大规模模型与更长上下文长度的微调能力。
    • 帮助用户在开源基础模型上快速构建适配自身业务的专用模型。

通过上述能力,Together AI 形成了从底层 GPU 资源、模型运行时加速,到上层推理 API、批量任务与微调平台的完整技术栈,适合用于:

  • 搭建对话机器人、智能客服、搜索与推荐系统
  • 大规模内容生成、文档处理与知识库构建
  • 企业内部数据分析、代码助手与自动化工具

简单使用教程

以下为基于 Together AI 的典型入门流程示例,帮助你快速上手:

  1. 注册与登录
  • 访问官网:https://www.together.ai
  • 使用邮箱或支持的第三方账号注册新用户。
  • 登录控制台(Dashboard),完成基础信息与账单设置(如需)。
  1. 获取 API Key
  • 在控制台中找到“API Keys”或类似入口。
  • 创建新的 API Key,并妥善保存(不要在前端代码或公共仓库中暴露)。
  1. 选择模型与服务方式
  • 在“Model Library”中浏览可用模型,结合任务类型(对话、补全、代码、多模态等)选择合适模型。
  • 根据业务场景选择:
    • 在线实时调用:使用 Serverless Inference API。
    • 大批量离线任务:使用 Batch Inference API。
    • 对性能与隔离要求高:考虑 Dedicated Model / Container Inference。
  1. 调用推理 API(示意流程)
  • 在后端服务中配置 HTTP 请求:
    • 设置 Authorization 头为你的 API Key。
    • 在请求体中指定模型名称、输入内容(prompt)及必要参数(如最大 tokens、温度等)。
  • 发送请求后,解析返回的 JSON 响应,从中获取模型生成的文本或结果。
  1. 使用 Batch Inference 处理大规模任务
  • 在控制台或通过 API 创建批量任务:
    • 上传或指定待处理数据(如多条文本、文档列表等)。
    • 选择模型与批量推理配置(批大小、并发度等)。
  • 提交任务后,可在控制台查看任务进度与状态。
  • 任务完成后,下载或通过 API 获取批量结果,实现低成本处理海量 tokens。
  1. 使用 GPU Clusters 进行训练或微调(基础流程)
  • 在 Together GPU Clusters 页面选择所需 GPU 类型与规模。
  • 创建集群并获取连接方式(如 SSH、容器镜像等)。
  • 在集群上运行你的训练或微调脚本,利用平台提供的高性能 GPU 资源。
  1. 监控与优化
  • 在控制台查看调用量、延迟、错误率与费用情况。
  • 根据业务需求调整:
    • 模型选择(更快或更强的模型)
    • 推理参数(如批大小、并发度)
    • 是否切换到 Batch Inference 或 Dedicated Inference 以优化成本与性能。

通过以上步骤,你可以从零开始在 Together AI 上完成从模型选择、API 调用,到批量推理与 GPU 训练的完整闭环,快速构建并上线自己的 AI 应用。