产品详细介绍
Together AI 是一个专为大模型时代打造的 AI Native Cloud(AI 原生云)平台,聚焦于高性能推理、模型微调与弹性 GPU 计算资源,帮助开发者和企业快速构建、部署和扩展各类 AI 应用。
平台基于前沿研究成果构建,例如 FlashAttention-4 与 ATLAS 运行时加速技术,在 NVIDIA Blackwell 等新一代 GPU 上实现显著性能提升:
- FlashAttention-4:在 NVIDIA Blackwell 上可比 cuDNN 提升最高约 1.3 倍速度,用于加速 Transformer 模型的注意力计算。
- ATLAS 运行时学习加速器:通过运行时优化与自适应调度,实现最高可达 4 倍的大模型推理加速,显著降低延迟和成本。
Together AI 提供多层次的推理与计算产品,以满足从个人开发者到大型企业的不同需求:
- 推理(Inference)能力
- Serverless Inference(无服务器推理):
- 以 API 形式提供高性能推理服务,按调用计费,无需管理底层基础设施。
- 适合原型开发、在线应用、对弹性伸缩要求高的场景。
- Batch Inference(批量推理):
- 面向离线或大规模任务的推理服务,可一次性处理海量请求或长文本。
- 官方强调:对多数模型可在处理数十亿 tokens 时节省约 50% 成本,适合日志分析、内容生成、数据标注等批处理场景。
- Dedicated Model Inference(专用模型推理):
- 在专属硬件上运行指定模型,提供更稳定的性能与隔离性。
- 适合对延迟、吞吐和安全性有更高要求的生产级业务。
- Dedicated Container Inference(容器级推理):
- 支持以容器形式部署自定义模型与运行环境。
- 方便已有模型迁移上云,或运行经过深度定制的推理服务。
- 模型库(Model Library)
- 提供主流开源大模型与多模态模型的统一入口,用户可直接调用或在此基础上进行微调与部署。
- 通过统一 API 访问不同模型,简化模型选择与切换成本。
- 计算与 GPU 集群(Compute & GPU Clusters)
- Accelerated Compute(加速计算):
- 提供高性能 GPU 计算资源,适用于训练、微调和大规模推理任务。
- Together GPU Clusters:
- 自助式 NVIDIA GPU 集群服务,现已普遍可用(GA)。
- 支持按需申请 GPU 集群,适合需要弹性扩容、分布式训练或大规模推理的团队。
- 微调与平台升级
- Fine-Tuning Platform:
- 支持更大规模模型与更长上下文长度的微调能力。
- 帮助用户在开源基础模型上快速构建适配自身业务的专用模型。
通过上述能力,Together AI 形成了从底层 GPU 资源、模型运行时加速,到上层推理 API、批量任务与微调平台的完整技术栈,适合用于:
- 搭建对话机器人、智能客服、搜索与推荐系统
- 大规模内容生成、文档处理与知识库构建
- 企业内部数据分析、代码助手与自动化工具
简单使用教程
以下为基于 Together AI 的典型入门流程示例,帮助你快速上手:
- 注册与登录
- 访问官网:https://www.together.ai
- 使用邮箱或支持的第三方账号注册新用户。
- 登录控制台(Dashboard),完成基础信息与账单设置(如需)。
- 获取 API Key
- 在控制台中找到“API Keys”或类似入口。
- 创建新的 API Key,并妥善保存(不要在前端代码或公共仓库中暴露)。
- 选择模型与服务方式
- 在“Model Library”中浏览可用模型,结合任务类型(对话、补全、代码、多模态等)选择合适模型。
- 根据业务场景选择:
- 在线实时调用:使用 Serverless Inference API。
- 大批量离线任务:使用 Batch Inference API。
- 对性能与隔离要求高:考虑 Dedicated Model / Container Inference。
- 调用推理 API(示意流程)
- 在后端服务中配置 HTTP 请求:
- 设置 Authorization 头为你的 API Key。
- 在请求体中指定模型名称、输入内容(prompt)及必要参数(如最大 tokens、温度等)。
- 发送请求后,解析返回的 JSON 响应,从中获取模型生成的文本或结果。
- 使用 Batch Inference 处理大规模任务
- 在控制台或通过 API 创建批量任务:
- 上传或指定待处理数据(如多条文本、文档列表等)。
- 选择模型与批量推理配置(批大小、并发度等)。
- 提交任务后,可在控制台查看任务进度与状态。
- 任务完成后,下载或通过 API 获取批量结果,实现低成本处理海量 tokens。
- 使用 GPU Clusters 进行训练或微调(基础流程)
- 在 Together GPU Clusters 页面选择所需 GPU 类型与规模。
- 创建集群并获取连接方式(如 SSH、容器镜像等)。
- 在集群上运行你的训练或微调脚本,利用平台提供的高性能 GPU 资源。
- 监控与优化
- 在控制台查看调用量、延迟、错误率与费用情况。
- 根据业务需求调整:
- 模型选择(更快或更强的模型)
- 推理参数(如批大小、并发度)
- 是否切换到 Batch Inference 或 Dedicated Inference 以优化成本与性能。
通过以上步骤,你可以从零开始在 Together AI 上完成从模型选择、API 调用,到批量推理与 GPU 训练的完整闭环,快速构建并上线自己的 AI 应用。



