产品详细介绍
Amazon SageMaker 是 AWS 推出的全托管机器学习与生成式 AI 平台,新一代 SageMaker 将数据、分析与 AI 能力整合在同一个中心,为企业提供从数据接入、特征工程、模型训练、部署到治理与运维的一站式体验。
一体化数据与AI中心
- 统一工作环境:SageMaker Unified Studio 让数据分析、机器学习和生成式 AI 开发在同一界面完成,支持数据处理、SQL 分析、模型开发与应用构建。
- 统一数据访问:湖仓架构 将 Amazon S3 数据湖与 Amazon Redshift 数仓打通,并支持第三方与联邦数据源访问,在一份分析数据副本上即可被多种 Apache Iceberg 兼容引擎查询。
- 内置数据治理:SageMaker Catalog 基于 Amazon DataZone 构建,集中管理数据、模型和 AI 资产,实现统一的权限与治理策略。
全托管机器学习与生成式AI能力
- 端到端 ML 生命周期管理:提供高性能 IDE、分布式训练、推理服务、MLOps、监控与可观测性,覆盖模型从开发到上线的全流程。
- 支持基础模型(FMs)与生成式 AI:可训练、微调和部署各类基础模型,快速构建面向文本、图像、代码等场景的生成式 AI 应用。
- 高性能与成本优化基础设施:利用 AWS 弹性算力与专用加速硬件,支持大规模分布式训练与高并发推理,降低整体 TCO。
深度集成的分析与数据处理
- SQL 分析与数据仓库集成:与 Amazon Redshift 深度集成,提供高性价比 SQL 引擎,支持在统一环境中完成数据分析与特征构建。
- 开源数据处理框架支持:通过 Amazon Athena、Amazon EMR、AWS Glue 等服务,使用 Spark、Presto 等开源框架进行数据准备与集成。
- 零 ETL 与联邦查询:通过零 ETL 集成将业务数据库与应用数据近实时引入湖仓,同时支持对第三方数据源进行联邦查询,实现“数据在地查询”。
安全与治理内建
- 统一权限模型与细粒度访问控制:通过 SageMaker Catalog 定义和执行统一的访问策略,确保合适的用户在合适的场景访问合适的数据和模型。
- 负责任 AI 与合规能力:支持数据分类、敏感数据检测、毒性检测、内容安全防护与 AI 守护策略,帮助企业构建可信 AI 系统。
- 全链路可追溯性:提供数据质量监控、自动化审计、数据与模型血缘跟踪,增强组织对 AI 资产的可见性与信任度。
智能开发助手加速生产力
- Amazon Q Developer 集成:在 SageMaker 中通过自然语言即可:
- 发现与理解数据资源
- 生成与优化 SQL 查询
- 构建与训练 ML 模型
- 创建与运行数据管道任务
- 内置 AI Agent 与无服务器 Notebook:在全托管、无服务器的 Notebook 环境中,借助内置 AI 助手完成代码生成、调试与分析,加速团队协作与实验迭代。
简单使用教程
以下为基于 Amazon SageMaker 的入门级使用流程示例,帮助你快速从数据到模型上线。
步骤一:准备与发现数据
- 接入数据源:
- 将原始数据存储在 Amazon S3,或在 Amazon Redshift 中构建数据仓库表。
- 如有业务数据库或第三方数据,可通过零 ETL 与联邦查询接入 SageMaker 湖仓架构。
- 在 SageMaker Unified Studio 中发现数据:
- 打开 SageMaker 控制台,进入 Unified Studio。
- 使用内置数据目录(SageMaker Catalog)搜索可用数据集,查看元数据与权限信息。
- 使用 SQL 编辑器探索数据:
- 在 Studio 中打开 SQL 编辑器,对 S3/Redshift 或联邦数据源执行查询。
- 进行基础统计分析与数据质量检查,为后续特征工程做准备。
步骤二:数据处理与特征工程
- 创建无服务器 Notebook:
- 在 Studio 中新建 Notebook,选择无服务器模式,无需手动管理底层计算资源。
- 加载与清洗数据:
- 使用 Python(如 Pandas、PySpark)读取数据,进行缺失值处理、异常值过滤与字段转换。
- 构建特征集:
- 结合业务需求设计特征(如时间窗口特征、聚合特征等)。
- 将处理好的特征数据写回 S3 或 Redshift,供训练任务使用。
步骤三:模型构建与训练
- 选择建模方式:
- 使用 SageMaker 内置算法或 JumpStart 提供的预训练模型。
- 或使用自定义脚本(如 TensorFlow、PyTorch、XGBoost 等)。
- 配置训练任务:
- 在 Studio 中创建训练作业,指定:
- 训练镜像或算法
- 训练数据位置(S3/Redshift)
- 计算资源类型与数量(如 GPU/CPU 实例)
- 在 Studio 中创建训练作业,指定:
- 利用分布式训练与 HyperPod(可选):
- 对大规模模型启用分布式训练或使用 HyperPod 加速训练与实验管理。
- 监控训练过程:
- 在控制台查看日志、指标(如损失函数、准确率),根据结果调整超参数与特征。
步骤四:模型部署与推理
- 创建推理端点:
- 在 SageMaker 中选择“部署模型”,创建实时推理端点或批量推理任务。
- 配置实例规格、自动扩缩容策略与安全组设置。
- 集成到业务应用:
- 通过 HTTPS API 调用 SageMaker 端点,将模型预测能力嵌入 Web、移动或后端服务。
- 监控与运维:
- 使用 SageMaker 的监控与日志功能,跟踪延迟、吞吐量与错误率。
- 配合 MLOps 工具实现版本管理、灰度发布与自动回滚。
步骤五:构建生成式AI应用(可选)
- 选择基础模型:
- 在 SageMaker AI 或 JumpStart 中浏览可用基础模型(FMs),选择适合文本生成、问答、代码生成等场景的模型。
- 基于自有数据微调或对齐:
- 使用企业内部文档、知识库或业务数据对模型进行微调或检索增强(RAG),提升业务相关性。
- 快速搭建应用原型:
- 在 Unified Studio 中创建简单的对话界面或 API 服务,连接基础模型与业务数据源。
- 应用治理与安全:
- 配置内容安全策略、毒性检测与访问控制,确保生成式 AI 应用符合企业合规与风控要求。
通过以上步骤,团队可以在 Amazon SageMaker 上完成从数据整合、模型开发到生产部署与治理的完整闭环,加速数据驱动与 AI 驱动业务创新。




