产品详细介绍

Amazon SageMaker 是 AWS 推出的全托管机器学习与生成式 AI 平台,新一代 SageMaker 将数据、分析与 AI 能力整合在同一个中心,为企业提供从数据接入、特征工程、模型训练、部署到治理与运维的一站式体验。

一体化数据与AI中心

  • 统一工作环境:SageMaker Unified Studio 让数据分析、机器学习和生成式 AI 开发在同一界面完成,支持数据处理、SQL 分析、模型开发与应用构建。
  • 统一数据访问:湖仓架构 将 Amazon S3 数据湖与 Amazon Redshift 数仓打通,并支持第三方与联邦数据源访问,在一份分析数据副本上即可被多种 Apache Iceberg 兼容引擎查询。
  • 内置数据治理:SageMaker Catalog 基于 Amazon DataZone 构建,集中管理数据、模型和 AI 资产,实现统一的权限与治理策略。

全托管机器学习与生成式AI能力

  • 端到端 ML 生命周期管理:提供高性能 IDE、分布式训练、推理服务、MLOps、监控与可观测性,覆盖模型从开发到上线的全流程。
  • 支持基础模型(FMs)与生成式 AI:可训练、微调和部署各类基础模型,快速构建面向文本、图像、代码等场景的生成式 AI 应用。
  • 高性能与成本优化基础设施:利用 AWS 弹性算力与专用加速硬件,支持大规模分布式训练与高并发推理,降低整体 TCO。

深度集成的分析与数据处理

  • SQL 分析与数据仓库集成:与 Amazon Redshift 深度集成,提供高性价比 SQL 引擎,支持在统一环境中完成数据分析与特征构建。
  • 开源数据处理框架支持:通过 Amazon Athena、Amazon EMR、AWS Glue 等服务,使用 Spark、Presto 等开源框架进行数据准备与集成。
  • 零 ETL 与联邦查询:通过零 ETL 集成将业务数据库与应用数据近实时引入湖仓,同时支持对第三方数据源进行联邦查询,实现“数据在地查询”。

安全与治理内建

  • 统一权限模型与细粒度访问控制:通过 SageMaker Catalog 定义和执行统一的访问策略,确保合适的用户在合适的场景访问合适的数据和模型。
  • 负责任 AI 与合规能力:支持数据分类、敏感数据检测、毒性检测、内容安全防护与 AI 守护策略,帮助企业构建可信 AI 系统。
  • 全链路可追溯性:提供数据质量监控、自动化审计、数据与模型血缘跟踪,增强组织对 AI 资产的可见性与信任度。

智能开发助手加速生产力

  • Amazon Q Developer 集成:在 SageMaker 中通过自然语言即可:
    • 发现与理解数据资源
    • 生成与优化 SQL 查询
    • 构建与训练 ML 模型
    • 创建与运行数据管道任务
  • 内置 AI Agent 与无服务器 Notebook:在全托管、无服务器的 Notebook 环境中,借助内置 AI 助手完成代码生成、调试与分析,加速团队协作与实验迭代。

简单使用教程

以下为基于 Amazon SageMaker 的入门级使用流程示例,帮助你快速从数据到模型上线。

步骤一:准备与发现数据

  1. 接入数据源
    • 将原始数据存储在 Amazon S3,或在 Amazon Redshift 中构建数据仓库表。
    • 如有业务数据库或第三方数据,可通过零 ETL 与联邦查询接入 SageMaker 湖仓架构。
  2. 在 SageMaker Unified Studio 中发现数据
    • 打开 SageMaker 控制台,进入 Unified Studio。
    • 使用内置数据目录(SageMaker Catalog)搜索可用数据集,查看元数据与权限信息。
  3. 使用 SQL 编辑器探索数据
    • 在 Studio 中打开 SQL 编辑器,对 S3/Redshift 或联邦数据源执行查询。
    • 进行基础统计分析与数据质量检查,为后续特征工程做准备。

步骤二:数据处理与特征工程

  1. 创建无服务器 Notebook
    • 在 Studio 中新建 Notebook,选择无服务器模式,无需手动管理底层计算资源。
  2. 加载与清洗数据
    • 使用 Python(如 Pandas、PySpark)读取数据,进行缺失值处理、异常值过滤与字段转换。
  3. 构建特征集
    • 结合业务需求设计特征(如时间窗口特征、聚合特征等)。
    • 将处理好的特征数据写回 S3 或 Redshift,供训练任务使用。

步骤三:模型构建与训练

  1. 选择建模方式
    • 使用 SageMaker 内置算法或 JumpStart 提供的预训练模型。
    • 或使用自定义脚本(如 TensorFlow、PyTorch、XGBoost 等)。
  2. 配置训练任务
    • 在 Studio 中创建训练作业,指定:
      • 训练镜像或算法
      • 训练数据位置(S3/Redshift)
      • 计算资源类型与数量(如 GPU/CPU 实例)
  3. 利用分布式训练与 HyperPod(可选)
    • 对大规模模型启用分布式训练或使用 HyperPod 加速训练与实验管理。
  4. 监控训练过程
    • 在控制台查看日志、指标(如损失函数、准确率),根据结果调整超参数与特征。

步骤四:模型部署与推理

  1. 创建推理端点
    • 在 SageMaker 中选择“部署模型”,创建实时推理端点或批量推理任务。
    • 配置实例规格、自动扩缩容策略与安全组设置。
  2. 集成到业务应用
    • 通过 HTTPS API 调用 SageMaker 端点,将模型预测能力嵌入 Web、移动或后端服务。
  3. 监控与运维
    • 使用 SageMaker 的监控与日志功能,跟踪延迟、吞吐量与错误率。
    • 配合 MLOps 工具实现版本管理、灰度发布与自动回滚。

步骤五:构建生成式AI应用(可选)

  1. 选择基础模型
    • 在 SageMaker AI 或 JumpStart 中浏览可用基础模型(FMs),选择适合文本生成、问答、代码生成等场景的模型。
  2. 基于自有数据微调或对齐
    • 使用企业内部文档、知识库或业务数据对模型进行微调或检索增强(RAG),提升业务相关性。
  3. 快速搭建应用原型
    • 在 Unified Studio 中创建简单的对话界面或 API 服务,连接基础模型与业务数据源。
  4. 应用治理与安全
    • 配置内容安全策略、毒性检测与访问控制,确保生成式 AI 应用符合企业合规与风控要求。

通过以上步骤,团队可以在 Amazon SageMaker 上完成从数据整合、模型开发到生产部署与治理的完整闭环,加速数据驱动与 AI 驱动业务创新。