产品详细介绍

AssemblyAI 是面向开发者和企业的专业 Speech AI 平台,提供高精度、可扩展的语音转写(Speech-to-Text)与语音理解(Speech Understanding)模型,帮助从录音、电话、会议、访谈、客服通话等各类语音数据中自动提取文字与结构化信息。

平台的核心能力包括:

  1. 高精度语音转文字(Speech-to-Text)

    • 支持多场景:医疗问诊、客服语音、访谈节目、语音信箱、会议记录等。
    • 对姓名、日期、地址、药品名、技术术语、代码、命令、公式以及特殊格式等信息有出色识别能力。
    • 能处理自然对话中的停顿、重复、口误与自我修正(如“glycosi— glycosi— glycoside”),并输出更自然、可读性更高的文本。
    • 支持多说话人区分(Speaker Diarization),可标注不同角色,如 Nurse / Patient、Speaker A / Speaker B 等。
  2. 语音理解与音频智能(Audio Intelligence)

    • 在转写基础上进一步进行语义分析,支持对长语音内容进行结构化理解。
    • 可用于自动摘要、关键词提取、情绪/意图分析、主题分类等高级分析场景。
    • 帮助企业从大量历史录音中挖掘高价值洞察,用于业务优化、风控合规和用户研究。
  3. 实时与离线处理能力

    • 离线/预录音处理:对已有的录音文件进行批量转写和分析,适合呼叫中心录音归档、播客/视频字幕生成、会议纪要等。
    • 实时流式处理:支持构建实时语音代理、智能客服、语音助手等产品,具备超低延迟和高准确率。
    • 提供精细的“轮次结束”控制(end-of-turn control),便于构建自然流畅的对话式 Voice AI 体验。
  4. 企业级可靠性与可扩展性

    • 被从初创公司到世界 500 强在内的大量头部 Voice AI 公司采用。
    • 模型能力全面、功能完备,可支撑从 MVP 到大规模商用的全生命周期。
    • 架构支持快速横向扩展,可轻松服务数百万用户级别的并发需求。
  5. 开发者友好与集成灵活

    • 提供清晰的 API 接口与文档,便于快速集成到现有产品或工作流中。
    • 支持多种编程语言和框架,适配 Web、移动端、后端服务等多种应用形态。
    • 可与现有数据分析、BI、CRM、客服系统等工具联动,形成端到端语音数据解决方案。

通过 AssemblyAI,企业可以:

  • 为视频、播客、课程自动生成高质量字幕与文稿;
  • 为呼叫中心构建自动质检、情绪分析与客服绩效评估系统;
  • 为医疗、法律、金融等行业提供高精度记录与合规审计支持;
  • 搭建智能语音助手、语音机器人和多轮对话代理;
  • 对历史语音资产进行系统化整理和深度挖掘,释放语音数据价值。

简单使用教程

以下为基于 AssemblyAI API 的典型接入流程示例(概念级步骤,具体以官方文档为准):

步骤一:注册账号并获取 API Key

  1. 访问官网:https://www.assemblyai.com 。
  2. 注册或登录开发者账号。
  3. 在控制台中创建或查看你的 API Key,妥善保存,用于后续接口调用。

步骤二:准备音频数据

  1. 确认音频格式:常见如 WAV、MP3、M4A 等,一般都可支持。
  2. 尽量保证录音清晰、背景噪音可控,以获得更高转写准确率。
  3. 将音频文件上传到可访问的存储(如自有服务器、云存储),或使用 AssemblyAI 提供的上传接口。

步骤三:调用语音转写 API

  1. 在后端代码中引入 HTTP 请求库(如 Python 的 requests、Node.js 的 axios 等)。
  2. 在请求头中加入 Authorization: <你的 API Key>
  3. 调用 AssemblyAI 的转写创建接口,提交音频 URL 或上传后的文件 ID,并可在请求体中配置:
    • 是否启用多说话人识别;
    • 是否需要自动标点、时间戳;
    • 是否开启音频智能相关功能(如关键词、摘要等)。
  4. 记录返回的转写任务 ID。

步骤四:轮询或回调获取结果

  1. 使用任务 ID 调用查询接口,轮询任务状态(如 queuedprocessingcompleted)。
  2. 当状态为 completed 时,从响应中获取:
    • 完整转写文本;
    • 说话人分段信息(如启用);
    • 关键词、摘要、情绪等音频智能分析结果(如启用)。
  3. 将结果存入数据库,或直接展示在前端页面、管理后台等。

步骤五:集成到业务流程

  1. 将转写结果用于:搜索、归档、质检、分析报表、知识库构建等。
  2. 在实时场景中,将流式转写结果与对话引擎(如 LLM)结合,构建智能语音代理。
  3. 持续根据业务反馈调整模型配置(如是否启用多说话人、是否需要更详细的时间戳等),优化整体体验。

通过以上步骤,即可快速基于 AssemblyAI 构建从“语音到文字”再到“语音理解与洞察”的完整 Voice AI 能力链路。