产品详细介绍

Unreal Speech 是一款面向开发者和企业的云端文本转语音(Text-to-Speech, TTS)API 服务,主打“超低成本 + 生产可用 + 高扩展性”。相较于许多主流 TTS 服务,它在价格上大幅压缩,官方宣称在同类产品中可做到约 11 倍的成本优势,非常适合需要大规模合成语音的业务场景,例如在线教育、有声内容平台、游戏语音、客服机器人、语音播报系统等。

核心特性包括:

  1. 极致性价比

    • 相比部分头部 TTS 服务,费用可低至约 1/10 左右,适合长文本、海量内容的批量合成。
    • 提供一定额度的免费字符配额(如 250K 字符免费),方便开发者低成本试用与集成验证。
  2. 低延迟流式播放

    • 支持在约 300ms 内开始流式输出音频,用户几乎可以“边生成边播放”。
    • 适合实时交互类应用,如语音助手、在线客服、互动课堂等,对响应速度要求较高的场景。
  3. 长时音频生成能力

    • 单次请求可生成最长约 10 小时的音频,远超许多仅支持短音频的 TTS 服务。
    • 适合长篇有声书、课程录音、播客批量生成等长内容场景,减少拆分文本与拼接音频的复杂度。
  4. 多语种与多声音角色

    • 支持 8 种语言,覆盖常见国际化需求,可用于多语言产品、本地化内容制作。
    • 提供约 48 种不同声音(Voice),涵盖不同性别、音色与风格,方便根据品牌调性或场景选择合适的声音角色。
  5. 逐词时间戳(Per-word timestamps)

    • 在生成音频的同时返回每个词的时间戳信息。
    • 便于实现字幕同步、高亮跟读、卡拉 OK 式文本指示、学习类应用中的逐词对齐等功能。
  6. 面向生产环境设计

    • 提供标准化 HTTP API,易于集成到后端服务、内容生产流水线或内部工具中。
    • 支持批量生成、流式传输等模式,适合高并发与大规模生产场景。

综合来看,Unreal Speech 的定位是“高性价比、可规模化”的 TTS 基础设施,尤其适合:

  • 有大量文本需要转成语音的内容平台或教育机构;
  • 对成本敏感、但又需要稳定生产级服务的创业团队与中小企业;
  • 需要多语言、多声音角色支持的国际化产品;
  • 需要逐词时间戳做字幕、跟读或学习辅助的应用。

简单使用教程

以下为基于 Unreal Speech 官方特性整理的简明使用流程,帮助你快速上手:

1. 注册账号并获取 API Key

  1. 访问官网:https://unrealspeech.com/
  2. 注册或登录账号,进入控制台(Dashboard)。
  3. 在“API”或“开发者”相关页面中创建并复制你的 API Key,妥善保存,不要在前端代码中明文暴露。

2. 了解基础请求参数

在调用 Unreal Speech 的 TTS API 时,一般需要关注以下核心参数(名称以官方文档为准):

  • text:要转换的文本内容,可为短句或长文;
  • voice:选择的声音 ID 或名称,对应不同音色与角色;
  • language:目标语言代码(如 enes 等);
  • format:输出音频格式(如 mp3wav 等);
  • stream:是否启用流式输出(布尔值);
  • 其他可选参数:语速、音量、情感风格等(以实际文档为准)。

3. 发起一次基础 TTS 请求

  1. 在后端(如 Node.js、Python、Java 等)中,通过 HTTP POST 请求调用 Unreal Speech 的 TTS 接口。
  2. 在请求头中加入:
    • Authorization: Bearer YOUR_API_KEY
    • Content-Type: application/json
  3. 在请求体中传入:
    • 文本内容 text
    • 选择的 voicelanguage
    • 输出格式 format 等。
  4. 接收返回的音频数据:
    • 若为非流式模式,一般会返回完整音频文件或可下载链接;
    • 若为流式模式,则按数据流分段接收并边写入边播放或保存。

4. 使用逐词时间戳做字幕或跟读

  1. 在请求中开启时间戳相关选项(如 timestamps: true 或指定返回模式,具体以官方文档为准)。
  2. 在响应中解析每个词对应的开始/结束时间。
  3. 将时间戳与文本绑定,用于:
    • 播放进度条上的字幕同步;
    • 学习应用中的逐词高亮、跟读评分;
    • 交互式阅读或卡拉 OK 式歌词显示。

5. 生成长时音频(如有声书/课程)

  1. 准备长文本内容(如章节、整本书或整门课程脚本)。
  2. 确认单次请求支持的最长时长(约 10 小时)与字符上限,必要时按章节拆分。
  3. 对每个章节发起 TTS 请求,统一使用同一声音与参数,保证音色一致性。
  4. 将生成的音频文件按章节管理,或在后处理阶段进行拼接与后期制作。

6. 控制成本与监控用量

  1. 在控制台查看:
    • 已使用字符数;
    • 费用统计与账单;
    • 免费额度剩余情况(如 250K 字符免费配额)。
  2. 在服务端增加用量监控与限流策略:
    • 对单用户或单应用的调用频率与字符数做限制;
    • 避免异常调用导致费用激增。

通过以上步骤,你可以快速将 Unreal Speech 集成到网站、App、内容生产流水线或内部工具中,利用其低成本、多语种、长时音频与逐词时间戳等能力,构建高性价比的语音化产品与服务。