产品详细介绍
Unreal Speech 是一款面向开发者和企业的云端文本转语音(Text-to-Speech, TTS)API 服务,主打“超低成本 + 生产可用 + 高扩展性”。相较于许多主流 TTS 服务,它在价格上大幅压缩,官方宣称在同类产品中可做到约 11 倍的成本优势,非常适合需要大规模合成语音的业务场景,例如在线教育、有声内容平台、游戏语音、客服机器人、语音播报系统等。
核心特性包括:
-
极致性价比:
- 相比部分头部 TTS 服务,费用可低至约 1/10 左右,适合长文本、海量内容的批量合成。
- 提供一定额度的免费字符配额(如 250K 字符免费),方便开发者低成本试用与集成验证。
-
低延迟流式播放:
- 支持在约 300ms 内开始流式输出音频,用户几乎可以“边生成边播放”。
- 适合实时交互类应用,如语音助手、在线客服、互动课堂等,对响应速度要求较高的场景。
-
长时音频生成能力:
- 单次请求可生成最长约 10 小时的音频,远超许多仅支持短音频的 TTS 服务。
- 适合长篇有声书、课程录音、播客批量生成等长内容场景,减少拆分文本与拼接音频的复杂度。
-
多语种与多声音角色:
- 支持 8 种语言,覆盖常见国际化需求,可用于多语言产品、本地化内容制作。
- 提供约 48 种不同声音(Voice),涵盖不同性别、音色与风格,方便根据品牌调性或场景选择合适的声音角色。
-
逐词时间戳(Per-word timestamps):
- 在生成音频的同时返回每个词的时间戳信息。
- 便于实现字幕同步、高亮跟读、卡拉 OK 式文本指示、学习类应用中的逐词对齐等功能。
-
面向生产环境设计:
- 提供标准化 HTTP API,易于集成到后端服务、内容生产流水线或内部工具中。
- 支持批量生成、流式传输等模式,适合高并发与大规模生产场景。
综合来看,Unreal Speech 的定位是“高性价比、可规模化”的 TTS 基础设施,尤其适合:
- 有大量文本需要转成语音的内容平台或教育机构;
- 对成本敏感、但又需要稳定生产级服务的创业团队与中小企业;
- 需要多语言、多声音角色支持的国际化产品;
- 需要逐词时间戳做字幕、跟读或学习辅助的应用。
简单使用教程
以下为基于 Unreal Speech 官方特性整理的简明使用流程,帮助你快速上手:
1. 注册账号并获取 API Key
- 访问官网:
https://unrealspeech.com/。 - 注册或登录账号,进入控制台(Dashboard)。
- 在“API”或“开发者”相关页面中创建并复制你的 API Key,妥善保存,不要在前端代码中明文暴露。
2. 了解基础请求参数
在调用 Unreal Speech 的 TTS API 时,一般需要关注以下核心参数(名称以官方文档为准):
text:要转换的文本内容,可为短句或长文;voice:选择的声音 ID 或名称,对应不同音色与角色;language:目标语言代码(如en、es等);format:输出音频格式(如mp3、wav等);stream:是否启用流式输出(布尔值);- 其他可选参数:语速、音量、情感风格等(以实际文档为准)。
3. 发起一次基础 TTS 请求
- 在后端(如 Node.js、Python、Java 等)中,通过 HTTP POST 请求调用 Unreal Speech 的 TTS 接口。
- 在请求头中加入:
Authorization: Bearer YOUR_API_KEYContent-Type: application/json
- 在请求体中传入:
- 文本内容
text; - 选择的
voice、language; - 输出格式
format等。
- 文本内容
- 接收返回的音频数据:
- 若为非流式模式,一般会返回完整音频文件或可下载链接;
- 若为流式模式,则按数据流分段接收并边写入边播放或保存。
4. 使用逐词时间戳做字幕或跟读
- 在请求中开启时间戳相关选项(如
timestamps: true或指定返回模式,具体以官方文档为准)。 - 在响应中解析每个词对应的开始/结束时间。
- 将时间戳与文本绑定,用于:
- 播放进度条上的字幕同步;
- 学习应用中的逐词高亮、跟读评分;
- 交互式阅读或卡拉 OK 式歌词显示。
5. 生成长时音频(如有声书/课程)
- 准备长文本内容(如章节、整本书或整门课程脚本)。
- 确认单次请求支持的最长时长(约 10 小时)与字符上限,必要时按章节拆分。
- 对每个章节发起 TTS 请求,统一使用同一声音与参数,保证音色一致性。
- 将生成的音频文件按章节管理,或在后处理阶段进行拼接与后期制作。
6. 控制成本与监控用量
- 在控制台查看:
- 已使用字符数;
- 费用统计与账单;
- 免费额度剩余情况(如 250K 字符免费配额)。
- 在服务端增加用量监控与限流策略:
- 对单用户或单应用的调用频率与字符数做限制;
- 避免异常调用导致费用激增。
通过以上步骤,你可以快速将 Unreal Speech 集成到网站、App、内容生产流水线或内部工具中,利用其低成本、多语种、长时音频与逐词时间戳等能力,构建高性价比的语音化产品与服务。




