Unreal Speech - 300ms 超低延迟的业界最便宜 TTS API

上线于 2025年2月23日

Unreal Speech 是一款文本转语音 API 服务，提供 300ms 超低延迟流式响应和 48 种语音、8 种语言支持。基于开源 Kokoro TTS 82M 参数模型构建，价格比 ElevenLabs 便宜高达 11 倍，是市场上最便宜的 TTS 解决方案。非常适合开发者、内容创作者和企业构建语音应用。

AI 音频免费增值企业级多语言支持文字转语音 (TTS)提供 API开源

访问网站

什么是 Unreal Speech Unreal Speech 的核心功能 Unreal Speech 的应用场景快速开始：接入 Unreal Speech API 技术特点：Kokoro TTS 架构与性能基准 Unreal Speech 的定价方案常见问题评论相关内容

什么是 Unreal Speech

在语音合成领域，开发者和企业长期面临着成本高昂与延迟过高的双重挑战。传统 Text-to-Speech 服务的商用价格往往让中小型项目难以承受，而响应延迟更是制约了实时语音交互应用的发展。Unreal Speech 正是为解决这些痛点而生的新一代文本转语音 API 服务。

Unreal Speech 定位为市场上最便宜的 Text-to-Speech API 解决方案，其核心差异化优势体现在三个关键维度：首先是价格竞争力——比 ElevenLabs 便宜约 11 倍；其次是超低延迟——流式响应仅需 300ms；第三是长文本支持——单次任务可生成最长 10 小时的音频内容。

从技术底层来看，Unreal Speech 基于开源 Kokoro TTS 82M 参数模型构建，这是一款融合 StyleTTS 2 和 iSTFTNet 创新设计的先进语音合成模型。平台目前每月处理超过 70 亿字符的文本转换请求，服务覆盖视频配音、播客制作、有声书生成、游戏语音、VR 应用、无障碍工具、语音助手、在线教育以及 IVR 电话系统等多个领域。代表性客户包括 Listening.com，其 CEO Derek Pankaew 公开表示使用 Unreal Speech 处理每小时超过 10,000 页面的语音转换需求，成功节省了 75% 的 TTS 成本。

核心要点

300ms 超低延迟流式响应，满足实时语音交互需求
48 种声音覆盖 8 种语言，适配全球化应用场景
业界最便宜的 TTS API 定价，成本仅为竞品 1/11
业界领先的词级时间戳功能，支持字幕同步与语音学习应用
基于开源 Kokoro TTS 82M 参数模型，透明可验证

Unreal Speech 的核心功能

Unreal Speech 提供了一套完整的文本转语音 API 接口矩阵，从即时流式响应到大规模批量处理，能够满足不同业务场景的需求。

流式音频 API（/stream） 是面向实时语音交互场景的核心接口。该 API 采用同步调用方式，专门处理短文本的即时转换，最长支持 1,000 字符的输入。在性能表现上，从请求发起到首帧音频返回仅需约 300ms 延迟，非常适合语音助手、聊天机器人、实时语音对话等对响应速度有严格要求的应用场景。

标准语音 API（/speech） 面向中等长度的文本转语音需求，同样采用同步调用方式，但将输入限制放宽至 3,000 字符。典型处理速度约为每秒 700 字符，API 返回 MP3 音频文件的同时，还提供 JSON 格式的时间戳 URL，方便开发者实现音频与文本的精确同步。

异步长音频任务（/synthesisTasks） 是为大规模音频生成场景设计的关键功能。当需要将长篇小说、完整课程内容或大量文本批量转换为语音时，开发者可以提交最长 500,000 字符的转换任务。系统以异步方式处理，返回 TaskId 供开发者轮询任务状态。处理速度约为每秒 800 字符，实测显示 6 小时时长的有声书内容仅需约 4 分钟即可完成生成。

词级时间戳（Per-word Timestamps） 是 Unreal Speech 的业界领先功能。不同于传统 TTS 仅提供音频文件，该功能可以精确标注每个单词或每个句子在音频中的起始和结束时间位置。TimestampType 支持 "word" 和 "sentence" 两种模式。通过 WebSocket 方式的 /streamWithTimestamps 接口，还可以实时流式返回时间戳数据。这一功能在词级高亮同步、动态字幕生成、语音学习应用等场景中具有独特价值。

在多语言支持方面，Unreal Speech 覆盖了 8 种语言（美式英语、英式英语、法语、印地语、西班牙语、日语、汉语、意大利语、葡萄牙语），提供 48 种可选声音。女声包括 Sierra、Scarlett、Hannah、Emily、Ivy、Kaitlyn、Luna、Willow、Lauren 等；男声包括 Noah、Jasper、Caleb、Ronan、Ethan、Daniel、Zane、Rowan 等。

音频参数方面，开发者可以精细控制比特率（32k 到 320k 共 9 档）、语速（-1.0 到 1.0）、音调（0.5 到 1.5），并选择 libmp3lame 或 pcm_mulaw 编码格式。

超低延迟：流式 API 300ms 响应，实时语音交互无压力
灵活扩展：从短文本到 10 小时长音频，全场景覆盖
时间戳支持：业界唯一提供词级时间戳的商用 TTS API
成本优势：相同质量下价格仅为竞品 1/11
开源透明：基于 Kokoro TTS 模型，可自行部署验证

不支持声音克隆：暂不提供自定义声音克隆功能（正在开发中）
免费计划限制：需署名才能使用免费配额
并发瓶颈：500+ 同时请求时响应时间约 2 秒，极端高并发场景需评估

Unreal Speech 的应用场景

Unreal Speech 的技术特性使其能够适配多样化的实际应用场景，以下是典型用例与对应的 API 选择建议。

视频与内容创作是 TTS 应用最广泛的领域之一。传统专业配音成本高昂，录制周期长，难以快速迭代。Unreal Speech 的标准语音 API 支持批量生成高质量配音，大幅降低内容创作成本，同时支持多语言本地化，便于制作面向不同市场的内容版本。开发者可以结合词级时间戳功能，为视频自动生成同步字幕。

有声书制作是长文本 API 的典型受益场景。传统有声书录制需要专业录音棚和播音员，耗时数月，成本动辄数万元。Unreal Speech 的异步长音频任务支持最长 10 小时音频单次生成，用户案例显示 6 小时有声书仅需 4 分钟即可完成转换，大幅压缩了制作周期和成本。

游戏与 VR 应用对语音延迟极为敏感。动态语音内容需要实时生成，任何明显延迟都会破坏沉浸式体验。Unreal Speech 的流式 API 实现 300ms 超低延迟响应，支持实时生成对话，配合多语言多声音选择，可以为游戏角色赋予丰富多样的语音个性。

无障碍工具领域对语音自然度要求极高。机械生硬的合成语音会显著降低视障用户等群体的使用意愿。Unreal Speech 提供 48 种自然人声选择，生成的音频流畅自然，用户更愿意长期使用，有效提升产品的可访问性体验。

语音助手与聊天机器人是流式 API 的核心应用场景。实时流式 API 能够实现自然流畅的人机对话，响应延迟直接影响交互体验。300ms 的超低延迟确保对话节奏自然，不会出现令人尴尬的等待空白。

在线教育场景可以充分利用词级时间戳功能。课程内容的音频化不仅便于复习，同步字幕与语音的结合也能显著提升学习体验。词级时间戳支持实现文字与语音的精确对应，学生点击任意单词即可听到正确发音，非常适合语言学习类应用。

IVR 电话系统传统上依赖机械感的合成语音，客户体验不佳。Unreal Speech 的自然语音和多语言支持可以显著提升客户满意度，尤其适合需要国际化服务的企业客服场景。

播客与新闻领域需要持续高效的内容生产。批量处理能力和高并发支持使 Unreal Speech 能够支撑大规模内容日产需求，播客创作者可以快速将文稿转换为可发布的高质量音频。

API 场景选择建议

实时语音交互（语音助手、聊天机器人）：使用 /stream 流式 API
短视频配音、通知播报：使用 /speech 标准 API
有声书、长课程、批量转换：使用 /synthesisTasks 异步任务
需要字幕同步或词级高亮：添加 timestamps 参数或使用 /streamWithTimestamps

快速开始：接入 Unreal Speech API

Unreal Speech 为主流开发平台提供了完善的 SDK 支持，开发者可以在几分钟内完成接入。

首先需要访问 Unreal Speech 官网注册账户，完成注册后即可在仪表板获取 API Key。API 文档地址为 https://docs.v8.unrealspeech.com/，其中包含所有接口的详细说明和参数定义。

Python SDK 是最常用的接入方式，基于标准的 requests 库实现：

import requests

API_KEY = "your_api_key_here"
BASE_URL = "https://api.v8.unrealspeech.com"

def text_to_speech(text, voice_id="scarlett"):
    response = requests.post(
        f"{BASE_URL}/speech",
        headers={"Authorization": f"Bearer {API_KEY}"},
        data={
            "text": text,
            "voiceId": voice_id,
            "bitrate": "192k",
            "speed": "0",
            "pitch": "1.0"
        }
    )
    return response.json()

Node.js SDK 使用 axios HTTP 客户端进行调用：

const axios = require('axios');

const apiKey = 'your_api_key_here';
const baseUrl = 'https://api.v8.unrealspeech.com';

async function textToSpeech(text, voiceId = 'scarlett') {
  const response = await axios.post(
    `${baseUrl}/speech`,
    {
      text: text,
      voiceId: voiceId,
      bitrate: '192k',
      speed: '0',
      pitch: '1.0'
    },
    {
      headers: { Authorization: `Bearer ${apiKey}` }
    }
  );
  return response.data;
}

React Native 开发者可以使用专用的 useUnrealSpeech hook：

import { useUnrealSpeech } from '@unrealspeech/react-native';

function AudioPlayer() {
  const { convertTextToSpeech, isLoading, error } = useUnrealSpeech({
    apiKey: 'your_api_key_here'
  });

  const handleConvert = async () => {
    const audio = await convertTextToSpeech('Hello world', 'scarlett');
    // 播放音频
  };

  return <button onClick={handleConvert}>Convert to Speech</button>;
}

Bash/命令行用户可以直接使用 curl：

curl -X POST "https://api.v8.unrealspeech.com/speech" \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d "text=Hello world" \
  -d "voiceId=scarlett" \
  -d "bitrate=192k" \
  -d "speed=0" \
  -d "pitch=1.0"

最佳实践建议

比特率选择：在线播放推荐 128k-192k，语音质量要求高时用 256k-320k，仅存储传输可用 64k 以下
速度参数：默认 0 保持原速，正值加快、负值减慢，建议范围 -0.5 到 0.5
声音选择：正式内容推荐 Sierra、Scarlett，日常内容可用 Ivy、Luna
长文本处理：超过 3,000 字符使用异步任务 API，避免超时

技术特点：Kokoro TTS 架构与性能基准

Unreal Speech 的核心技术底座是 Kokoro TTS，这是一款融合多项创新设计的先进语音合成模型。

架构设计方面，Kokoro TTS 采用了融合 StyleTTS 2 和 iSTFTNet 的混合架构。模型使用 transformer decoder 作为主体，集成 iSTFTNet 高效 vocoder，整体采用 decoder-only 设计，无需传统的扩散过程即可完成语音生成。这种单次传递的生成方式与传统的 Tacotron 2（两阶段：encoder-decoder + vocoder）和 FastSpeech 2（两阶段：mel-spectrogram + vocoder）有本质区别。

模型参数规模为 82M，在商用 TTS 模型中属于轻量级——仅为 XTTS v2 的 1/6，MetaVoice 的 1/15。轻量化的模型带来显著的资源效率优势，训练成本仅需约 500 GPU 小时（A100），总成本约 400 美元，这使得模型的持续迭代和优化成为可能。

性能指标展现了 Kokoro TTS 的效率优势。在高端消费级 GPU（RTX 4090）上，模型最高可达到 210 倍实时（210× RT）的处理速度；在 CPU 环境下，典型速度为 3-11 倍实时。首帧延迟（Time to First Frame）在 GPU 上仅为 40-70ms，这正是 Unreal Speech 能够实现 300ms 端到端流式响应的技术基础。平台支持 500+ 并发请求，极端压力下响应时间约为 2 秒。

行业认可方面，Kokoro TTS 在 HuggingFace TTS Spaces Arena 评测中获得单人语音质量第一名，证明了其不仅在效率上有优势，生成语音的质量也达到了业界领先水平。

极低延迟：单次传递架构，无需扩散迭代，GPU 延迟仅 40-70ms
高效推理：210× 实时（GPU），3-11× 实时（CPU），资源消耗低
轻量模型：82M 参数，训练成本低，易于迭代优化
开源透明：Apache 2.0 许可证，可自行部署验证
质量领先：HuggingFace TTS Spaces Arena 语音质量第一名

模型尺寸限制：82M 参数相对较小，极端复杂语音场景可能有局限
无声音克隆：不支持自定义声音克隆功能
语言覆盖：8 种语言虽主流，但相比 Google/Microsoft 等大厂仍有扩展空间

Unreal Speech 的定价方案

Unreal Speech 提供清晰的层级定价，从免费个人使用到企业级大规模部署均有对应方案。

计划	价格	字符配额	音频时长（约）	超额费率
Free	$0/月	250K	~6小时	$16/百万字符
Basic	$4.99/月	3M	~67小时	$16/百万字符
Plus	$499/月	42M	~933小时	$12/百万字符
Pro	$1,499/月	150M	~3,000小时	$10/百万字符
Enterprise	$4,999/月	625M	~14,000小时	$8/百万字符
自定义	询价	10亿+	volume discounts	定制

Free 计划适合个人开发者和小型项目测试，每月提供 250,000 字符配额（约 6 小时音频），但需在使用时署名。超出配额后按 $16/百万字符计费。每月 1 日自动重置配额。

Basic 计划是入门级商用选择，$4.99/月获得 300 万字符配额（约 67 小时），无需署名，可完全商用。适合播客创作、小型教育内容制作等场景。

Plus 计划面向中等规模团队，$499/月提供 4,200 万字符（约 933 小时），超额费率为 $12/百万字符。适合有声书制作公司、在线教育平台等。

Pro 计划针对大规模商业应用，$1,499/月提供 1.5 亿字符（约 3,000 小时），超额费率降至 $10/百万字符。支持大型内容平台、IVR 系统运营商等。

Enterprise 计划面向大型企业，$4,999/月提供 6.25 亿字符（约 14,000 小时），超额费率最低 $8/百万字符。还可获得优先技术支持、SLA 保证等企业级服务。

自定义计划面向超大规模用户，10 亿字符以上可联系销售获取 volume discounts 优惠。

计划选择建议

个人开发者/学习测试：Free 计划（注意署名要求）
小型播客/教育内容：Basic 计划，$4.99/月
有声书制作/在线教育：Plus 计划，$499/月
大型内容平台/IVR 系统：Pro 计划，$1,499/月
超大规模/企业级需求：Enterprise 计划或自定义

常见问题

Unreal Speech 支持哪些语言和声音？

Unreal Speech 目前支持 8 种语言，包括美式英语、英式英语、法语、印地语、西班牙语、日语、汉语、意大利语和葡萄牙语。共提供 48 种可选声音，女声包括 Sierra、Scarlett、Hannah、Emily、Ivy、Kaitlyn、Luna、Willow、Lauren 等，男声包括 Noah、Jasper、Caleb、Ronan、Ethan、Daniel、Zane、Rowan 等。

Unreal Speech 是否支持声音克隆？

目前暂不支持声音克隆功能。但该功能已在开发路线图中，预计将在未来版本中推出。开发者可以关注官方博客或 GitHub 仓库获取最新功能更新。

超出月配额后如何计费？

超出月配额后，系统根据当前计划按比例收取超额费用。Free 和 Basic 计划超额费率为 $16/百万字符，Plus 计划为 $12/百万字符，Pro 计划为 $10/百万字符，Enterprise 计划为 $8/百万字符。超额费用将在下个账单周期一并结算。

未使用的字符配额会过期吗？

Free 计划每月 1 日自动重置配额，未使用的字符不会累积。付费计划（Basic、Plus、Pro、Enterprise）采用滚动机制，当月未使用的字符会自动延续到下个账单周期，不会过期。

生成的音频可以商用吗？

可以。所有付费计划（Basic 及以上）生成的音频均可用于商业用途，无需额外授权或署名。Free 计划生成的音频需要署名才能商用。

如何更新支付方式？

登录 Unreal Speech 仪表板后，点击 "Manage Subscription" 进入订阅管理页面，可以添加、更新或移除绑定的信用卡/借记卡。如需更换支付账户或使用企业发票，请联系 support@unrealspeech.com。

有推荐计划吗？

是的，Unreal Speech 提供推荐奖励计划。通过官方推荐链接成功邀请新用户注册并订阅付费计划，推荐人可获得 15% 的 recurring 佣金。推荐链接生成请访问 https://unreal.tolt.io/。

Unreal Speech

300ms 超低延迟的业界最便宜 TTS API

访问网站

精选

查看全部

Humanio

让AI文本读起来像真实人类写作的智能工具

GhostShorts

AI驱动的病毒式短视频自动生成平台

IdeaPanda

基于真实用户投诉研究验证的商业创意引擎

MenaJobs

专为海湾地区打造的AI求职与简历优化平台

Teleprompter

本地优先的轻量提词器让你自然看镜头不卡词

精选文章

2026 年 12 款最佳 AI 编程工具：实测排名

我们实测了 30+ 款 AI 编程工具，精选出 2026 年最值得用的 12 款。涵盖 Cursor、GitHub Copilot、Windsurf 等热门工具的功能、定价与实际表现对比。

2026 年 AI 内容创作完全指南

通过我们的全面指南掌握 AI 内容创作。发现最佳 AI 工具、工作流和策略，在 2026 年更快地创作高质量内容。

信息

访问量

更新时间

请先登录再发表评论。

还没有评论。成为第一个分享想法的人吧！