Unreal Speech é uma API de conversão de texto para fala com latência ultrabaixa de 300ms e 48 vozes em 8 idiomas. Construída sobre o modelo open-source Kokoro TTS de 82M parâmetros, oferece os preços mais baratos do mercado—até 11x mais barato que ElevenLabs. Ideal para desenvolvedores e empresas.




O Unreal Speech representa uma solução inovadora para desenvolvedores que enfrentam desafios significativos com custos e latência em APIs de Text-to-Speech (TTS). A plataforma se destaca como a alternativa mais acessível do mercado, oferecendo preços até 11 vezes inferiores aos da ElevenLabs, mantendo qualidade de áudio competitiva e performance superior.
A arquitetura técnica do Unreal Speech fundamenta-se no modelo Kokoro TTS, um sistema open-source com 82 milhões de parâmetros que combina a eficiência do decoder-only com tecnologias avanzadas como StyleTTS 2 e iSTFTNet. Esta escolha tecnológica permite achieving ultra-low latency de 300ms em streaming de áudio, enquanto suporta geração de conteúdo com até 10 horas de duração contínua.
O mercado valida esta abordagem: a plataforma processa mensalmente mais de 70 bilhões de caracteres, servindo clientesenterprise como Listening.com, que reporta economia de 75% em custos TTS ao processar mais de 10.000 páginas por hora. A disponibilidade de 99.9% e a capacidade de suportar mais de 500 requisições simultâneas garantem confiabilidade para aplicações críticas em produção.
A plataforma oferece um conjunto abrangente de endpoints de API projetados para diferentes cenários de uso, desde interações em tempo real até geração assíncrona de áudio em larga escala.
Este endpoint é otimizado para conversão instantânea de textos curtos em áudio, com latência de aproximadamente 300ms. Suporta até 1.000 caracteres por requisição e utiliza processamento síncrono, tornando-o ideal para assistentes virtuais, chatbots e aplicações que exigem resposta imediata. A implementação técnica utiliza WebSocket para streaming em tempo real, permitindo que o áudio comece a reproduzir antes mesmo do processamento completo do texto.
Projetado para textos de comprimento médio, este endpoint processa até 3.000 caracteres por chamada com throughput de aproximadamente 1 segundo para cada 700 caracteres. A resposta inclui tanto o arquivo MP3 quanto URLs JSON contendo timestamps detalhados, facilitando a sincronização de legendas e highlight de texto em aplicações de aprendizado visual.
Para geração de conteúdo extensivo como audiobooks e materiais educacionais, este endpoint suporta até 500.000 caracteres por tarefa. O processamento ocorre de forma assíncrona, com retorno de um TaskId para polling de status. Usuários reportam que um audiobook de 6 horas pode ser gerado em apenas 4 minutos, demonstrando a eficiência do sistema para produção de conteúdo em larga escala.
Diferenciador competitivo significativo, esta funcionalidade fornece marcação precisa no nível de palavra ou frase. O tipo de timestamp suporta both word e sentence levels, habilitando aplicações como sincronização de legendas, ferramentas de aprendizado de idiomas, e highlight de texto em tempo real durante a reprodução de áudio. A implementação via WebSocket (/streamWithTimestamps) permite streaming contínuo com timestamps em tempo real.
A plataforma oferece 48 vozes distintasspread across 9 idiomas: inglês americano e britânico, francês, espanhol, japonês, chinês, italiano, português e hindi. O portfólio inclui vozes femininas como Sierra, Scarlett, Hannah, Emily, Ivy, Kaitlyn, Luna, Willow e Lauren, além de vozes masculinas como Noah, Jasper, Caleb, Ronan, Ethan, Daniel, Zane e Rowan. Cada voz foi otimizada para diferentes casos de uso e registros linguísticos.
Desenvolvedores têm acesso granular a configurações técnicas incluindo bitrate (32k a 320kbps), velocidade de fala (-1.0 a 1.0), tom (0.5 a 1.5), e codecs de encoding (libmp3lame e pcm_mulaw). Esta flexibilidade permite adaptar a saída de áudio para diferentes contextos de uso, desde aplicações móveis com restrições de banda até produções profissionais de alta fidelidade.
A produção de vídeos profissionais frequentemente esbarra no custo proibitivo de dublagem humana. O Unreal Speech resolve este problema através de geração em lote de áudios de alta qualidade, permitindo que criadores de conteúdo produza múltiplas versões linguísticas do mesmo material com fração do custo tradicional. A capacidade de processar grandes volumes de texto simultaneamente viabiliza Localization em escala para mercados globais.
O endpoint assíncrono com suporte a 500.000 caracteres (equivalente a aproximadamente 10 horas de áudio) torna o Unreal Speech uma solução robusta para conversão de livros em formato audiobook. Casos de uso demonstram que um audiobook de 6 horas pode ser gerado em apenas 4 minutos, transformando um processo que tradicionalmente levaria meses em questão de minutos. A qualidade natural das vozes reduz significativamente a necessidade de pós-produção.
Aplicações interativas exigem resposta em tempo real para manter imersão do usuário. A API de streaming com latência de 300ms permite geração dinâmica de diálogos durante gameplay, eliminando a necessidade de pré-gravação de todas as possíveis variações de texto. Esta abordagem reduz dramaticamente o armazenamento necessário e permite conteúdo verdadeiramente dinâmico.
Para usuários com deficiência visual ou dislexia, a qualidade da síntese de voz impacta diretamente na usabilidade de aplicações. As 48 vozes naturais do Unreal Speech superam significativamente a experiência de vozes mecânicas tradicionais, aumentando a taxa de adoção de ferramentas assistivas. O suporte a múltiplos idiomas garante acessibilidade para comunidades linguísticas diversas.
A experiência do usuário em interfaces conversacionais depende diretamente da latência de resposta. O streaming em tempo real do Unreal Speech permite que respostas de áudio comecem a ser reproduzidas em 300ms, criando interação natural semelhante a conversas humanas. O suporte a múltiplas vozes permite personalização da identidade vocal do assistente.
A funcionalidade de timestamps por palavra representa valor significativo para plataformas educacionais. Professores podem criar materiais onde o texto highlighted sincroniza perfeitamente com a pronúncia, auxiliando estudantes de idiomas e pessoas com dificuldades de leitura. O processamento em lote permite Scalability para instituições educacionais com milhares de alunos.
Sistemas de resposta interativa automatizada beneficiam-se de vozes naturais que reduzem fadiga do usuário durante navegação telefônica. O suporte a 9 idiomas permite implementação de sistemas IVR multilíngues sem necessidade de infraestrutura separada por idioma, simplificando operações de call centers globais.
A capacidade de processamento em alta concurrent permite que estúdios de podcast e redação de notícias escalem produção de conteúdo audio sem aumento proporcional de custos. A geração automatizada de episódios a partir de artigos escritos reduz significativamente o tempo de produção.
A integração com o Unreal Speech foi projetada para mínima fricção, com SDKs oficiais disponíveis para as linguagens mais populares entre desenvolvedores.
O primeiro passo consiste em criar uma conta no portal Unreal Speech e gerar uma API Key através do Dashboard. O processo é direto e não requer aprovação manual para começar a desenvolver. Keys de desenvolvimento podem ser criadas gratuitamente com acesso ao plano Free (250K caracteres/mês).
A integração em Python utiliza a biblioteca requests para chamadas HTTP síncronas:
import requests
api_key = "SUA_API_KEY"
url = "https://api.v8.unrealspeech.com/speech"
headers = {
"Authorization": api_key,
"Content-Type": "application/json"
}
payload = {
"text": "Olá, bem-vindo ao Unreal Speech!",
"voice_id": "Scarlett",
"bitrate": "192k",
"speed": 0,
"pitch": 1,
"output_format": "mp3"
}
response = requests.post(url, json=payload, headers=headers)
audio_data = response.content
Para ambientes Node.js, a biblioteca axios oferece interface similar:
const axios = require('axios');
const apiKey = 'SUA_API_KEY';
const url = 'https://api.v8.unrealspeech.com/speech';
const payload = {
text: 'Olá, bem-vindo ao Unreal Speech!',
voice_id: 'Scarlett',
bitrate: '192k',
speed: 0,
pitch: 1,
output_format: 'mp3'
};
axios.post(url, payload, {
headers: { 'Authorization': apiKey }
}).then(response => {
// response.data contém os dados do áudio
});
Para aplicações mobile, o hook useUnrealSpeech oferece integração otimizada:
import { useUnrealSpeech } from '@unrealspeech/react-native';
function AudioPlayer() {
const { generateSpeech, isGenerating } = useUnrealSpeech('SUA_API_KEY');
const handleGenerate = async () => {
const audio = await generateSpeech({
text: 'Olá, mundo!',
voiceId: 'Scarlett',
bitrate: '128k'
});
// Reproduzir áudio
};
return (
<button onPress={handleGenerate} disabled={isGenerating}>
{isGenerating ? 'Gerando...' : 'Ouvir'}
</button>
);
}
Para testes rápidos e automação:
curl -X POST "https://api.v8.unrealspeech.com/speech" \
-H "Authorization: SUA_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "Olá, bem-vindo!",
"voice_id": "Scarlett",
"output_format": "mp3"
}' \
-o audio.mp3
A documentação completa da API está disponível em https://docs.v8.unrealspeech.com/, incluindo referências detalhadas de todos os endpoints, códigos de erro, e exemplos avançados para casos de uso específicos.
Para aplicações em produção, considere utilizar bitrate de 192k para equilíbrio entre qualidade e tamanho de arquivo. Para streaming em tempo real, 128k é suficiente. A voz Scarlett oferece versatility para diversos contextos, sendo um bom ponto de partida para experimentação.
O Kokoro TTS representa uma evolução significativa na arquitetura de síntese de voz. O modelo combina o transformer decoder do StyleTTS 2 com o vocoder iSTFTNet, criando uma arquitetura decoder-only que elimina a necessidade de processos de difusão. Esta abordagem de single-pass generation contrasta com modelos tradicionais como Tacotron 2 e FastSpeech 2, que requerem múltiplas etapas de processamento.
A escolha por uma arquitetura decoder-only simplifica o pipeline de inferência e reduz drasticamente a latência. Sem estágios intermediários de alinhamento ou predicted de parâmetros Prosody, o modelo gera áudio diretamente a partir da representação textual, optimizando cada etapa do processo.
Os benchmarks demonstram performance excepcional em diferentes configurações de hardware:
| Métrica | GPU (RTX 4090) | CPU (Modern) |
|---|---|---|
| Velocidade | até 210× realtime | 3-11× realtime |
| Latência típica | 40-70ms | 100-300ms |
| throughput | ~800 chars/s | ~100 chars/s |
A capacidade de suportar mais de 500 requisições simultâneas com tempo de resposta médio de 2 segundos evidencia a arquitetura escalável do serviço, adequada para aplicações enterprise com alto volume de tráfego.
Com apenas 82 milhões de parâmetros, o Kokoro representa uma fração do tamanho de modelos concorrentes: 1/6 do XTTS v2 e 1/15 do MetaVoice. Esta compactura não compromete a qualidade, como evidenciado pelo primeiro lugar no HuggingFace TTS Spaces Arena para voice quality em avaliações single-speaker.
O treinamento do modelo requer aproximadamente 500 GPU horas em A100, com custo estimado de $400, demonstrando viabilidade de reproducibilidade e開放 do projeto sob licença Apache 2.0.
A estrutura de preços do Unreal Speech foi desenhada para oferecer escalabilidade previsível, desde desenvolvedores individuais até empresas com necessidades de processamento em larga escala.
| Plano | Preço Mensal | Caracteres/Mês | Áudio Aprox. | Características |
|---|---|---|---|---|
| Free | $0 | 250K | ~6 horas | Requer atribuição |
| Basic | $4,99 | 3M | ~67 horas | Comercial, sem atribuição |
| Plus | $499 | 42M | ~933 horas | Alta volume |
| Pro | $1.499 | 150M | ~3.000 horas | Enterprise |
| Enterprise | $4.999 | 625M | ~14.000 horas | Volume discounts |
| Personalizado | Sob consulta | 1B+ | Sob demanda | Negociação direta |
Quando o limite mensal é ultrapassado, tarifas progressivas se aplicam baseado no plano ativo:
O plano Free reseta automaticamente no primeiro dia de cada mês. Planos pagos utilizam sistema de renovação rolling, onde caracteres não utilizados são carried over para o próximo ciclo de faturamento, proporcionando flexibilidade operacional.
O Unreal Speech oferece 48 vozes distintas em 9 idiomas: inglês americano, inglês britânico, francês, espanhol, japonês, chinês, italiano, português e hindi. As vozes incluem opções femininas (Sierra, Scarlett, Hannah, Emily, Ivy, Kaitlyn, Luna, Willow, Lauren) e masculinas (Noah, Jasper, Caleb, Ronan, Ethan, Daniel, Zane, Rowan), cada uma otimizada para diferentes registros e casos de uso.
Atualmente, o voice cloning não é suportado nativamente. Esta funcionalidade está em desenvolvimento e deve ser disponibilizada em futuras atualizações. Para necessidades de voices customizadas, recomenda-se acompanhar o blog oficial para anúncios de funcionalidades.
A Cobrança excedente é calculada proporcionalmente baseado no seu plano ativo. As taxas variam de $8 a $16 por milhão de caracteres, dependendo do plano. O sistema alerta automaticamente quando você se aproxima do limite, permitindo upgrade ou gerenciamento de uso.
No plano Free, caracteres não utilizados expiram no dia 1 de cada mês. Para planos pagos, caracteres não utilizados fazem roll over para o próximo ciclo de faturamento, proporcionando flexibilidade no uso dos recursos contratados.
Sim, todos os planos pagos permitem uso comercial sem necessidade de atribuição. O plano Free requer que você inclua atribuição ao Unreal Speech no conteúdo gerado. Planos Basic, Plus, Pro e Enterprise não têm este requisito.
Acesse o Dashboard do Unreal Speech e navegue até "Manage Subscription" para atualizar informações de pagamento, alterar plano ou visualizar histórico de cobranças.
Sim, o programa de indicação oferece 15% de comissão recorrente (recurring) para cada cliente indicado que se matricular em plano pago. O link de indicação está disponível em https://unreal.tolt.io/.
Descubra as últimas ferramentas de IA e aumente sua produtividade hoje.
Explorar todas as ferramentasUnreal Speech é uma API de conversão de texto para fala com latência ultrabaixa de 300ms e 48 vozes em 8 idiomas. Construída sobre o modelo open-source Kokoro TTS de 82M parâmetros, oferece os preços mais baratos do mercado—até 11x mais barato que ElevenLabs. Ideal para desenvolvedores e empresas.
Um app. Seu negócio de coaching inteiro
Construtor de sites com IA para todos
Fotos de dating com IA que realmente funcionam
Diretório popular de ferramentas de IA para descoberta e promoção
Plataforma de lançamento de produtos para fundadores com backlinks SEO
Cursor vs Windsurf vs GitHub Copilot — comparamos funcionalidades, preços, modelos de IA e desempenho real para te ajudar a escolher o melhor editor de código com IA em 2026.
Domine a criação de conteúdo com IA com nosso guia completo. Descubra as melhores ferramentas de IA, fluxos de trabalho e estratégias para criar conteúdo de alta qualidade mais rápido em 2026.