Unreal Speech est une API de synthèse vocale avec une latence ultra-faible de 300ms et 48 voix en 8 langues. Basée sur le modèle open-source Kokoro TTS de 82M paramètres, elle offre les prix les plus bas du marché—jusqu'à 11x moins chère que ElevenLabs. Idéale pour les développeurs et les entreprises.




Dans le domaine du développement d'applications vocales, les développeurs font face à un défi majeur : les solutions Text-to-Speech (TTS) existantes présentent souvent des coûts prohibitifs et des latences élevées qui compromettent l'expérience utilisateur. Les API traditionnelles proposent des tarifs qui peuvent rapidement devenir insupportables pour les projets à fort volume, tandis que les temps de réponse empêchent toute application en temps réel. C'est précisément pour répondre à ces problématiques qu'Unreal Speech a été conçu.
Unreal Speech se positionne comme l'API Text-to-Speech la plus économique du marché, avec un tarif 11 fois inférieur à celui d'ElevenLabs pour une qualité comparable. Cette différence de coût représente une économie considérable pour les entreprises qui traitent des volumes importants de texte, notamment dans les secteurs de la production de contenu audio, des applications d'accessibilité ou des assistants vocaux interactifs.
La plateforme repose sur une architecture technique innovante basée sur le modèle open-source Kokoro TTS, un système de 82 millions de paramètres qui combine la puissance du StyleTTS 2 avec l'efficacité du vocoder iSTFTNet. Cette combinaison unique permet d'atteindre une latence exceptionnelle de 300 millisecondes en mode streaming, tout en supportant la génération d'audio pouvant atteindre 10 heures en une seule requête asynchrone. Une功能 particulièrement appréciée des producteurs de contenus longs comme les有声书.
Sur le plan de la fiabilité, Unreal Speech traite chaque mois plus de 70 milliards de caractères pour une base clients diversifiée incluant des entreprises comme Listening.com. Cette dernière, dirigée par Derek Pankaew, utilise la plateforme pour traiter plus de 10 000 pages par heure, réalisant ainsi une économie de 75% sur ses coûts TTS précédents. Avec un uptime de 99,9%, le service garantit une disponibilité constante pour les applications critiques.
La plateforme propose une gamme complète d'API adaptées à différents cas d'utilisation, chacune optimisée pour des besoins spécifiques en termes de volume et de temps de réponse.
Cette endpoint est conçue pour les applications nécessitant une conversion texte-voix en temps réel. Avec une latence de seulement 300 millisecondes, elle permet des interactions vocales fluides pour les assistants virtuels, les chatbots ou les applications d'accessibilité. La requête accepte des textes jusqu'à 1 000 caractères, avec un retour immédiat du flux audio.
Pour les contenus de longueur moyenne, l'API /speech offre un équilibre optimal entre vitesse et volume. Elle traite des textes allant jusqu'à 3 000 caractères avec un débit d'environ 1 seconde pour 700 caractères. En plus du fichier audio au format MP3, cette endpoint retourne une URL JSON contenant les timestamps précis de chaque mot ou phrase, permettant une synchronisation fine avec d'autres médias.
Les projets nécessitant la génération de longs contenus audio bénéficient d'un système de traitement asynchrone capable de gérer jusqu'à 500 000 caractères par requête. Cette fonctionnalité s'avère idéale pour la production自动化 d有声书, de cours en ligne ou de contenus podcast. Le système retourne un identifiant de tâche permettant de suivre l'avancement de la génération.
Cette fonctionnalité exclusive distingue Unreal Speech de la concurrence. Elle permet d'obtenir des marqueurs temporels précis pour chaque mot ou phrase, avec deux modes de sortie : word et sentence. L'endpoint /streamWithTimestamps utilise WebSocket pour retourner les timestamps en temps réel durant la synthèse, ouvrant des possibilités novatrices pour les applications d'apprentissage des langues, les sous-titres synchronisés ou les outils d'édition audio.
La plateforme offre accès à 48 voix distinctes réparties en 8 langues : américain anglais, britannique anglais, français, hindi, espagnol, japonais, chinois, italien et portugais. Cette diversité permet de sélectionner le timbre parfaitement adapté au contexte de l'application, que ce soit pour une voix féminine chaleureuse (Sierra, Scarlett, Hannah, Emily, Ivy, Kaitlyn, Luna, Willow, Lauren) ou masculine (Noah, Jasper, Caleb, Ronan, Ethan, Daniel, Zane, Rowan).
Les développeurs disposent d'un contrôle précis sur les caractéristiques de sortie :
La polyvalence de l'API permet de répondre aux besoins de secteurs variés, chacun bénéficiant de fonctionnalités spécifiques adaptées à ses contraintes techniques.
Les créateurs de contenu vidéo font face à des coûts de doublage professionnel qui peuvent représenter un frein majeur à la production multilingue. Unreal Speech permet de générer des centaines de fichiers audio en quelques minutes, réduisant drastiquement les délais et les coûts. Un案例 concret : une entreprise de production a pu localiser l'ensemble de son catalogue vidéo en 5 langues en utilisant l'API batch, division par 10 du budget initialement prévu.
La production traditionnelle d'un livre audio de 6 heures nécessite plusieurs semaines d'enregistrement en studio. Avec Unreal Speech et son API asynchrone capable de générer jusqu'à 10 heures d'audio, ce délai se réduit à quelques minutes. Les tests montrent qu'un livre audio de 6 heures est produit en seulement 4 minutes, transformant complètement l'économie de ce marché.
Le gaming et la VR nécessitent une génération vocale dynamique avec une latence imperceptible pour maintenir l'immersion. La fonctionnalité de streaming à 300ms permet de créer des dialogues contextuels en temps réel, adaptant les réponses vocales aux actions du joueur sans interruption notable.
Les technologies d'assistance vocales bénéficier particulièrement de la qualité naturelle des voix Kokoro. Les 48 voix disponibles permettent aux utilisateurs de choisir un timbre qui leur convient, augmentant significativement l'adoption de ces outils essentiels.
L'interaction homme-machine en temps réel exige des réponses instantanées. Le streaming API d'Unreal Speech avec son délai de 300ms permet des conversations fluides où l'utilisateur ne perçoit pas le caractère synthétique de la synthèse vocale.
La combinaison du streaming audio et des timestamps mot-par-mot permet de créer des expériences d'apprentissage enrichies : synchronisation automatique des sous-traits avec la voix, highlight du mot actuellement prononcé pour les apprenants, navigation facilitée dans les contenus longs.
Les systèmes de réponse vocale interactive bénéficient de voix naturelles qui améliorent considérablement l'expérience client. Le support multilingue permet de déployer des IVR uniformémentqualifiés sur plusieurs marchés géographiques.
Les médias à fort volume de production peuvent s'appuyer sur le traitement par lots et la capacité de haute simultanéité (500+ requêtes simultanes) pour générer des contenus quotidiens sans infrastructure complémentaire.
Pour le streaming temps réel : utilisez /stream. Pour les contenus moyens (<3000 caractères) : /speech. Pour les longs métrages ou有声书 : /synthesisTasks avec suivi par taskId.
L'intégration d'Unreal Speech dans votre application se fait en quelques minutes grâce aux SDK disponibles dans les langages les plus utilisés.
La première étape consiste à créer un compte sur https://unrealspeech.com et récupérer votre clé API depuis le dashboard. Cette clé sera nécessaire pour authentifier toutes les requêtes.
import requests
url = "https://api.v8.unrealspeech.com/speech"
headers = {"Authorization": "VOTRE_CLE_API"}
data = {
"text": "Bonjour, ceci est un test de synthèse vocale.",
"voiceId": "Scarlett",
"bitrate": "128k",
"speed": "0",
"pitch": "0",
"outputFormat": "mp3"
}
response = requests.post(url, json=data, headers=headers)
with open("output.mp3", "wb") as f:
f.write(response.content)
const axios = require('axios');
const response = await axios.post(
'https://api.v8.unrealspeech.com/speech',
{
text: 'Bonjour, ceci est un test de synthèse vocale.',
voiceId: 'Scarlett',
bitrate: '128k',
outputFormat: 'mp3'
},
{
headers: { Authorization: 'VOTRE_CLE_API' },
responseType: 'arraybuffer'
}
);
fs.writeFileSync('output.mp3', response.data);
import { useUnrealSpeech } from '@unrealspeech/react-native';
function App() {
const { speak, isLoading } = useUnrealSpeech('VOTRE_CLE_API');
const handleSpeak = async () => {
await speak('Bonjour', { voiceId: 'Scarlett' });
};
return <Button title="Parler" onPress={handleSpeak} />;
}
curl -X POST "https://api.v8.unrealspeech.com/speech" \
-H "Authorization: VOTRE_CLE_API" \
-H "Content-Type: application/json" \
-d '{"text":"Bonjour","voiceId":"Scarlett","outputFormat":"mp3"}' \
-o output.mp3
La documentation complète est disponible sur https://docs.v8.unrealspeech.com/ avec des exemples pour chaque endpoint et tous les paramètres possibles.
Pour les applications web : privilégiez le format MP3 avec un bitrate de 128k. Pour les applications mobiles où la bande passante est critique : utilisez 64k. Pour la production broadcast : 320k garantit la meilleure qualité.
Le cœur technologique d'Unreal Speech repose sur Kokoro, un modèle TTS open-source de 82 millions de paramètres développé par hexgrad. Son architecture se distingue par plusieurs innovations majeures.
Kokoro fusionne le transformer decoder de StyleTTS 2 avec le vocoder iSTFTNet (Inverse Short-Time Fourier Transform Network), créant un système hybride qui exploite les avantages de ces deux approches. Contrairement aux architectures TTS traditionnelles comme Tacotron 2 ou FastSpeech 2 qui nécessitent deux étapes distinctes (alignement puis synthèse), Kokoro adopte une approche decoder-only en une seule passe. Cette conception élimine l'étape de diffusion requise par certains modèles génératifs, réduisant drastiquement le temps de calcul.
Le modèle représente une avancée significative en termes d'efficacité : avec seulement 82 millions de paramètres, il est 6 fois plus petit que XTTS v2 et 15 fois plus petit que MetaVoice, tout en produisant une qualité audio supérieure.
Les mesures de performance démontrent l'excellence de cette architecture :
| Métrique | Valeur |
|---|---|
| Vitesse GPU (RTX 4090) | 210× temps réel |
| Vitesse CPU | 3-11× temps réel |
| Latence typique (GPU) | 40-70ms |
| Latence streaming | 300ms |
| Requêtes simultanées | 500+ |
| Temps de réponse moyen | ~2 secondes |
Ces résultats positionnent Kokoro comme le leader de la catégorie en termes de rapport qualité-vitesse-consommation. Le modèle a d'ailleurs été récompensé par la première place au HuggingFace TTS Spaces Arena dans la catégorie voix unique, confirmant la qualité supérieure de sa synthèse.
L'entraînement du modèle a nécessité environ 500 heures GPU sur des instances A100, pour un coût total d'environ 400 dollars. Cette efficacité remarquable démontre la viabilité de l'approche open-source et permet à Unreal Speech de proposer des tarifs aussi compétitifs tout en maintenant une marge sustainable.
Unreal Speech propose une structure tarifaire transparente conçue pour accompagner les projets de toute taille, depuis les prototypes jusqu'aux déploiements enterprise.
| Plan | Prix | Caractères/mois | Durée audio | Surplus |
|---|---|---|---|---|
| Free | 0 $ | 250K (~6h) | ~6 heures | 16 $/million |
| Basic | 4,99 $/mois | 3M (~67h) | ~67 heures | 16 $/million |
| Plus | 499 $/mois | 42M (~933h) | ~933 heures | 12 $/million |
| Pro | 1 499 $/mois | 150M (~3 000h) | ~3 000 heures | 10 $/million |
| Enterprise | 4 999 $/mois | 625M (~14 000h) | ~14 000 heures | 8 $/million |
| Personnalisé | Sur devis | 1 milliard+ | Volume discounts | - |
Le plan Free est idéal pour les développeurs souhaitant tester l'API, mais impose une attribution (crédit requis). Les plans payants解除 cette contrainte et autorisent l'utilisation commerciale sans mention.
En cas de dépassement du quota mensuel, les frais de surplus varient selon le plan actif : 16 $/million de caractères pour les formules Free et Basic, 12 $/million pour Plus, 10 $/million pour Pro, et 8 $/million pour Enterprise. Ces tarifs dégressifs récompensent les engagements volumétriques.
Pour la rollover des caractères non utilisés : le plan Free** est réinitialisé le 1er de chaque mois, tandis que les plans payants** conservent les caractères non consommés qui reportent sur le cycle de facturation suivant.
Le programme d'affiliation permet de bénéficier d'une commission de 15% récurrente sur les revenus des filleuls invités via votre lien de parrainage.
Unreal Speech propose 8 langues (américain anglais, britannique anglais, français, hindi, espagnol, japonais, chinois, italien, portugais) avec 48 voix distinctes,Mix de voix féminines et masculines avec des timbres variés.
Pas actuellement. La fonctionnalité de clonage vocal est en développement et devrait être ajoutée dans une future mise à jour. Cette option permettra de créer des voix personnalisées à partir d'échantillons audio.
Lorsque vous dépassez votre quota mensuel, les caractères supplémentaires sont facturés au tarif de surplus de votre plan actuel, soit entre 8$ et 16$ par million de caractères selon le plan souscrit.
Pour le plan Free : oui, le quota se réinitialise le 1er de chaque mois. Pour les plans payants : non, les caractères non utilisés reportent automatiquement sur le mois suivant (rollover).
Absolument. Tous les plans payants incluent les droits commerciaux complets sans obligation de mention. Le plan Free nécessite l'attribution du crédit Unreal Speech.
Accédez à votre dashboard Unreal Speech, section "Manage Subscription" pour mettre à jour vos informations de paiement ou changer de plan à tout moment.
Oui. Le programme partner permet de gagner 15% de commission récurrente sur tous les paiements de vos filleuls. Inscrivez-vous via https://unreal.tolt.io/ pour obtenir votre lien de parrainage.
Contactez l'équipe support à l'adresse support@unrealspeech.com. La documentation complète est disponible sur https://docs.v8.unrealspeech.com/ et le studio de démonstration sur https://unrealspeech.com/studio.
Découvrez les derniers outils IA et boostez votre productivité dès aujourd'hui.
Parcourir tous les outilsUnreal Speech est une API de synthèse vocale avec une latence ultra-faible de 300ms et 48 voix en 8 langues. Basée sur le modèle open-source Kokoro TTS de 82M paramètres, elle offre les prix les plus bas du marché—jusqu'à 11x moins chère que ElevenLabs. Idéale pour les développeurs et les entreprises.
Une app. Votre business de coaching entier
Constructeur de sites web IA pour tous
Photos de rencontre IA qui fonctionnent vraiment
Répertoire populaire d'outils IA pour découverte et promotion
Plateforme de lancement de produits pour fondateurs avec backlinks SEO
Cursor vs Windsurf vs GitHub Copilot — nous comparons les fonctionnalités, les prix, les modèles d'IA et les performances réelles pour vous aider à choisir le meilleur éditeur de code IA en 2026.
Nous avons testé plus de 30 outils d'IA pour le code et sélectionné les 12 meilleurs de 2026. Comparez fonctionnalités, prix et performances réelles de Cursor, GitHub Copilot, Windsurf et plus.