Voxtral TTS: um guia com exemplos práticos

Aprenda como o primeiro modelo de texto para fala da Mistral funciona, como ele se compara às alternativas existentes e como gerar fala usando o SDK em Python com exemplos de código passo a passo.

Atualizado 12 de mai. de 2026 · 9 min lido

Até março de 2026, a Mistral tinha construído apenas metade de um pipeline de voz. Seus modelos Voxtral Transcribe cuidavam de fala para texto, mas não havia como ir na direção oposta. Se você queria que seu aplicativo falasse, precisava recorrer a outro provedor — geralmente o ElevenLabs para clonagem de voz expressiva, o TTS-1 da OpenAI para uma integração mínima ou o Neural2 do Google Cloud se você já estivesse nesse ecossistema.

O Voxtral TTS preenche essa lacuna. É o primeiro modelo de texto para fala da Mistral, um sistema com 4,1 bilhões de parâmetros que gera fala em nove idiomas a partir de uma breve referência de áudio. Os pesos do modelo estão disponíveis no Hugging Face, e a API em nuvem está ativa por US$ 0,016 a cada 1.000 caracteres, com pesos abertos para auto-hospedagem.

Uma observação sobre a nomenclatura: os modelos Voxtral de julho de 2025 são modelos de fala para texto. O Voxtral TTS, lançado em 26 de março de 2026, faz o caminho inverso.

O que é o Voxtral TTS?

O Voxtral TTS é um modelo de texto para fala que converte texto escrito em áudio falado em nove idiomas: inglês, francês, alemão, espanhol, holandês, português, italiano, hindi e árabe. Você pode usar uma das 20 vozes pré-definidas ou fornecer um clipe de áudio de referência para clonar a voz de um locutor específico. O comprimento recomendado do clipe para clonagem é de 5 a 25 segundos, embora o modelo aceite a partir de 3 segundos.

A principal aposta da Mistral é o baixo footprint combinado com o que descreve como qualidade de ponta. Os pesos BF16 padrão no Hugging Face têm cerca de 8 GB, e a auto-hospedagem requer uma GPU com pelo menos 16 GB de VRAM para cobrir a sobrecarga de inferência. O artigo de pesquisa observa que versões quantizadas podem reduzir os pesos para cerca de 3 GB, embora essas não sejam as versões padrão. Pierre Stock, VP de Science da Mistral, disse ao VentureBeat que o modelo pode até rodar em um smartphone, mas isso depende da quantização e eu não consegui verificar de forma independente.

O modelo também oferece o que a Mistral chama de "voz como instrução". Em vez de depender de tags SSML ou rótulos explícitos de emoção para controlar como a fala gerada soa, o Voxtral TTS deduz o tom, o ritmo e a entrega emocional diretamente da referência de voz que você fornece. Dê a ele um clipe de alguém falando de forma empolgada e a fala gerada tende a refletir essa entrega. É uma abordagem diferente do ElevenLabs, que usa tags explícitas de emoção para direcionar a geração.

Visão geral da arquitetura

O Voxtral TTS é um modelo autoregressivo de transformer com flow matching, construído sobre o Ministral 3B. Ele tem três componentes: um backbone decodificador transformer com 3,4B de parâmetros que prevê tokens semânticos a partir de texto e voz; um transformer acústico com flow matching de 390M de parâmetros que converte esses tokens em representações de áudio; e um codec neural de áudio de 300M de parâmetros, criado do zero pela Mistral, operando a 12,5 Hz com quadros de 80 milissegundos. O codec é o que mantém a representação de áudio eficiente: ele opera em um espaço latente fortemente comprimido, por isso o modelo completo de 4,1B de parâmetros consegue gerar áudio de alta qualidade mantendo os pesos BF16 em ~8 GB.

Visão geral da arquitetura do Voxtral TTS. Fonte: Mistral AI.

Essa pipeline em três estágios também é o que viabiliza a clonagem de voz: o codec captura as características do locutor no espaço latente, que o backbone e o transformer acústico usam para reproduzir essa voz em novos textos.

Clonagem de voz zero-shot

Na clonagem de voz, você fornece um clipe curto de referência e o modelo gera fala que capta o sotaque, a entonação e o ritmo do locutor, incluindo pausas e cadência naturais.

O que me surpreendeu na pesquisa foi a capacidade multilíngue cruzada. Se você fornecer uma referência de voz em francês e digitar seu prompt em alemão, o modelo tende a gerar fala em alemão que soa semelhante ao falante francês, absorvendo boa parte do sotaque e das características vocais. Isso não é algo para o que o modelo foi explicitamente treinado. É um comportamento emergente e pode ser útil em tradução fala-para-fala quando manter a voz original do locutor entre idiomas faz diferença.

Um detalhe prático: a clonagem de voz personalizada requer a API da Mistral. A versão com pesos abertos fica limitada às mesmas 20 vozes pré-definidas. Se você quiser clonar uma voz específica na versão auto-hospedada, precisa do endpoint de criação de vozes da API.

Benchmarks do Voxtral TTS

Todos os dados de benchmark aqui vêm das avaliações internas da própria Mistral. O modelo é recente o suficiente para que, até o momento desta publicação, não existam benchmarks independentes de terceiros. O Artificial Analysis Speech Arena Leaderboard, um ranking independente de TTS, ainda não incluiu o Voxtral TTS.

A Mistral usou avaliações de preferência humana, e não métricas automatizadas como o Mean Opinion Score (MOS), argumentando no artigo de pesquisa que escores automatizados não capturam de forma confiável a naturalidade entre idiomas e culturas. Os testes foram comparações de escuta às cegas, conduzidas por anotadores nativos nos nove idiomas suportados.

Em testes usando as vozes principais pré-definidas de cada modelo, o Voxtral TTS foi preferido por anotadores humanos em 58,3% das comparações. Nos testes de clonagem de voz zero-shot, em que ambos os modelos receberam um clipe curto de referência e geraram fala a partir do mesmo texto, essa taxa subiu para 68,4%. A diferença foi maior em hindi (cerca de 80% de preferência) e espanhol (cerca de 88%). Holandês foi um ponto fraco, com 49,4%, indicando que o ElevenLabs Flash v2.5 levou vantagem nesse idioma.

Resultados de preferência humana nas avaliações da Mistral. Fonte: Mistral AI.

A Mistral também executou um conjunto separado de testes de controle de emoção, desta vez comparando com o ElevenLabs v3 e o Gemini 2.5 Flash TTS em vez do Flash v2.5. Contra o ElevenLabs v3, os dois modelos ficaram praticamente empatados no controle explícito; o Voxtral teve leve vantagem no controle implícito. Contra o Gemini 2.5 Flash TTS, o Gemini ficou à frente com cerca de 65%, sendo o melhor desempenho nessa comparação. Esses números, como todos desta seção, vêm do artigo da própria Mistral.

Em latência, a Mistral reporta 70 milissegundos em uma única NVIDIA H200. O tempo de ponta a ponta até o primeiro áudio via API é de cerca de 0,8 segundo com PCM e aproximadamente 1,5 a 2 segundos com MP3.

Testando o Voxtral TTS: exemplos práticos

Eu foquei em três cenários. Primeiro, se uma voz pré-definida dá conta de narração geral, especialmente se a naturalidade se perde nos pontos onde sistemas de TTS costumam falhar. Segundo, o quão bem a clonagem de voz captura um locutor real a partir de um clipe curto e quanto o tamanho do clipe realmente importa. Terceiro, quanto o formato de saída afeta a latência na prática.

Preparando o ambiente

Primeiro, instale o SDK oficial em Python e defina sua chave de API. Você vai precisar de uma conta Mistral com cobrança ativada.

pip install mistralai

Defina sua chave de API como variável de ambiente:

export MISTRAL_API_KEY="your-api-key-here"

Exemplo 1: geração básica de fala

As vozes pré-definidas cobrem inglês americano, inglês britânico e dialetos franceses e são um ponto de partida razoável para narração geral quando a identidade do locutor não é relevante.

Playground do Mistral Studio para Voxtral TTS. Imagem do autor.

Aqui vai a versão mais simples, usando uma voz pré-definida:

import base64
import os
from pathlib import Path
from mistralai.client import Mistral

client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

# Gerar fala a partir de texto
response = client.audio.speech.complete(
    model="voxtral-mini-tts-2603",
    input="Welcome to Voxtral TTS. This is a basic speech generation test.",
    voice_id="your-voice-id",  # Use um ID de voz da sua conta
    response_format="mp3",
)

# Salvar o arquivo de áudio
Path("basic_output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to basic_output.mp3")

Alguns pontos de atenção. O método é .complete(), não .create() como você pode esperar se vem da API de TTS da OpenAI. A resposta retorna o áudio em base64 em response.audio_data, então é preciso decodificar antes de salvar em disco.

A primeira coisa que verifiquei foi o ritmo no fim das frases. Muitos modelos de TTS caem mecanicamente no ponto final, uma cadência plana que entrega que é sintético. Aqui, isso se manteve natural. O que me surpreendeu foram as pausas nas vírgulas no meio das frases: sistemas mais simples tendem a tratá-las como paradas bruscas, mas o andamento continuou fluido. A pronúncia foi precisa o tempo todo, inclusive da palavra "Voxtral", onde eu esperava tropeço.

Exemplo 2: criando uma voz personalizada

Quando a identidade do locutor importa, a API permite criar um perfil de voz reutilizável a partir de um clipe curto de referência.

import base64
import os
from pathlib import Path
from mistralai.client import Mistral

client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

# Codificar seu áudio de referência em base64
sample_audio_b64 = base64.b64encode(
    Path("reference_voice.mp3").read_bytes()
).decode()

# Criar um perfil de voz reutilizável
voice = client.audio.voices.create(
    name="my-custom-voice",
    sample_audio=sample_audio_b64,
    sample_filename="reference_voice.mp3",
    languages=["en"],
    gender="male",
)

print(f"Created voice with ID: {voice.id}")

# Gerar fala usando a voz clonada
response = client.audio.speech.complete(
    model="voxtral-mini-tts-2603",
    input="This sentence was generated using a cloned voice from just a few seconds of reference audio.",
    voice_id=voice.id,
    response_format="mp3",
)

Path("cloned_output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to cloned_output.mp3")

Saída do terminal do script de clonagem de voz. Imagem do autor.

Minha primeira tentativa usou um clipe de cerca de três segundos. O resultado soou plausível, mas genérico: faixa vocal certa, porém sem as inflexões específicas que tornam uma voz identificável. Poderia ser qualquer pessoa. Ao trocar para um clipe de oito segundos, a diferença ficou clara: a saída clonada capturou o sotaque, o ritmo e a leve subida no fim de perguntas que o clipe curto havia achatado completamente.

A voz clonada não soou idêntica à fonte, mas estava claramente no mesmo registro e com cadência semelhante. Pelos meus testes, de 8 a 15 segundos é um bom meio-termo entre esforço e qualidade do resultado.

Exemplo 3: comparação de formatos para latência

O formato de saída afeta a velocidade de chegada do primeiro chunk de áudio. Testei dois formatos.

import os
import time
from mistralai.client import Mistral

client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

text = "This is a latency test comparing PCM and MP3 output formats from Voxtral TTS."
voice_id = "your-voice-id"


def time_to_first_chunk(response_format):
    start = time.time()
    stream = client.audio.speech.complete(
        model="voxtral-mini-tts-2603",
        input=text,
        voice_id=voice_id,
        response_format=response_format,
        stream=True,
    )
    for _ in stream:
        return time.time() - start  # return on first chunk


pcm_time = time_to_first_chunk("pcm")
mp3_time = time_to_first_chunk("mp3")

print(f"PCM latency: {pcm_time:.2f}s")
print(f"MP3 latency: {mp3_time:.2f}s")

Comparação de latência entre dois formatos de saída. Imagem do autor.

Eu rodei o teste com MP3 primeiro, já que é o padrão natural para a maioria dos fluxos de áudio. O resultado foi funcional, em torno de 1,5 a 2 segundos, mas para um agente de voz é uma pausa perceptível antes de qualquer áudio começar a tocar. A documentação da Mistral cita até 3 segundos para MP3; não vi isso na prática, embora as condições de rede variem. O PCM ficou entre ~0,6 e 0,9 segundo, consistente com a marca de ~0,8 segundo reportada pela Mistral.

A troca é que PCM é áudio cru, sem compressão, então seu aplicativo precisa tratá-lo ou convertê-lo antes da reprodução padrão. Se você está salvando em arquivo ou usando um player comum, MP3 é mais simples. Se você controla a pilha de áudio diretamente, como em um pipeline de agente de voz, PCM é a escolha prática em latência.

A API suporta cinco formatos de saída: MP3, WAV, PCM (float32 cru), FLAC e Opus. O modelo gera até dois minutos de áudio em uma única passagem. Para conteúdos mais longos, a API gerencia automaticamente usando o que a Mistral chama de "interleaving inteligente": divide o texto em trechos, sintetiza cada um e junta tudo sem lacunas audíveis.

Também montei um pequeno app em Streamlit que reúne os três exemplos em uma interface. Aqui vai um rápido passo a passo de como ele funciona:

Todo o código deste tutorial está disponível neste repositório no GitHub.

Preços do Voxtral TTS

O Voxtral TTS custa US$ 16 por milhão de caracteres via API em nuvem. Há uma camada gratuita para testes e os pesos abertos no Hugging Face são gratuitos para uso não comercial sob a licença CC BY-NC 4.0.

Veja como isso se compara às principais alternativas no início de 2026.

Provedor	Modelo	Preço por 1M de caracteres	Pesos abertos
Mistral	Voxtral TTS	US$ 16	Sim (não comercial)
OpenAI	TTS-1	US$ 15	Não
OpenAI	TTS-1-HD	US$ 30	Não
Google Cloud	Neural2	US$ 16	Não
Google Cloud	Chirp 3 HD	US$ 30	Não
Amazon Polly	Neural	US$ 16	Não
Azure Speech	Neural TTS	US$ 15–16	Não
Deepgram	Aura-2	US$ 30	Não
ElevenLabs	Flash v2.5	~US$ 25–110 (varia por plano)	Não

O Voxtral TTS se alinha aos provedores intermediários na nuvem em preço, não ao tier mais barato. A Mistral o descreveu como "uma fração de qualquer outra coisa no mercado", mas isso vale principalmente em comparação ao ElevenLabs. Em relação ao OpenAI TTS-1, Google Neural2 e Amazon Polly, o preço é essencialmente o mesmo.

Os pesos abertos são o grande diferencial: nenhum outro provedor na tabela oferece pesos auto-hospedáveis. Para projetos não comerciais, isso significa implantação local gratuita via vLLM-Omni. Para empresas, a Mistral oferece opções on-premise pela plataforma Forge.

A contrapartida é a cobertura de idiomas. Nove idiomas contra mais de 70 no ElevenLabs. Se seu caso de uso vai além da lista suportada, essa diferença pesa.

Conclusão

Neste tutorial, executamos três exemplos com a API: geração básica de fala, clonagem de voz e latência por formato de saída. Mas dá para ir muito além.

Esteja você criando um agente de voz, uma ferramenta de narração multilíngue ou qualquer solução em que o áudio precise permanecer na sua infraestrutura, o Voxtral TTS é uma opção prática para avaliar. Antes de ir para produção, note que os benchmarks são auto-reportados, a licença CC BY-NC restringe a auto-hospedagem comercial e a auto-hospedagem atualmente requer o vLLM-Omni. A documentação da Mistral e o artigo de pesquisa são ótimos pontos de partida.

Author

Khalid Abdelaty

O Voxtral TTS precisa de GPUs?

Posso usar os pesos abertos comercialmente?

Como o Voxtral TTS lida com idiomas que não suporta?

Posso usar o Voxtral TTS para agentes de voz em tempo real?

A qualidade da clonagem de voz varia por idioma?

Tópicos

Inteligência Artificial

Aprenda IA com a DataCamp

Curso

Entendendo a inteligência artificial

2 h

394.5K

Aprenda os conceitos básicos da Inteligência Artificial, como aprendizado de máquina, aprendizado profundo, PNL, IA generativa e outros.

Ver detalhes

Iniciar curso

Curso

Conceitos de Grandes Modelos de Linguagem (LLMs)

2 h

94.6K

Descubra o potencial dos LLMs com nosso curso sobre aplicações, treinamento, ética e pesquisas recentes.

Ver detalhes

Iniciar curso

Curso

Conceitos de IA Generativa

2 h

99.3K

Descubra como usar IA generativa de forma responsável e seu impacto futuro na sociedade.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

O Mistral Large 2 é o modelo de idioma mais recente da Mistral AI, competindo com modelos como GPT-4o, Llama 3.1 e Claude 3 Opus.

Ryan Ong

8 min

Tutorial

Como usar a API de conversão de texto em fala da OpenAI

A API TTS da OpenAI é um ponto de extremidade que permite que os usuários interajam com seu modelo de IA TTS que converte texto em linguagem falada com som natural.

Kurtis Pykes

Tutorial

Guia para iniciantes no uso da API do ChatGPT

Este guia o orienta sobre os conceitos básicos da API ChatGPT, demonstrando seu potencial no processamento de linguagem natural e na comunicação orientada por IA.

Moez Ali

Tutorial

Visão GPT-4: Um guia abrangente para iniciantes

Este tutorial apresentará tudo o que você precisa saber sobre o GPT-4 Vision, desde o acesso a ele, passando por exemplos práticos do mundo real, até suas limitações.

Arunn Thevapalan

Tutorial

Primeiros passos com o Claude 3 e a API do Claude 3

Saiba mais sobre os modelos Claude 3, benchmarks de desempenho detalhados e como acessá-los. Além disso, descubra a nova API Python do Claude 3 para geração de texto, acesso a recursos de visão e streaming.

Abid Ali Awan

Tutorial

Como treinar um LLM com o PyTorch

Domine o processo de treinamento de grandes modelos de linguagem usando o PyTorch, desde a configuração inicial até a implementação final.

Zoumana Keita

Ver mais Ver mais

O que é o Voxtral TTS?

Visão geral da arquitetura

Clonagem de voz zero-shot

Benchmarks do Voxtral TTS

Testando o Voxtral TTS: exemplos práticos

Preparando o ambiente

Exemplo 1: geração básica de fala

Exemplo 2: criando uma voz personalizada

Exemplo 3: comparação de formatos para latência

Preços do Voxtral TTS

Conclusão

FAQs

Como o Voxtral TTS lida com idiomas que não suporta?

Posso usar o Voxtral TTS para agentes de voz em tempo real?

A qualidade da clonagem de voz varia por idioma?

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

Como usar a API de conversão de texto em fala da OpenAI

Guia para iniciantes no uso da API do ChatGPT

Visão GPT-4: Um guia abrangente para iniciantes

Primeiros passos com o Claude 3 e a API do Claude 3

Como treinar um LLM com o PyTorch

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Entendendo a inteligência artificial

Conceitos de Grandes Modelos de Linguagem (LLMs)

Conceitos de IA Generativa

O que é o Mistral Large 2? Como funciona, casos de uso e muito mais

Como usar a API de conversão de texto em fala da OpenAI

Guia para iniciantes no uso da API do ChatGPT

Visão GPT-4: Um guia abrangente para iniciantes

Primeiros passos com o Claude 3 e a API do Claude 3

Como treinar um LLM com o PyTorch

Entendendo a inteligência artificial