Voxtral TTS: Pratik Örneklerle Bir Rehber

Mistral'ın ilk metinden konuşmaya modelinin nasıl çalıştığını, mevcut alternatiflerle nasıl karşılaştırıldığını ve Python SDK'sıyla adım adım kod örnekleriyle konuşma üretmeyi öğrenin.

Güncel 12 May 2026 · 9 dk. oku

Mart 2026'ya kadar Mistral, ses işlem hattının yarısını inşa etmişti. Voxtral Transcribe modelleri konuşmadan metne dönüşümü sağlıyordu, ancak ters yönde gitmenin bir yolu yoktu. Uygulamanızın konuşmasını istiyorsanız, genellikle farklı bir sağlayıcıya yönelmeniz gerekiyordu; ifadesel ses klonlama için çoğunlukla ElevenLabs, minimal entegrasyon için OpenAI'nin TTS-1'i veya zaten o ekosistemdeyseniz Google Cloud'un Neural2'si tercih ediliyordu.

Voxtral TTS bu boşluğu dolduruyor. Mistral'ın ilk metinden konuşmaya modeli olan bu sistem, kısa bir ses referansından dokuz dilde konuşma üreten 4,1 milyar parametreli bir yapı. Model ağırlıkları Hugging Face'te mevcut ve bulut API'si 1.000 karakter başına 0,016 ABD doları fiyatla canlı; açık ağırlıklar ise kendi altyapınızda barındırma için sunuluyor.

İsimlendirme notu: 2025 Temmuz tarihli Voxtral modelleri konuşmadan metne modellerdir. 26 Mart 2026'da yayımlanan Voxtral TTS ise ters yönde çalışır.

Voxtral TTS Nedir?

Voxtral TTS, yazılı metni dokuz dilde konuşulan sese dönüştüren bir metinden konuşmaya modelidir: İngilizce, Fransızca, Almanca, İspanyolca, Felemenkçe, Portekizce, İtalyanca, Hintçe ve Arapça. 20 yerleşik hazır sesten birini kullanabilir veya belirli bir konuşmacının sesini klonlamak için bir referans ses klibi sağlayabilirsiniz. Klonlama için önerilen klip uzunluğu 5 ila 25 saniyedir; model en az 3 saniyeyi de kabul eder.

Mistral'ın temel iddiası, küçük bir ayak izini "sınır düzeyi" olarak tanımladığı kaliteyle birleştirmesidir. Hugging Face'teki varsayılan BF16 ağırlıkları yaklaşık 8 GB'tır ve çıkarım ek yükünü karşılamak için en az 16 GB VRAM'e sahip bir GPU gerektirir. Araştırma makalesi, nice ayarlanmış sürümlerin ağırlıkları yaklaşık 3 GB'a indirebileceğini belirtiyor; ancak bunlar varsayılan sürüm değildir. Mistral'ın Bilimden Sorumlu Başkan Yardımcısı Pierre Stock, VentureBeat'e modelin akıllı telefonda bile çalışabileceğini söyledi; bu, nice ayarlamaya bağlıdır ve bunu bağımsız olarak doğrulayamadım.

Model ayrıca Mistral'ın "Talimat olarak ses" dediği özelliği destekler. Üretilen konuşmanın nasıl duyulacağını kontrol etmek için SSML etiketlerine veya açık duygu etiketlerine güvenmek yerine, Voxtral TTS tonu, ritmi ve duygusal aktarımı doğrudan sağladığınız ses referansından çıkarır. Birinin heyecanla konuştuğu bir referans klip verin; üretilen konuşma genellikle o aktarımı yansıtır. Bu, üretimi yönlendirmek için açık duygu etiketleri kullanan ElevenLabs'tan farklı bir yaklaşımdır.

Mimariye genel bakış

Voxtral TTS, Ministral 3B üzerine kurulu, dönüştürücü tabanlı, otoregresif, akış-eşleme bir modeldir. Üç bileşeni vardır: Metin ve ses girdisinden anlamsal belirteçleri tahmin eden 3,4B parametreli bir dönüştürücü kod çözücü omurgası; bu belirteçleri ses temsillerine dönüştüren 390M parametreli bir akış-eşleme akustik dönüştürücü; ve Mistral'ın sıfırdan inşa ettiği, 12,5 Hz'de 80 milisaniyelik çerçevelerle çalışan 300M parametreli bir sinirsel ses kodeği. Kodek, ses temsilini verimli kılan kısımdır: Sıkı bir şekilde sıkıştırılmış gizil uzayda çalışır; bu nedenle 4,1B parametreli tam model, BF16 ağırlıklarını ~8 GB seviyesinde tutarken yüksek kaliteli ses üretebilir.

Voxtral TTS mimarisine genel bakış. Kaynak: Mistral AI.

Bu üç aşamalı hat, ses klonlamayı mümkün kılan şeydir: kodek, konuşmacı özelliklerini gizil uzayda yakalar; omurga ve akustik dönüştürücü ise bu sesi yeni metin üzerinde yeniden üretmek için bunları kullanır.

Sıfır atış ses klonlama

Ses klonlamada kısa bir referans klip sağlarsınız ve model, konuşmacının aksanını, tonlamasını ve ritmini—doğal duraklamalar ve tempolama dahil—yakalayan konuşma üretir.

Araştırmada beni şaşırtan şey, diller arası yetenekti. Fransızca bir ses referansı verip isteminizi Almanca yazarsanız, model genellikle Fransız konuşmacıya benzer, aksanının ve ses özelliklerinin çoğunu alan Almanca bir konuşma üretir. Bu, modele açıkça öğretilen bir şey değil. Ortaya çıkan bir davranış ve konuşmacının sesini diller arasında korumanın önemli olduğu konuşmadan konuşmaya çeviri için faydalı olabilir.

Pratik bir ayrıntı: özel ses klonlama Mistral API'sini gerektirir. Açık ağırlık sürümü yalnızca aynı 20 hazır sesle sınırlıdır. Kendi barındırdığınız sürümde belirli bir sesi klonlamak istiyorsanız, API'nin ses oluşturma uç noktasına ihtiyacınız var.

Voxtral TTS Karşılaştırmaları

Buradaki tüm karşılaştırma verileri Mistral'ın kendi dahili değerlendirmelerinden gelmektedir. Model yeterince yeni olduğu için, bu yazı itibarıyla bağımsız üçüncü taraf karşılaştırmaları yayımlanmış değildir. Bağımsız bir TTS sıralaması olan Artificial Analysis Speech Arena Leaderboard henüz Voxtral TTS'i eklemedi.

Mistral, ortalama görüş puanı (MOS) gibi otomatik metrikler yerine insan tercih değerlendirmelerini kullandı ve araştırma makalesinde otomatik puanların doğallığı diller ve kültürler arasında güvenilir şekilde yakalamadığını savundu. Testler, dokuz desteklenen dilin tamamında ana dil konuşmacısı değerlendiriciler tarafından kör dinleme karşılaştırmaları olarak yürütüldü.

Her modelin yerleşik amiral gemisi sesleri kullanılarak yapılan testlerde, Voxtral TTS insan değerlendiriciler tarafından karşılaştırmaların %58,3'ünde tercih edildi. Her iki modele de kısa bir referans klibi verilip aynı metinden konuşma üretildiği sıfır atış ses klonlama testlerinde bu oran %68,4'e yükseldi. Fark en çok Hintçe'de (yaklaşık %80 tercih) ve İspanyolca'da (yaklaşık %88 tercih) görüldü. Ancak Felemenkçe zayıf bir noktaydı: %49,4 ile ElevenLabs Flash v2.5 bu dilde üstünlük sağladı.

Mistral değerlendirmelerinden insan tercih sonuçları. Kaynak: Mistral AI.

Mistral ayrıca duygu yönlendirme testlerinin ayrı bir setini yürüttü; bu kez Flash v2.5 yerine ElevenLabs v3 ve Gemini 2.5 Flash TTS ile karşılaştırdı. ElevenLabs v3'e karşı, iki model açık yönlendirmede kabaca başa baştı; Voxtral örtük yönlendirmede hafif bir avantaja sahipti. Gemini 2.5 Flash TTS'e karşı ise yaklaşık %65 ile Gemini öne çıktı ve bu karşılaştırmada daha iyi performans gösterdi. Bu rakamların tamamı, bu bölümdeki diğerleri gibi, Mistral'ın kendi makalesinden alınmıştır.

Gecikme konusunda Mistral, tek bir NVIDIA H200 üzerinde 70 milisaniye bildiriyor. API'den uca kadar ilk sese kadar geçen süre PCM ile yaklaşık 0,8 saniye, MP3 ile yaklaşık 1,5 ila 2 saniyedir.

Voxtral TTS'i Test Etmek: Uygulamalı Örnekler

Üç senaryoya odaklandım. Birincisi, bir hazır sesin genel anlatım için yeterli olup olmadığı; özellikle TTS sistemlerinin tipik olarak tökezlediği yerlerde doğallığın bozulup bozulmadığı. İkincisi, ses klonlamanın kısa bir klipten gerçek bir konuşmacıyı ne kadar iyi yakaladığı ve klip uzunluğunun gerçekten ne kadar önemli olduğu. Üçüncüsü, çıktı biçiminin pratikte gecikmeyi ne kadar etkilediği.

Kurulum

Önce, resmi Python SDK'sını kurun ve API anahtarınızı ayarlayın. Faturalandırmanın etkin olduğu bir Mistral hesabına ihtiyacınız olacak.

pip install mistralai

API anahtarınızı bir ortam değişkeni olarak ayarlayın:

export MISTRAL_API_KEY="your-api-key-here"

Örnek 1: Temel konuşma üretimi

Hazır sesler Amerikan İngilizcesi, Britanya İngilizcesi ve Fransızca lehçelerini kapsar ve konuşmacı kimliğinin önemli olmadığı genel anlatım için makul bir başlangıç noktasıdır.

Voxtral TTS için Mistral Studio oyun alanı. Görsel: Yazar.

İşte hazır bir ses kullanarak en basit sürüm:

import base64
import os
from pathlib import Path
from mistralai.client import Mistral

client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

# Generate speech from text
response = client.audio.speech.complete(
    model="voxtral-mini-tts-2603",
    input="Welcome to Voxtral TTS. This is a basic speech generation test.",
    voice_id="your-voice-id",  # Use a voice ID from your account
    response_format="mp3",
)

# Save the audio file
Path("basic_output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to basic_output.mp3")

Birkaç noktaya dikkat edin. Yöntem .complete()'tır, OpenAI'nin TTS API'sinden geliyorsanız bekleyebileceğiniz .create() değil. Yanıt, response.audio_data içinde base64 ile kodlanmış ses döndürür; bu nedenle diske yazmadan önce çözmeniz gerekir.

İlk kontrol ettiğim şey cümle sonu ritmiydi. Birçok TTS modeli, son noktada mekanik şekilde düşer; bu, bir şeyi anında yapay gösteren düz bir ezgidir. Burada bu durum korunmuş. Beni şaşırtan virgül duraklamalarıydı: daha ucuz sistemler bunları sert duruşlar gibi ele alma eğilimindedir, ancak tempo akıcı kaldı. Telaffuz genel olarak doğruydu; "Voxtral" kelimesinde de—tökezleme bekliyordum—hatasızdı.

Örnek 2: Özel ses oluşturma

Konuşmacı kimliği önemli olduğunda, API kısa bir referans klipten yeniden kullanılabilir bir ses profili oluşturmanıza olanak tanır.

import base64
import os
from pathlib import Path
from mistralai.client import Mistral

client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

# Encode your reference audio as base64
sample_audio_b64 = base64.b64encode(
    Path("reference_voice.mp3").read_bytes()
).decode()

# Create a reusable voice profile
voice = client.audio.voices.create(
    name="my-custom-voice",
    sample_audio=sample_audio_b64,
    sample_filename="reference_voice.mp3",
    languages=["en"],
    gender="male",
)

print(f"Created voice with ID: {voice.id}")

# Generate speech using the cloned voice
response = client.audio.speech.complete(
    model="voxtral-mini-tts-2603",
    input="This sentence was generated using a cloned voice from just a few seconds of reference audio.",
    voice_id=voice.id,
    response_format="mp3",
)

Path("cloned_output.mp3").write_bytes(base64.b64decode(response.audio_data))
print("Saved to cloned_output.mp3")

Ses klonlama betiğinden terminal çıktısı. Görsel: Yazar.

İlk denememde yaklaşık üç saniyelik bir klip kullandım. Çıktı makul ama genel tınıdaydı: doğru ses aralığı vardı ancak bir sesi tanınır kılan belirli iniş-çıkışlar eksikti. Herkes olabilirdi. Sekiz saniyelik bir klibe geçtiğimde fark netti: klonlanan çıktı, konuşmacının aksanını, ritmini ve kısa klibin tamamen düzleştirdiği soru sonlarındaki hafif yükselişi yakaladı.

Klonlanan ses kaynakla birebir aynı değildi, ancak belirgin şekilde aynı tonda ve benzer tempodaydı. Testlerime göre 8 ila 15 saniye, emek ile sonuç kalitesi arasında iyi bir orta yol.

Örnek 3: Gecikme için biçim karşılaştırması

Çıktı biçimi, ilk ses parçasının ne kadar hızlı geldiğini etkiler. İki biçimi test ettim.

import os
import time
from mistralai.client import Mistral

client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

text = "This is a latency test comparing PCM and MP3 output formats from Voxtral TTS."
voice_id = "your-voice-id"


def time_to_first_chunk(response_format):
    start = time.time()
    stream = client.audio.speech.complete(
        model="voxtral-mini-tts-2603",
        input=text,
        voice_id=voice_id,
        response_format=response_format,
        stream=True,
    )
    for _ in stream:
        return time.time() - start  # return on first chunk


pcm_time = time_to_first_chunk("pcm")
mp3_time = time_to_first_chunk("mp3")

print(f"PCM latency: {pcm_time:.2f}s")
print(f"MP3 latency: {mp3_time:.2f}s")

İki çıktı biçimi arasında gecikme karşılaştırması. Görsel: Yazar.

MP3 testini önce çalıştırdım; çoğu ses iş akışı için doğal varsayılan olduğu için. Sonuç yaklaşık 1,5 ila 2 saniye ile işlevseldi; ancak bir ses aracısı için, herhangi bir ses çalmaya başlamadan önce hissedilir bir bekleme. Mistral dokümantasyonu MP3 için 3 saniyeye kadar bildirse de, ben pratikte bunu görmedim; ağ koşulları değişken olacaktır. PCM yaklaşık 0,6 ila 0,9 saniye aralığında geldi ve Mistral'ın bildirdiği ~0,8 saniyelik değere tutarlıydı.

Dezavantajı, PCM'nin ham, sıkıştırılmamış ses olmasıdır; bu nedenle uygulamanızın standart çalmadan önce bunu işlemesi veya dönüştürmesi gerekir. Bir dosyaya kaydediyorsanız veya standart bir ses oynatıcıya veriyorsanız MP3 daha basittir. Ses yığınını doğrudan kontrol ediyorsanız—örneğin bir ses aracısı hattında—gecikme açısından PCM pratik seçimdir.

API beş çıktı biçimini destekler: MP3, WAV, PCM (ham float32), FLAC ve Opus. Model tek geçişte iki dakikaya kadar ses üretir. Daha uzun içerikler için API, Mistral'ın "akıllı iç içe geçirme" dediği yöntemi kullanarak bunu otomatik olarak yönetir: metni parçalara böler, her birini sentezler ve duyulabilir boşluk olmadan birleştirir.

Ayrıca üç örneğin tümünü tek bir arayüzde birleştiren kısa bir Streamlit uygulaması da hazırladım. İşleyişinin hızlı bir özeti burada:

Bu eğitimdeki tüm kodlar şu GitHub deposunda mevcuttur.

Voxtral TTS Fiyatlandırması

Voxtral TTS, bulut API'si üzerinden milyon karakter başına 16 ABD dolarıdır. Test için bir ücretsiz katman mevcuttur ve Hugging Face'teki açık ağırlıklar CC BY-NC 4.0 kapsamında ticari olmayan kullanım için ücretsizdir.

İşte 2026'nın başları itibarıyla başlıca alternatiflerle karşılaştırması.

Sağlayıcı	Model	1M Karakter Başına Fiyat	Açık Ağırlıklar
Mistral	Voxtral TTS	$16	Evet (ticari olmayan)
OpenAI	TTS-1	$15	Hayır
OpenAI	TTS-1-HD	$30	Hayır
Google Cloud	Neural2	$16	Hayır
Google Cloud	Chirp 3 HD	$30	Hayır
Amazon Polly	Neural	$16	Hayır
Azure Speech	Neural TTS	$15-16	Hayır
Deepgram	Aura-2	$30	Hayır
ElevenLabs	Flash v2.5	~$25-110 (plana göre değişir)	Hayır

Voxtral TTS, fiyat açısından orta seviye bulut sağlayıcılarla eşleşiyor; bütçe sınıfıyla değil. Mistral, onu "pazardaki diğer her şeyin bir kısmı" olarak nitelendirdi; ancak bu, esasen ElevenLabs'a karşı geçerli. OpenAI TTS-1, Google Neural2 ve Amazon Polly'ye karşı fiyat temelde aynı.

Temel fark açık ağırlıklar: Tablodaki hiçbir başka sağlayıcı, kendi kendine barındırılabilir ağırlıklar sunmuyor. Ticari olmayan projeler için bu, vLLM-Omni üzerinden ücretsiz yerel dağıtım anlamına gelir. Kurumlar için Mistral, Forge platformu üzerinden şirket içi seçenekler sunuyor.

Dezavantaj, dil kapsamı. ElevenLabs için 70'in üzerinde dile karşılık dokuz dil. Kullanım senaryonuz desteklenen listenin ötesine geçiyorsa bu fark önemlidir.

Sonuç

Bu eğitimde üç API örneği çalıştırdık: temel konuşma üretimi, ses klonlama ve çıktı biçimi gecikmesi. Ancak yapabileceğiniz çok daha fazlası var.

Bir ses aracısı, çok dilli anlatım aracı veya ses verisinin kendi altyapınızda kalması gereken herhangi bir şey inşa ediyor olun, Voxtral TTS değerlendirilecek pratik bir seçenek. Canlıya almadan önce, karşılaştırmaların kendi raporları olduğunu, CC BY-NC lisansının ticari kendi barındırmayı kısıtladığını ve kendi barındırmanın hâlihazırda vLLM-Omni gerektirdiğini not edin. Mistral dokümantasyonu ve araştırma makalesi iyi başlangıç noktalarıdır.

Author

Khalid Abdelaty

Voxtral TTS GPU gerektirir mi?

Açık ağırlıkları ticari olarak kullanabilir miyim?

Voxtral TTS desteklemediği dilleri nasıl ele alır?

Voxtral TTS'i gerçek zamanlı ses aracıları için kullanabilir miyim?

Ses klonlama kalitesi dile göre değişir mi?

Konular

Yapay Zeka

DataCamp ile Yapay Zeka Öğrenin

Kurs

Yapay Zekayı Anlamak

2 sa

403.8K

Makine öğrenimi, derin öğrenme, NLP, üretken yapay zeka ve daha fazlası gibi Yapay Zeka'nın temel kavramlarını öğrenin.

Ayrıntıları Gör

Kursa Başla

Kurs

Large Language Models (LLMs) Kavramları

2 sa

101.5K

LLM uygulamaları, eğitim metodolojileri, etik hususlar ve en son araştırmaları kapsayan kavramsal kursumuzla LLM'lerin tüm potansiyelini keşfedin.

Ayrıntıları Gör

Kursa Başla

Kurs

Üretken Yapay Zeka Kavramları

2 sa

107.6K

Ayrıntıları Gör

Kursa Başla

Devamını Gör

İlgili

blog

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Algoritmalar, sistem tasarımı ve davranışsal senaryoları kapsayan bu temel sorularla teknik mülakat sürecine hakim olun. Uzman cevapları, kod örnekleri ve kanıtlanmış hazırlık stratejileri edinin.

Dario Radečić

15 dk.

blog

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Ön uç, arka uç, veritabanları, kimlik doğrulama, depolama, e-posta, test, dağıtım ve izleme için en iyi araçları keşfedin.

Abid Ali Awan

14 dk.

Eğitim

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

Bu hızlı eğitimde, Python'da bir listeyi string'e nasıl dönüştüreceğinizi öğrenin.

Adel Nehme

Eğitim

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

Git deponuzu temiz tutmak için .gitignore’u nasıl kullanacağınızı öğrenin. Bu eğitim; temelleri, yaygın kullanım durumlarını ve başlamanıza yardımcı olacak pratik örnekleri kapsar!

Kurtis Pykes

Devamını Gör Devamını Gör

Voxtral TTS Nedir?

Mimariye genel bakış

Sıfır atış ses klonlama

Voxtral TTS Karşılaştırmaları

Voxtral TTS'i Test Etmek: Uygulamalı Örnekler

Kurulum

Örnek 1: Temel konuşma üretimi

Örnek 2: Özel ses oluşturma

Örnek 3: Gecikme için biçim karşılaştırması

Voxtral TTS Fiyatlandırması

Sonuç

SSS

Voxtral TTS desteklemediği dilleri nasıl ele alır?

Voxtral TTS'i gerçek zamanlı ses aracıları için kullanabilir miyim?

Ses klonlama kalitesi dile göre değişir mi?

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Yapay Zekayı Anlamak

Large Language Models (LLMs) Kavramları

Üretken Yapay Zeka Kavramları

2026’da En Popüler 40 Yazılım Mühendisi Mülakat Sorusu

Hızlı Sevkiyat İçin Pratik Vibe Kodlama Teknoloji Yığını

Python'da Listeyi String'e Nasıl Dönüştürürsünüz

.gitignore Nasıl Kullanılır: Örneklerle Pratik Bir Giriş

Yapay Zekayı Anlamak