Ana içeriğe atla

SGLang Eğitimi: Mistral Medium 3.5’i Yerelde Sunma

Mistral Medium 3.5 128B’yi OpenAI uyumlu bir API üzerinden sunmak için tensör paralelliği ve EAGLE spekülatif kod çözme ile çok GPU’lu bir Docker ortamı kurun.
Güncel 1 Haz 2026  · 12 dk. oku

Büyük dil modellerini yerelde çalıştırmak artık yalnızca küçük 7B veya 13B modellere sınırlı değil. Doğru GPU kurulumu, sunum çerçevesi ve konteynerleştirilmiş ortamla, Mistral Medium 3.5 128B gibi sınır ölçeğindeki açık modelleri kendi GPU sunucunuzda çalıştırmak artık mümkün.

Bu rehberde, Mistral Medium 3.5 128B’yi SGLang kullanarak yerelde nasıl sunacağınızı adım adım göstereceğiz. Kurulum; çok GPU’lu bir sunucu, Docker, Hugging Face model erişimi ve SGLang’in OpenAI uyumlu API sunucusunu kullanır. 

Önce 4× H100 GPU’lu bir örnek sağlayacağız; ardından Docker ve NVIDIA konteyner çalışma zamanını kuracak, SGLang Docker imajını çekecek, model sunucusunu başlatacak, curl ile uç noktayı test edecek ve son olarak yerel modeli kod aracı iş akışları için OpenCode’a bağlayacağız. Ayrıca performansı karşılaştırmak ve yerel çıkarım gecikmesini iyileştirip iyileştirmediğini görmek için bir EAGLE spekülatif kod çözme kurulumu da test edeceğiz. 

Bu rehberin sonunda, OpenAI uyumlu bir API üzerinden erişilebilen Mistral Medium 3.5 için çalışan bir yerel uç noktaya sahip olacaksınız.

SGLang nedir?

SGLang büyük model çıkarımı, yapılandırılmış üretim, uzun bağlam iş yükleri ve çok GPU’lu sunum için geliştirilmiş yüksek performanslı bir LLM sunum çerçevesidir. 

Bu rehberde, modeli curl, Python, OpenCode veya diğer ajan araçlarıyla kullanılabilir kılmak için Mistral Medium 3.5 128B’yi OpenAI uyumlu bir API üzerinden sunmak amacıyla SGLang’i kullanıyoruz.

Burada llama.cpp yerine SGLang daha uygun çünkü bu bir dizüstünde çalışan küçük GGUF modeli değil. Tensör paralelliği, uzun bağlam ve Docker tabanlı GPU sunumu ile 4 H100 GPU üzerinde yoğun bir 128B modeli sunuyoruz. llama.cpp basit yerel çıkarım ve kuantize modeller için mükemmel, ancak SGLang büyük çok GPU’lu API sunumu için daha uygun.

vLLM ile karşılaştırıldığında, avantaj SGLang’in vLLM’de olmayan temel sunum özelliklerine sahip olması değil. vLLM de PagedAttention, sürekli toplu işleme, önek önbellekleme ve spekülatif kod çözme gibi özelliklerle güçlü bir üretim sunum motorudur. 

Bu rehber için SGLang’in mantıklı olmasının nedeni, özellikle yapılandırılmış üretim, önek ağırlıklı ajan iş akışları ve spekülatif kod çözme deneyleri konusunda güçlü olmasıdır. Çalışma zamanı; önek tekrar kullanımına yönelik RadixAttention, yapılandırılmış çıktılar, tensör paralelliği ve EAGLE tarzı spekülatif kod çözmeye odaklanır; bu da Mistral Medium 3.5 EAGLE ile test ettiklerimizle örtüşür.

Dolayısıyla pratik çerçeve şöyle: 

  • llama.cpp hafif yerel çıkarım için
  • vLLM genel üretim sunumu için
  • SGLang uzun bağlamlı, yapılandırılmış, ajansal veya spekülatif kod çözme iş yükleri için gelişmiş çok GPU’lu sunum istediğinizde

SGLang’in alternatifleri için, llama.cpp ve vLLM eğitimlerimizi okumanızı öneririm.

Adım 1: Donanım Kurulumu

Bu rehber için 4× H100 80GB GPU’lu bir sanal makine kullandım. Mistral Medium 3.5 yoğun bir 128B model olduğundan çok GPU’lu bir kurulum gerektirir. SGLang, H100 veya H200 GPU’larda --tp 4 ile tensör paralelliği kullanarak çalıştırılmasını önerir. Model geniş bir bağlam penceresini destekler, ancak kurulumu test etmeyi ve hata ayıklamayı kolaylaştırmak için önce 100.000 token ile başlamanızı, tam 256K bağlam yerine, öneririm.

Ben Hyperbolic’i kullandım çünkü tam bir GPU VM’e erişim sağlıyor; bu da Docker kurmayı, NVIDIA konteyner çalışma zamanını yapılandırmayı ve SGLang Docker imajını elle çalıştırmayı kolaylaştırıyor. RunPod veya Vast.ai gibi platformları da kullanabilirsiniz, ancak bazılarının örnekleri özel Docker ortamlarına bağlanmış durumdadır; bu da size daha az kontrol sağlar.

Hyperbolic’te, H100 PCIe 80GB’yi seçin, 4 GPU tercih edin, yaklaşık 3 TB depolama ekleyin, SSH ortak anahtarınızı girin ve örneğe MM-35 gibi bir ad verin. Bu test için en ucuz mevcut H100 seçeneği olduğu için H100 PCIe’yi seçtim. 

Hyperbolic’te 4X H100 GPU VPS kurulumu.

Start Building’e tıkladıktan sonra makinenin başlaması yaklaşık 10 dakika sürebilir. Hazır olduğunda, Hyperbolic bir sonraki adım için gereken SSH erişim komutunu gösterecektir.

4X H100 GPU VPS Hyperbolic örneği çalışıyor ve ssh ile erişebilirsiniz.

Adım 2: Sunucuya SSH ile Bağlanın

Örnek hazır olduğunda, Hyperbolic panosunda gösterilen SSH komutunu kullanarak yerel terminalinizden bağlanın:

ssh ubuntu@XXXXXX

Daha sonra yerel makinenizden SGLang API’sine erişmek için 30000 numaralı bağlantı noktasını da iletebilirsiniz:

ssh -L 30000:localhost:30000 ubuntu@XXXXXX

SSH anahtarınızın bir parola öbeği varsa, istenildiğinde girin. Oturum açtıktan sonra tüm GPU’ların kullanılabilir olduğunu kontrol edin:

Nvidia-smi

Listede 4× NVIDIA H100 PCIe 80GB GPU görmelisiniz. Bu, sunucunun Docker ve SGLang kurulumu için hazır olduğunu doğrular.

Listede 4× NVIDIA H100 PCIe 80GB GPU

Adım 3: Linux Sunucusuna Docker Kurun

Önce Hugging Face belirtecinizi dışa aktarın; böylece sunucu daha sonra Mistral modelini indirebilsin:

echo 'export HF_TOKEN="your_huggingface_token_here"' >> ~/.bashrc
source ~/.bashrc

Not: Hugging Face belirtecinizi Access Tokens sayfasından alabilirsiniz.

Hugging Face önbellek klasörünü oluşturun:

mkdir -p ~/.cache/huggingface

Şimdi Docker’ı kurun:

sudo apt update
sudo apt install -y docker.io

Docker’ı başlatın ve yeniden başlatma sonrası otomatik çalışacak şekilde etkinleştirin:

sudo systemctl start docker
sudo systemctl enable docker

Docker’ın doğru kurulduğunu kontrol edin:

docker –version

Docker Hub’dan genel imajları arayabildiğini doğrulamak için Docker arama komutunu da kullanabilirsiniz:

docker search nvidia/cuda

Bu komut, mevcut NVIDIA CUDA imajlarını döndürmelidir. Daha sonra, Docker’ın GPU’lara erişebildiğini doğrulamak için bu CUDA imajlarından birini kullanacağız.

Sonraki adımda, sudo olmadan Docker komutları çalıştırabilmeniz için kullanıcınıza izin verin:

sudo usermod -aG docker $USER
newgrp docker

Şimdi Docker’ın GPU’lara erişebilmesi için NVIDIA Container Toolkit’i kurup yapılandırın:

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)

curl -s -L https://nvidia.github.io/libnvidia-container/gpgkey | sudo apt-key add -

curl -s -L https://nvidia.github.io/libnvidia-container/$distribution/libnvidia-container.list | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

sudo apt update
sudo apt install -y nvidia-container-toolkit

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

Son olarak, Docker’ın bir konteyner içinden GPU’ları görebildiğini test edin:

docker run --rm --gpus all nvidia/cuda:12.4.1-base-ubuntu22.04 nvidia-smi

Bu, Docker konteyneri içinde aynı H100 GPU listesini yazdırıyorsa, GPU Docker kurulumunuz doğru çalışıyor demektir.

Docker içinde 4× NVIDIA H100 PCIe 80GB GPU kullanılabilir

Adım 4: SGLang Docker İmajını Çekin

Sırada, Mistral Medium 3.5 için oluşturulmuş SGLang Docker imajını çekmek var:

docker pull lmsysorg/sglang:dev-mistral-medium-3.5

lmsysorg/sglang:dev-mistral-medium-3.5 docker imajı çekiliyor

Bu işlem internet hızınıza bağlı olarak biraz zaman alabilir. Benim durumumda yaklaşık 10 dakika sürdü. İmaj indirildiğinde, Docker aşağıdakine benzer bir başarı mesajı gösterecektir:

Status: Downloaded newer image for lmsysorg/sglang:dev-mistral-medium-3.5

Adım 5: Mistral Medium 3.5 128B’yi SGLang ile Sunun

Şimdi SGLang sunucusunu başlatın:

docker run -d \
 --name mistral-sglang \
 --gpus all \
 --shm-size 64g \
 --ipc=host \
 --cap-add SYS_NICE \
 -p 30000:30000 \
 -v ~/.cache/huggingface:/root/.cache/huggingface \
 -e HF_TOKEN=$HF_TOKEN \
 -e PYTORCH_ALLOC_CONF=expandable_segments:True \
 lmsysorg/sglang:dev-mistral-medium-3.5 \
 sglang serve \
   --model-path mistralai/Mistral-Medium-3.5-128B \
   --served-model-name mistral-medium-3.5 \
   --host 0.0.0.0 \
   --port 30000 \
   --tp 4 \
   --trust-remote-code \
   --dtype bfloat16 \
   --context-length 100000 \
   --mem-fraction-static 0.85 \
   --disable-custom-all-reduce \
   --tool-call-parser mistral \
   --reasoning-parser mistral

--dtype bfloat16 kullandım çünkü daha sonra yapacağımız EAGLE kurulumu da bf16 gerektiriyor; bu nedenle temel çalışma ve spekülatif çalışmayı hizalı tutmak, testler arasında dtype değiştirmeyi önler. Ayrıca ilk çalıştırmayı daha kolay hata ayıklanabilir kılmak için tam bağlam penceresi yerine --context-length 100000 ile başladım.

Konteyner günlüklerini şu komutla kontrol edin:

docker logs -f mistral-sglang

Mistral Medium 3.5 128B indiriliyor

İlk başlatma daha uzun sürecektir çünkü SGLang’in model dosyalarını Hugging Face’ten indirmesi gerekir. Depo oldukça büyüktür; örneğinizin hızına bağlı olarak bu işlem bir saat veya daha fazla sürebilir. 

Sunucu hazır olduğunda, günlüklerde Uvicorn’un 30000 portunda çalıştığı görülmelidir.

SGLang sunucusu Mistral Medium 3.5 128B modelini sunmaya hazır

Başka bir terminalde, sunucuya tekrar SSH ile bağlanın ve model uç noktasını kontrol edin:

curl http://localhost:30000/v1/models

mistral-medium-3.5 modelinin max_model_len değeri 100000 olacak şekilde listelendiğini görmelisiniz.

{"object":"list","data":[{"id":"mistral-medium-3.5","object":"model","created":1779816738,"owned_by":"sglang","root":"mistral-medium-3.5","parent":null,"max_model_len":100000}]}

Son olarak bir sohbet tamamlama testi yapın:

curl http://localhost:30000/v1/chat/completions \
 -H "Content-Type: application/json" \
 -d '{
   "model": "mistral-medium-3.5",
   "messages": [
     {
       "role": "user",
       "content": "Write a short introduction to Mistral Medium 3.5."
     }
   ],
   "max_tokens": 300,
   "temperature": 0.7,
   "top_p": 0.95
 }'

Mistral Medium 3.5 128B yanıtları üretildi

Benim testimde model başarıyla yanıt verdi ve isteği temiz şekilde tamamladı; bu da SGLang uç noktasının çalıştığını doğruladı. Temel çalıştırma saniyede yaklaşık 35,6 token üretti.

Adım 6: Mistral Medium 3.5 128B’yi EAGLE Spekülatif Kod Çözme ile Çalıştırın

Spekülatif kod çözme, ana model doğrularken, daha küçük bir taslak modelin token’ları önceden tahmin etmesini kullanarak üretimi hızlandırabilir. 

EAGLE burada faydalıdır çünkü özellikle Mistral Medium 3.5 gibi büyük bir modeli yerelde çalıştırırken, gecikmeye duyarlı sunum için tasarlanmıştır. Her zaman daha hızlı olmayabilir; ancak fayda, istem uzunluğu, çıktı uzunluğu, eşzamanlılık ve GPU kullanımına bağlı olduğundan test etmeye değerdir.

Önce temel konteyneri kaldırın:

docker rm -f mistral-sglang

Ardından EAGLE sürümünü başlatın:

docker run -d \
 --name mistral-sglang-eagle \
 --gpus all \
 --shm-size 64g \
 --ipc=host \
 --cap-add SYS_NICE \
 -p 30000:30000 \
 -v ~/.cache/huggingface:/root/.cache/huggingface \
 -e HF_TOKEN="$HF_TOKEN" \
 -e PYTORCH_ALLOC_CONF=expandable_segments:True \
 lmsysorg/sglang:dev-mistral-medium-3.5 \
 sglang serve \
   --model-path mistralai/Mistral-Medium-3.5-128B \
   --served-model-name mistral-medium-3.5-eagle \
   --host 0.0.0.0 \
   --port 30000 \
   --tp 4 \
   --trust-remote-code \
   --dtype bfloat16 \
   --context-length 100000 \
   --mem-fraction-static 0.85 \
   --disable-custom-all-reduce \
   --tool-call-parser mistral \
   --reasoning-parser mistral \
   --enable-metrics \
   --speculative-algorithm EAGLE \
   --speculative-draft-model-path mistralai/Mistral-Medium-3.5-128B-EAGLE \
   --speculative-num-steps 3 \
   --speculative-eagle-topk 1 \
   --speculative-num-draft-tokens 4

SGLang bu EAGLE kurulumunu iyi bir başlangıç noktası olarak önerir: --speculative-num-steps 3, --speculative-eagle-topk 1 ve --speculative-num-draft-tokens 4. İlk çalıştırma daha uzun sürebilir çünkü EAGLE taslak modelini de indirir. 

Yüklendikten sonra, nvidia-smi ile GPU kullanımını kontrol edebilirsiniz; benim çalıştırmamda model GPU başına yaklaşık 44 GB H100 belleği kullandı.

EAGLE taslak modeliyle SGLang, H100 GPU başına 44GB tüketiyor

Günlükleri şu komutla izleyin:

docker logs -f mistral-sglang-eagle

Mistral Medium 3.5 128B EAGLE ile sunuluyor

Günlüklerde Uvicorn’un 0.0.0.0:30000 üzerinde çalıştığını gördüğünüzde uç noktayı test edin:

curl http://localhost:30000/v1/chat/completions \
 -H "Content-Type: application/json" \
 -d '{
   "model": "mistral-medium-3.5-eagle",
   "messages": [
     {
       "role": "user",
       "content": "Generate a simple Python game."
     }
   ],
   "reasoning_effort": "none",
   "max_tokens": 300,
   "temperature": 0.7,
   "top_p": 0.95
 }'

Mistral Medium 3.5 128B EAGLE ile model yanıtı

Benim testimde EAGLE sunucusu doğru şekilde yanıt verdi ve basit bir Python oyunu üretti. Çalıştırma saniyede yaklaşık 32 token’a ulaştı; bu da temel çalıştırmadan biraz daha yavaştı; dolayısıyla EAGLE bu özel testte iyileşme sağlamadı. 

Bu normaldir: spekülatif kod çözme iş yüküne çok bağlıdır ve en iyi değerlendirme yöntemi kendi istemleriniz ve eşzamanlılık düzeyinizle test etmektir.

Adım 7: Mistral Medium 3.5 ile OpenCode’u Kurun

OpenCode, OpenAI uyumlu model uç noktalarına bağlanabilen açık kaynaklı bir AI kodlama ajanıdır. SGLang, Mistral Medium 3.5’i yerel bir OpenAI uyumlu API üzerinden sunduğundan, onu doğrudan OpenCode içinde kullanabiliriz.

Henüz kurmadıysanız OpenCode’u yükleyin:

curl -fsSL https://opencode.ai/install | bash

Sonra proje dizininize gidin ve bir opencode.json dosyası oluşturun.

Aşağıdaki yapılandırmayı ekleyin: 

{
 "$schema": "https://opencode.ai/config.json",
 "provider": {
   "sglang": {
     "npm": "@ai-sdk/openai-compatible",
     "name": "SGLang Local",
     "options": {
       "baseURL": "http://127.0.0.1:30000/v1",
       "apiKey": "EMPTY"
     },
     "models": {
       "mistral-medium-3.5-eagle": {
         "name": "Mistral Medium 3.5 EAGLE",
         "limit": {
           "context": 100000,
           "output": 8192
         }
       }
     }
   }
 },
 "model": "sglang/mistral-medium-3.5-eagle"
}

Şimdi aynı proje dizininden OpenCode’u başlatın: 

Opencode

OpenCode içinde Mistral Medium 3.5 EAGLE SGLang Local seçili görünmelidir. Bu, OpenCode’un şimdi iletilen 30000 bağlantı noktası üzerinden yerel SGLang sunucunuzla konuştuğu, tıpkı herhangi bir OpenAI uyumlu API’yi çağırır gibi, anlamına gelir. 

Yerel OpenCode’da EAGLE ile Mistral Medium 3.5 128B kullanımı

Testimde OpenCode’dan projeyi açıklamasını istedim; depo dosyalarını birkaç saniye içinde okuyup özeti oluşturdu. 

OpenCode’da projeyi anlama

Ardından ondan bir Badger 2040 emülatörü oluşturmasını istedim; önce mevcut proje dosyalarını inceledi, yapıyı doğruladı ve ardından gerekli Python dosyasını oluşturdu. Tüm süreç yaklaşık 2 dakika sürdü. 

Mistral Medium 3.5 128B’den Badger 2040 emülatörü oluşturması istendi

Sonrasında emülatörü yerelde test etmesini istedim. OpenCode kodu çalıştırdı ve emülatör penceresini başarıyla açtı. 

Mistral Medium 3.5 128B’den Badger 2040 emülatörünü test etmesi istendi

Yazı tipi gerçek Badger 2040 ekranıyla birebir aynı değildi; ancak yerleşim, saat ve tarih yerleşimi ile genel yapı neredeyse kusursuzdu. 

image4.png

Sonuç beni gerçekten şaşırttı; çünkü aynı görevi daha önce Claude Code ve GPT-5.5 ile denemiştim ve ikisi de zorlanmıştı; Mistral Medium 3.5 ise yerel SGLang kurulumu üzerinden bunu gayet iyi başardı. 

Sorun Giderme ve Kurulum Notları

Yolda birkaç tuzak var. Karşılaşabileceğiniz sorunları ve nasıl çözeceğinizi anlatayım.

1. Sabırlı olun: Bu kurulum zaman alır

Her şeyden önce sabırlı olmanız gerekecek. Bu tam kurulum neredeyse 3 saat sürdü. GPU VM’nin başlatılması yaklaşık 15 dakika, Docker ve NVIDIA konteyner aracının kurulumu yaklaşık 10 dakika, SGLang Docker imajının çekilmesi yaklaşık 30 dakika ve Mistral Medium 3.5 model ağırlıklarının indirilmesi artı yüklenmesi yaklaşık 1 saat aldı. 

EAGLE kurulumu da ek zaman alır çünkü modeli yeniden yükler ve EAGLE taslak modelini indirebilir. Daha akıcı bir deneyim için daha hızlı ağ, mevcutsa H200 gibi daha yeni GPU’lar ve tam Hugging Face önbelleği için yeterli depolama kullanın.

4x H100 GPU örneği 3 saat 14 dakika çalıştı.

2. Docker GPU’ları göremiyor

nvidia-smi ana makinede çalışıyor ancak Docker GPU’lara erişemiyorsa, NVIDIA konteyner çalışma zamanı muhtemelen doğru yapılandırılmamıştır. NVIDIA konteyner araç takımının yapılandırmasını yeniden çalıştırın ve Docker’ı yeniden başlatın:

sudo nvidia-ctk runtime configure --runtime=docker
sudo systemctl restart docker

NVIDIA’nın belgeleri, Docker GPU erişimi için bu nvidia-ctk çalışma zamanı yapılandırma adımını da önerir.

3. Model sürekli yeniden indiriliyor

Hugging Face önbelleğinin konteynere bağlandığından emin olun:

-v ~/.cache/huggingface:/root/.cache/huggingface

Bu, Docker’ın indirilen model dosyalarını yeniden indirmek yerine yeniden kullanmasına olanak tanır. Hugging Face, güncel dosyaların yeniden indirilmesini önlemek için yerel bir önbellek kullanır.

4. İndirme yavaş veya takılı kaldı

Mistral Medium 3.5 deposu büyüktür; bu nedenle ilk indirme uzun sürebilir. Takılmış görünüyorsa internet hızınızı, disk alanınızı ve Hugging Face belirtecinizi kontrol edin. Ayrıca konteyneri çalıştırmadan önce Hugging Face’te gerekli model erişim koşullarını kabul ettiğinizden emin olun.

5. API uç noktası yanıt vermiyor

Günlüklerde Uvicorn’un 30000 portunda çalıştığı görülmeden sunucu hazır değildir. Günlükleri şu komutla kontrol edin:

docker logs -f mistral-sglang

veya EAGLE için:

docker logs -f mistral-sglang-eagle

Ayrıca konteynerin bağlantı noktasını doğru şekilde dışa açtığından emin olun:

-p 30000:30000

6. EAGLE temel çalıştırmadan daha hızlı değil

Bu normaldir. Spekülatif kod çözmenin her isteği iyileştirmesi garanti değildir. Taslak modelin token önermesi ve ana modelin bunları doğrulamasıyla çalışır; ancak hızlanma, kabul oranı, istem uzunluğu, çıktı uzunluğu, eşzamanlılık ve GPU kullanımına bağlıdır.

7. Bellek yetersiz hataları

Bellek sorunları yaşarsanız önce bağlam uzunluğunu azaltın. Örneğin, tam bağlam penceresini hemen denemek yerine --context-length 100000 ile başlayın. Başlangıç başarısız olursa --mem-fraction-static değerini biraz düşürebilirsiniz; ancak genellikle bağlam uzunluğunu azaltmak en kolay ilk adımdır.

8. OpenCode modele bağlanamıyor

SGLang sunucusunun çalıştığından ve opencode.json dosyanızın doğru yerel uç noktayı kullandığından emin olun:

"baseURL": "http://127.0.0.1:30000/v1"

Sunucuya yerel makinenizden erişiyorsanız, bağlantı noktası iletimiyle SSH’yi başlatın:

ssh -L 30000:localhost:30000 ubuntu@XXXXXX

Ardından OpenCode’u, opencode.json dosyanızın kayıtlı olduğu aynı dizinden başlatın.

Son Düşünceler 

Teknik kurulumun ne kadar sorunsuz olduğuna gerçekten şaşırdım. Yerel SGLang Docker imajıyla Mistral Medium 3.5 128B’yi çalıştırmak beklediğimden çok daha kolaydı. Docker imajı sorunsuz çekildi, model yüklendi, OpenAI uyumlu uç nokta çalıştı ve OpenCode fazla sorun çıkarmadan bağlandı. B

unu kendiniz deniyorsanız, her şeyi Python paketleriyle kurmak yerine SGLang Docker imajını kullanmanızı şiddetle tavsiye ederim. Python üzerinden kurulum, CUDA, PyTorch ve diğer bağımlılıkları kolayca karıştırabilir. Docker her şeyi temiz ve yalıtılmış tutar.

Ancak bu deneyden çıkardığım en büyük sonuç maliyet oldu. Açıkçası, yapay zeka şirketleri çıkarımdan nasıl para kazanıyor bilmiyorum. Daha ucuz ve eski H100 PCIe seçeneklerinden birini kullansam bile bu kurulum saat başına 10 $’a yakındı. Ve bu yalnızca 4 GPU üzerinde bir 128B model için. Şimdi 16× H100 üzerinde trilyon parametreli çok daha büyük bir modeli çalıştırmayı hayal edin. Depolama, ağ, izleme, çalışma süresi ve mühendislik işini düşünmeden önce bile faturanız kolayca saatte 40 $+’a ulaşabilir.

Küçük şirketler için, mahremiyet, araştırma veya çıkarım yığını üzerinde derin kontrol gibi çok güçlü bir gerekçe olmadıkça bu tür modelleri yerelde sunmanın mantıklı olduğunu düşünmüyorum. Çıkarım maliyeti zaten yüksek, ancak operasyonel yük de bir sorun. Sunucuyu çalışır durumda tutmanız, modelin çökmediğinden emin olmanız, GPU belleğini izlemeniz, başarısız konteynerleri ele almanız ve uç noktayı erişilebilir tutmanız gerekir.

Sunucusuz mimari de çok büyük modeller için bunu gerçekten çözmüyor. Soğuk başlatma süresi basitçe çok uzun. Bu kurulumda GPU VM’yi başlatmak, bağımlılıkları kurmak, Docker imajını çekmek, ağırlıkları indirmek ve modeli yüklemek toplamda neredeyse 3 saat sürdü. 

Kurulumunuz daha hızlı olsa bile, bu boyuttaki bir modeli yüklemek yine de uzun sürebilir. Dolayısıyla her yeni istek başka bir GPU kümesini başlatmayı ve modeli yeniden yüklemeyi gerektiriyorsa, bu sunucusuz mimarinin amacını boşa çıkarır. Pratikte şirketlerin sıcak GPU kümelerini çalışır halde tutması gerekir; bu da GPU’lar boşta kalsa bile ödeme yapıldığı anlamına gelir.

Bu durum, yoğun olmayan saatlerde GPU fiyatlandırmasının neden var olduğunu da açıklar. Sağlayıcılar, boştaki GPU kapasitesini insanların kullanmasını ister; çünkü kullanılmayan GPU’lar sadece para yakar. Kullanıcılar için bu, daha ucuza denemeler yapmak için iyi bir yol olabilir; ancak büyük model çıkarımının ekonomisinin ne kadar zor olduğunu da gösterir.

Genel olarak bu kurulum için SGLang’i gerçekten beğendim. Docker tabanlı iş akışı, Mistral Medium 3.5 128B’yi beklediğimden çok daha kolay sunmamı sağladı ve OpenCode testi gerçekten etkileyiciydi. Ancak bu deney bir şeyi de çok net gösterdi: büyük açık modelleri yerelde çalıştırmak mümkün; fakat bunları gerçek bir ürün olarak güvenilir ve uygun maliyetli şekilde çalıştırmak tamamen farklı bir zorluktur.


Abid Ali Awan's photo
Author
Abid Ali Awan
LinkedIn
Twitter

Sertifikalı bir veri bilimcisi olarak, yenilikçi makine öğrenimi uygulamaları oluşturmak için en son teknolojileri kullanmaya büyük ilgi duyuyorum. Konuşma tanıma, veri analizi ve raporlama, MLOps, konuşma yapay zekası ve NLP alanlarında güçlü bir geçmişe sahip olarak, gerçek bir etki yaratabilecek akıllı sistemler geliştirme becerilerimi geliştirdim. Teknik uzmanlığımın yanı sıra, karmaşık kavramları açık ve özlü bir dille ifade etme yeteneğine sahip, becerikli bir iletişimciyim. Sonuç olarak, veri bilimi konusunda aranan bir blog yazarı oldum ve giderek büyüyen veri profesyonelleri topluluğuyla görüşlerimi ve deneyimlerimi paylaşıyorum. Şu anda, içerik oluşturma ve düzenlemeye odaklanıyorum. Büyük dil modelleriyle çalışarak, hem işletmelerin hem de bireylerin verilerinden en iyi şekilde yararlanmalarına yardımcı olabilecek güçlü ve ilgi çekici içerikler geliştiriyorum.

Konular

DataCamp ile AI öğrenin!

Program

Geliştiriciler için Yardımcı Yapay Zeka Mühendisi

26 sa
API'leri ve açık kaynak kütüphanelerini kullanarak yapay zekayı yazılım uygulamalarına nasıl entegre edeceğinizi öğrenin. Yapay Zeka Mühendisi olma yolculuğunuza bugün başlayın!
Ayrıntıları GörRight Arrow
Kursa Başla
Devamını GörRight Arrow