Menggunakan Claude Code Dengan Model Lokal Ollama

Jalankan GLM 4.7 Flash secara lokal (RTX 3090) dengan Claude Code dan Ollama dalam hitungan menit, tanpa cloud, tanpa terkunci vendor, hanya kecepatan dan kontrol murni.

Diperbarui 5 Jun 2026 · 8 mnt baca

Jelajahi dengan AI

Buka di ChatGPT Buka di Claude Buka di Perplexity

GLM 4.7 Flash dengan cepat menjadi pilihan populer untuk pengodean agen lokal. Banyak pengembang menggunakannya dengan alat seperti llama.cpp dan LM Studio. Namun, banyak orang masih mengalami masalah saat penyiapan, membuat model berjalan dengan benar, dan memastikan pemanggilan alat berfungsi sebagaimana mestinya.

Tutorial ini berfokus pada cara paling sederhana dan andal untuk menjalankan GLM 4.7 Flash secara lokal menggunakan Claude Code dengan Ollama. Tujuannya adalah menghilangkan hambatan dan membantu Anda mendapatkan penyiapan yang berfungsi tanpa kompleksitas yang tidak perlu.

Panduan ini berfungsi di semua sistem operasi. Tidak masalah apakah Anda menggunakan Linux, Windows, atau macOS. Pada akhirnya, Anda akan menjalankan GLM 4.7 Flash secara lokal dan terintegrasi dengan benar dengan Claude Code melalui Ollama.

Prasyarat

Sebelum memulai, pastikan sistem Anda memenuhi persyaratan perangkat keras dan perangkat lunak minimum di bawah ini.

Perangkat keras:

GPU NVIDIA dengan VRAM minimum 16 GB
VRAM 24 GB direkomendasikan untuk inferensi lebih mulus pada ukuran konteks yang lebih besar
RAM sistem 16–32 GB
Setidaknya 25 GB ruang disk kosong

Jika Anda tidak memiliki GPU, model dapat dijalankan pada CPU, tetapi kinerjanya akan jauh lebih lambat, dan membutuhkan RAM tinggi.

Perangkat lunak:

Linux atau macOS direkomendasikan. Pengguna Windows: gunakan WSL2 dengan GPU passthrough diaktifkan.
Driver GPU NVIDIA harus diinstal dan kompatibel dengan versi CUDA Anda
Instal CUDA Toolkit 13.1
Jika CUDA/driver tidak ada atau tidak kompatibel, Ollama biasanya akan beralih ke CPU, yang jauh lebih lambat.

Jika toolkit CUDA atau driver NVIDIA tidak ada atau tidak kompatibel, Ollama akan beralih ke mode CPU, yang jauh lebih lambat.

Untuk memverifikasi bahwa GPU dan driver CUDA Anda terinstal dengan benar, jalankan perintah berikut di terminal Anda:

nvidia-smi

Jika semuanya disiapkan dengan benar, Anda akan melihat GPU Anda terdaftar bersama VRAM yang tersedia dan versi CUDA.

1. Instal Ollama

Ollama adalah runtime yang akan kita gunakan untuk menjalankan GLM 4.7 Flash secara lokal dan mengeksposnya agar Claude Code dapat berinteraksi secara andal. Instalasinya sederhana di semua platform yang didukung.

Di Linux, Anda dapat menginstal Ollama dengan satu perintah:

curl -fsSL https://ollama.com/install.sh | sh

Untuk macOS dan Windows, unduh penginstal langsung dari situs web Ollama dan ikuti instruksi di layar.

Sumber: Ollama

Ollama berjalan sebagai layanan latar belakang dan akan secara otomatis memeriksa pembaruan. Saat pembaruan tersedia, Anda dapat menerapkannya dengan memilih “Restart to update” dari menu Ollama.

Setelah instalasi, buka terminal dan periksa bahwa Ollama terinstal dengan benar:

ollama -v

Anda akan melihat keluaran serupa dengan:

ollama version is 0.15.2

Jika Anda melihat kesalahan saat menjalankan ollama -v, biasanya berarti layanan Ollama belum berjalan. Mulai server Ollama secara manual:

ollama serve

Biarkan ini berjalan, buka jendela terminal baru, lalu jalankan:

ollama -v

Setelah perintah versi berhasil, Ollama siap digunakan pada langkah berikutnya dari tutorial.

2. Ambil dan Jalankan GLM-4.7-Flash

Setelah Ollama terinstal dan berjalan, langkah berikutnya adalah mengunduh model GLM 4.7 Flash dan memverifikasi bahwa model berfungsi dengan benar. Langkah ini memastikan model berjalan secara lokal sebelum mengintegrasikannya dengan Claude Code.

Sumber: glm-4.7-flash

Mulailah dengan mengunduh model dari registri Ollama:

ollama pull glm-4.7-flash

Ini akan mengunduh file model dan menyimpannya secara lokal. Bergantung pada kecepatan internet Anda, ini mungkin memerlukan beberapa menit.

Setelah unduhan selesai, jalankan model dalam mode chat interaktif sebagai pemeriksaan cepat:

ollama run glm-4.7-flash

Ketik prompt sederhana, seperti salam, lalu tekan enter. Dalam beberapa detik, Anda akan menerima respons.

Jika Anda menjalankan di GPU, Anda akan menyadari bahwa respons sangat cepat, dan keluaran mungkin menyertakan token pemikiran internal atau jejak penalaran tergantung pada konfigurasi model.

Anda juga dapat menguji model melalui API HTTP lokal Ollama. Ini berguna untuk memastikan bahwa alat eksternal dapat berkomunikasi dengan model.

Jalankan perintah berikut:

curl http://localhost:11434/api/chat -d '{
  "model": "glm-4.7-flash",
  "messages": [{"role":"user","content":"Hello!"}]
}'

3. Atur Panjang Konteks

Claude Code dan sebagian besar alat pengodean agen bekerja paling baik dengan jendela konteks besar, sering kali hingga 64k token. Namun, dengan GLM 4.7 Flash, memilih panjang konteks yang tepat penting untuk kinerja dan stabilitas.

Menggunakan ukuran konteks yang sangat besar dapat secara signifikan memperlambat kecepatan generasi. Dalam praktiknya, throughput token dapat turun dari lebih dari 100 token per detik menjadi serendah 2 token per detik. Dalam beberapa kasus, model juga dapat macet dalam loop berpikir panjang jika jendela konteks disetel terlalu tinggi.

Kami menguji beberapa ukuran konteks dan menemukan bahwa konteks 10k tidak memadai untuk alur kerja Claude Code. Konteks 20k memberikan keseimbangan yang baik. Cukup besar untuk tugas pemrograman sambil tetap mempertahankan waktu respons cepat dan mengurangi loop berpikir yang tidak perlu.

Pertama, hentikan server Ollama yang berjalan. Anda dapat melakukannya dengan menekan Ctrl + C di terminal atau dengan menghentikan prosesnya.

Selanjutnya, mulai ulang Ollama dengan panjang konteks kustom dengan menyetel variabel lingkungan sebelum meluncurkan server:

OLLAMA_CONTEXT_LENGTH=20000 ollama serve

Ini memberi tahu Ollama untuk memuat model dengan jendela konteks maksimum 20.000 token.

Di jendela terminal baru, jalankan:

ollama ps

Ini mengonfirmasi bahwa GLM 4.7 Flash berjalan di GPU dan panjang konteks telah diatur dengan benar. Pada titik ini, model dikonfigurasi untuk penggunaan yang stabil dan cepat dengan Claude Code.

NAME                    ID              SIZE     PROCESSOR    CONTEXT    UNTIL                   
glm-4.7-flash:latest    d1a8a26252f1    21 GB    100% GPU     20000      About a minute from now

4. Instal Claude Code

Claude Code adalah agen pengodean berbasis terminal dari Anthropic yang membantu Anda menulis, mengedit, merapikan, dan memahami kode menggunakan bahasa alami. Ini dibuat untuk alur kerja agen dan dapat menangani tugas pengodean multi-langkah langsung dari baris perintah Anda.

Jika digabungkan dengan Ollama, Claude Code dapat dengan mudah digunakan dengan model lokal seperti GLM 4.7 Flash, memungkinkan Anda menjalankan semuanya secara lokal dan menjaga kode tetap berada di mesin Anda.

Di macOS, Linux, atau Windows menggunakan WSL, instal Claude Code menggunakan skrip penginstal resmi:

curl -fsSL https://claude.ai/install.sh | bash

Perintah ini mengunduh dan memasang Claude Code beserta dependensi yang diperlukan. Setelah instalasi selesai, perintah claude akan tersedia di terminal Anda.

5. Hubungkan Claude Code ke Ollama

Sekarang setelah Ollama dan Claude Code terinstal, langkah selanjutnya adalah menghubungkan Claude Code ke server Ollama lokal Anda dan mengonfigurasinya untuk menggunakan model GLM 4.7 Flash.

Mulailah dengan membuat direktori kerja untuk proyek Anda. Di sinilah Claude Code akan beroperasi dan mengelola file:

mkdir <project-name>
cd <project-name>

Ollama kini menyediakan cara bawaan untuk meluncurkan Claude Code yang secara otomatis mengonfigurasinya agar berbicara dengan runtime Ollama lokal. Ini adalah pendekatan yang direkomendasikan dan paling andal.

Untuk meluncurkan Claude Code secara interaktif menggunakan Ollama:

ollama launch claude

Untuk langsung memulai Claude Code menggunakan model GLM 4.7 Flash, jalankan:

ollama launch claude --model glm-4.7-flash

Ini memastikan Claude Code menggunakan model GLM 4.7 Flash lokal Anda alih-alih model jarak jauh atau default.

Setelah semuanya disiapkan, Anda akan melihat antarmuka Claude Code langsung di terminal Anda.

Di dalam Claude Code, gunakan perintah berikut untuk memastikan bahwa ia menggunakan model lokal Anda:

/model

Jika keluarannya menampilkan glm-4.7-flash, penyiapan Anda selesai, dan Claude Code berhasil berjalan pada model Ollama lokal Anda.

7. Menggunakan Claude Code dengan Ollama

Dengan semuanya siap, Anda sekarang dapat mulai menggunakan Claude Code yang didukung oleh model GLM 4.7 Flash lokal Anda. Hal pertama yang bisa dicoba adalah salam sederhana. Dalam satu atau dua detik, Anda akan menerima respons. Kecepatan terasa sangat cepat, terutama saat berjalan di GPU.

Selanjutnya, coba tugas pemrograman yang lebih realistis. Minta Claude Code membangun gim Snake CLI dalam Python. Sebelum menghasilkan kode, beralihlah ke mode perencanaan agar model menguraikan pendekatannya terlebih dahulu. Anda dapat mengaktifkan mode perencanaan dengan menekan Shift + Tab dua kali.

Setelah rencana dibuat, tinjau. Jika pendekatannya terlihat bagus, minta Claude Code untuk mengeksekusi rencana tersebut.

Dalam beberapa menit, ia telah membuat file yang diperlukan, menjelaskan apa yang dilakukan gim Snake, dan memberikan instruksi jelas tentang cara menjalankannya.

Buka jendela terminal baru dan pastikan Anda berada di direktori proyek yang sama. Lalu mulai gim dengan:

python3 snake_game.py

Gim berjalan langsung tanpa penyiapan tambahan. Ini adalah gim Snake berbasis terminal sederhana, sangat mirip dengan versi klasik Nokia 3310. Meski sederhana, ini adalah contoh yang bagus tentang betapa cepat dan efektifnya pengodean agen lokal dengan Claude Code dan Ollama.

Pemikiran Akhir

Menjalankan Claude Code dengan GLM 4.7 Flash di Ollama menunjukkan sejauh mana pengodean agen lokal telah berkembang. Anda mendapatkan respons cepat, kemampuan pembuatan kode yang kuat, dan kontrol penuh atas data Anda, semuanya tanpa bergantung pada model yang dihosting di cloud.

Setelah dikonfigurasi, alur kerjanya terasa mulus dan andal, bahkan untuk tugas pengodean multi-langkah.

Satu hal penting adalah bahwa jendela konteks yang lebih besar dan penyiapan yang lebih kompleks tidak selalu lebih baik. Dengan default yang masuk akal, keseluruhan penyiapan memakan waktu sekitar lima menit, tidak termasuk waktu unduh model yang bergantung pada koneksi internet Anda.

Jika Anda sudah memiliki file GGUF untuk model yang diunduh, penyiapan menjadi lebih cepat. Dalam kasus ini, Anda dapat melewati unduhan model sepenuhnya dan cukup mendaftarkan file GGUF yang ada ke Ollama dengan membuat sebuah Modelfile.

Ini memungkinkan Anda mendefinisikan parameter generasi sekali dan menggunakan model secara konsisten di berbagai sesi dan alat.

Buat file bernama Modelfile di direktori yang sama dengan file GGUF Anda:

FROM ./glm-4.7-flash.gguf

PARAMETER temperature 0.8
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0

Anda dapat menyesuaikan parameter sesuai kebutuhan:

Temperature: 0,7 hingga 1,0
Top-p: 0,95 hingga 1,0
Repeat penalty: dinonaktifkan atau diatur ke 1,0

Daftarkan model ke Ollama:

ollama create glm-4.7-flash-local -f Modelfile

Setelah model dibuat, Anda dapat menjalankannya langsung dalam mode chat:

ollama run glm-4.7-flash-local

Model sekarang dapat digunakan seperti model Ollama lainnya dan terintegrasi mulus dengan Claude Code.

Saya sangat menikmati membangun aplikasi dan gim menggunakan GLM 4.7 Flash di dalam Claude Code. Rasanya benar-benar memberdayakan untuk bekerja di tempat terpencil tanpa internet atau konektivitas tidak stabil. Semuanya berjalan secara lokal, tidak ada yang rusak, dan Anda tetap memiliki agen pengodean yang kuat di ujung jari Anda. Rasa kontrol dan kemandirian itu sulit ditandingi.

Jika Anda ingin mempelajari lebih lanjut tentang alat yang kita bahas dalam artikel ini, saya merekomendasikan sumber berikut:

Model lokal mana yang paling cocok untuk pengodean agen?

Menjalankan Claude Code dengan Ollama adalah salah satu penyiapan "vibe-coding" terkuat untuk 2026. Ini memungkinkan Anda menggunakan agen terminal canggih Anthropic sekaligus menjaga kode sumber Anda sepenuhnya privat dan menghindari biaya API yang mahal.

Sejak Ollama v0.14, ia memiliki kompatibilitas native dengan Anthropic Messages API, artinya Anda dapat menukar backend cloud dengan yang lokal hanya dengan beberapa variabel lingkungan.

5 FAQ Umum untuk Claude Code + Ollama

1. Bagaimana cara mengarahkan Claude Code ke server Ollama lokal saya?

Claude Code secara default mencari Anthropic API. Untuk mengarahkannya ke Ollama, Anda harus menyetel tiga variabel lingkungan ini di terminal sebelum menjalankan perintah claude:

Linux/macOS:

Bash 

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY="" 

Windows (PowerShell):

PowerShell 

$env:ANTHROPIC_BASE_URL = "http://localhost:11434"
$env:ANTHROPIC_AUTH_TOKEN = "ollama"
$env:ANTHROPIC_API_KEY = ""

Tip: Jika Anda menggunakan Ollama terbaru, Anda cukup menjalankan ollama launch claude agar variabel ini dikonfigurasikan untuk Anda secara otomatis.

2. Model lokal mana yang paling cocok untuk pengodean agen?

Tidak setiap model lokal dapat menangani instruksi "agen" yang kompleks (pemanggilan alat, pembacaan file, dan perencanaan multi-langkah) yang diperlukan Claude Code. Hingga awal 2026, favorit komunitas adalah:

GLM 4.7 Flash: Sangat dioptimalkan untuk kecepatan dan jendela konteks besar (128k).
Qwen 2.5 Coder (32B atau 7B): Saat ini standar emas untuk penalaran pengodean sumber terbuka.
Codestral: Unggul untuk Python dan logika kompleks, meskipun lebih berat pada perangkat keras.

Apa persyaratan perangkat keras minimum?

Mengapa Claude Code terus mencoba terhubung ke internet?

Bahkan dengan model lokal, Claude Code mungkin mencoba mengirim lalu lintas "tidak esensial" seperti telemetri atau pemeriksaan pembaruan. Jika Anda berada di lingkungan yang sepenuhnya offline atau menginginkan privasi maksimal, setel variabel tambahan ini:

export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1

Ini memastikan agen tidak "menghubungi rumah" dan tetap terbatas pada jaringan lokal Anda.

Bisakah saya menggunakan "Mode Perencanaan" dengan model lokal?

Author

Abid Ali Awan

Sebagai data scientist tersertifikasi, saya bersemangat memanfaatkan teknologi mutakhir untuk menciptakan aplikasi machine learning yang inovatif. Dengan latar belakang kuat di pengenalan ucapan, analisis dan pelaporan data, MLOps, conversational AI, dan NLP, saya mengasah keterampilan dalam mengembangkan sistem cerdas yang berdampak nyata. Selain keahlian teknis, saya juga komunikator andal yang mampu menyederhanakan konsep kompleks menjadi bahasa yang jelas dan ringkas. Karena itu, saya menjadi blogger yang dicari di bidang data science, membagikan wawasan dan pengalaman kepada komunitas profesional data yang terus berkembang. Saat ini, saya berfokus pada pembuatan dan penyuntingan konten, bekerja dengan large language model untuk mengembangkan konten yang kuat dan menarik agar membantu bisnis dan individu memaksimalkan data mereka.

Topik

Kecerdasan Buatan

Large Language Models

Agen AI

Kursus Teratas DataCamp

Kursus

Merancang Sistem Agentic dengan LangChain

3 Hr

13K

Pahami komponen dasar dari agen LangChain dan bangun agen chat kustom.

Lihat Detail

Mulai Kursus

Kursus

Pengantar Model Claude

3 Hr

12.5K

Pelajari cara bekerja dengan Claude menggunakan Anthropic API untuk menyelesaikan tugas dunia nyata dan membangun aplikasi berbasis AI.

Lihat Detail

Mulai Kursus

Kursus

Membangun Agen AI dengan Google ADK

1 Hr

Bangun asisten dukungan pelanggan langkah demi langkah dengan Google’s Agent Development Kit (ADK).

Lihat Detail

Mulai Kursus

Lihat Lebih Banyak

Terkait

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.

David Woods

13 mnt

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.

Javier Canales Luna

14 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.

Hugo Bowne-Anderson

13 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.

Dario Radečić

15 mnt

Lihat Lebih Banyak Lihat Lebih Banyak

Prasyarat

1. Instal Ollama

2. Ambil dan Jalankan GLM-4.7-Flash

3. Atur Panjang Konteks

4. Instal Claude Code

5. Hubungkan Claude Code ke Ollama

7. Menggunakan Claude Code dengan Ollama

Pemikiran Akhir

FAQs

5 FAQ Umum untuk Claude Code + Ollama

1. Bagaimana cara mengarahkan Claude Code ke server Ollama lokal saya?

2. Model lokal mana yang paling cocok untuk pengodean agen?

Mengapa Claude Code terus mencoba terhubung ke internet?

Bisakah saya menggunakan "Mode Perencanaan" dengan model lokal?

Tutorial Korelasi di R

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Spaghetti Plot dan Jalur Badai

40 Pertanyaan Wawancara DBMS Teratas di 2026

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Merancang Sistem Agentic dengan LangChain

Pengantar Model Claude

Membangun Agen AI dengan Google ADK

Tutorial Korelasi di R

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Spaghetti Plot dan Jalur Badai

40 Pertanyaan Wawancara DBMS Teratas di 2026

Merancang Sistem Agentic dengan LangChain