Program
Jika Anda memilih antara Claude Fable 5 dan GPT-5.5 untuk alur kerja produksi, tabel tolok ukur akan memberi Anda gambaran yang jelas. Di atas kertas, Fable 5 adalah model yang lebih kuat dengan selisih besar pada pemrograman dan penalaran. Namun, biayanya dua kali lipat per token keluaran, memiliki sistem pengklasifikasi yang dapat diam-diam mengalihkankan permintaan Anda ke model yang lebih lemah, dan menerapkan persyaratan retensi data 30 hari yang sepenuhnya memblokir sebagian pelanggan perusahaan.
Dalam artikel ini, saya akan membandingkan Fable 5 dan GPT-5.5 pada lima dimensi: kinerja pemrograman dan agentik, pekerjaan konteks panjang, pengklasifikasi keamanan dan friksi akses, pekerjaan pengetahuan dan penalaran, serta harga. Anda juga dapat melihat panduan mandiri kami untuk Claude Fable 5 dan GPT-5.5 untuk ulasan lebih mendalam masing-masing model.
Ikuti perkembangan terbaru seputar AI. Berlangganan The Median, buletin gratis setiap Jumat yang mengulas cerita-cerita kunci minggu ini. Tetap tajam hanya dalam beberapa menit setiap minggu.
Apa itu Claude Fable 5?
Claude Fable 5 adalah model kelas Mythos pertama dari Anthropic yang tersedia untuk penggunaan umum, diluncurkan pada 9 Juni 2026. Mythos adalah tingkat kapabilitas baru yang berada di atas Opus dalam hierarki model Anthropic. Fable 5 adalah model dasar yang sama dengan Claude Mythos 5, namun dengan pengklasifikasi keamanan aktif yang mengarahkan kueri sensitif tertentu ke Claude Opus 4.8. Perbedaan nama penting: Fable adalah versi yang dapat diakses publik; Mythos adalah versi tanpa batasan yang hanya tersedia untuk mitra Project Glasswing.
Anthropic memposisikan Fable 5 sebagai yang tercanggih pada hampir semua tolok ukur yang diuji, dengan kekuatan khusus dalam rekayasa perangkat lunak, pekerjaan pengetahuan, visi, dan tugas agentik jangka panjang. Semakin panjang dan kompleks tugasnya, semakin besar keunggulannya dibanding model Claude sebelumnya. Stripe melaporkan bahwa Fable 5 memadatkan pekerjaan rekayasa selama berbulan-bulan menjadi hitungan hari pada migrasi basis kode Ruby berisi 50 juta baris.
Untuk informasi lebih lanjut tentang kapabilitas Fable 5 dan rincian tolok ukurnya, lihat panduan Claude Fable 5 kami. Kami juga membahas varian Mythos 5 yang dibatasi dalam artikel Claude Mythos 5.
Apa itu GPT-5.5?
GPT-5.5 adalah rilis model OpenAI pada April 2026, digambarkan sebagai model pengkodean agentik terkuat perusahaan hingga saat ini. OpenAI juga merilis varian GPT-5.5 Pro untuk pekerjaan dengan akurasi lebih tinggi. Model ini dirancang bersama untuk dan disajikan pada sistem NVIDIA GB200 dan GB300 NVL72, dan OpenAI menyatakan bahwa latensi per token-nya menyamai GPT-5.4 dalam pelayanan dunia nyata sambil beroperasi pada tingkat kecerdasan yang secara bermakna lebih tinggi.
Garis besar arsitektural utama untuk GPT-5.5 adalah keandalan konteks panjang. GPT-5.4 kolaps setelah sekitar 128K token pada tolok ukur MRCR; GPT-5.5 tetap stabil hingga 512K-1M token (74,0% pada MRCR v2 pada rentang itu, dibanding 36,6% untuk GPT-5.4). Ini adalah perubahan kualitatif pada apa yang bisa digunakan model, bukan kenaikan tolok ukur yang marginal.
Untuk rincian lengkap tolok ukur GPT-5.5 dan temuan praktis kami, lihat panduan GPT-5.5 kami. Kami juga membandingkannya langsung dengan Claude Opus 4.8 dalam ulasan Claude Opus 4.8 vs GPT-5.5.
Claude Fable 5 vs GPT-5.5: Perbandingan Langsung
Berikut ringkasan singkat posisi masing-masing model sebelum kita masuk ke detailnya.
| Fitur | Claude Fable 5 | GPT-5.5 |
|---|---|---|
| SWE-Bench Pro | 80,3% | 58,6% |
| Terminal-Bench 2.1 | 88,0%* | 83,4% (Codex CLI) |
| Humanity's Last Exam (dengan alat) | 64,5% | 52,2% |
| MRCR v2 pada 512K-1M token | Tidak dipublikasikan | 74,0% |
| OSWorld-Verified | 85,0% | 78,7% |
| Harga input API (per 1M token) | $10 | $5 |
| Harga output API (per 1M token) | $50 | $30 |
| Fallback pengklasifikasi keamanan | Ya (mengarah ke Opus 4.8) | Tidak ada fallback diam-diam |
| Persyaratan retensi data | Wajib 30 hari | Kebijakan standar |
| Ketersediaan umum | Terbatas (kredit tambahan diperlukan setelah 22 Juni) | Ya (ChatGPT + API) |
Kinerja pemrograman dan agentik
Di sinilah kesenjangan antara kedua model paling besar dan paling relevan untuk keputusan. Pada SWE-Bench Pro, tolok ukur untuk penyelesaian isu GitHub dunia nyata, Fable 5 meraih 80,3% versus 58,6% untuk GPT-5.5. Itu selisih 22 poin. Sebagai konteks, Claude Opus 4.7 sudah mengungguli GPT-5.5 pada tolok ukur ini dengan 64,3%, jadi GPT-5.5 memang tertinggal pada pengkodean tingkat repositori sebelum Fable 5 hadir.
Pada evaluasi FrontierCode dari Cognition, yang menguji apakah model dapat menyelesaikan tugas pengkodean sulit sambil memenuhi standar basis kode produksi, Fable 5 meraih skor tertinggi di antara model frontier bahkan pada tingkat usaha menengah. CEO Cursor, Michael Truell, menggambarkannya sebagai model dengan skor tertinggi pada FrontierBench, unggul dalam penalaran jangka panjang dan mampu menggeneralisasi ke alat yang tidak familiar secara langsung.
Fable 5 juga tampaknya memimpin Terminal-Bench 2.1 dengan skor yang dilaporkan 88,0%*, di depan GPT-5.5 pada 83,4%. Tanda bintang menunjukkan angka tersebut perlu disikapi dengan kehati-hatian karena ada perbedaan antara Fable 5 dan Mythos 5. Di mana pun itu terjadi, Fable adalah yang berkinerja lebih rendah di antara keduanya, jadi saya akan berasumsi Fable 5 seri dengan GPT-5.5 atau unggul tipis.
GPT-5.5 tetap menjadi pilihan terbaik untuk DevOps yang banyak menggunakan terminal dan otomasi shell, tetapi jurang SWE-Bench Pro adalah sinyal nyata. Jika kasus utama Anda adalah rekayasa tingkat repositori, Fable 5 adalah pilihan jelas dari sisi kapabilitas saja. Pertanyaannya apakah biaya token keluaran 2x dan friksi pengklasifikasi sepadan untuk beban kerja spesifik Anda.
Kinerja konteks panjang
Ini adalah pembeda sejati GPT-5.5, dan patut disikapi serius. GPT-5.4 runtuh setelah sekitar 128K token pada tolok ukur MRCR v2. GPT-5.5 tidak. Pada 512K-1M token, GPT-5.5 meraih 74,0% pada MRCR v2, dibanding 36,6% untuk GPT-5.4 pada rentang yang sama. Ini bukan peningkatan marginal; ini kelas kapabilitas yang berbeda.
Anthropic mengklaim Fable 5 tetap fokus di jutaan token dalam tugas jangka panjang dan meningkatkan keluarannya menggunakan catatannya sendiri. Uji memori Slay the Spire menunjukkan bahwa memori persisten berbasis berkas meningkatkan kinerja Fable 5 tiga kali lebih besar dibanding peningkatan pada Opus 4.8. Namun Anthropic belum memublikasikan skor bergaya MRCR untuk Fable 5 pada rentang 512K-1M, sehingga perbandingan langsung satu banding satu tidak memungkinkan di sini.
Bagi pengguna yang menjalankan konteks jutaan token, seperti telaah dokumen hukum, analisis basis kode besar, atau sintesis literatur ilmiah, skor konteks panjang yang dipublikasikan GPT-5.5 menjadi dasar bukti yang lebih kuat. Dalam pengujian kami terhadap GPT-5.5, kami mendapati model ini lolos uji jarum 300K token dan skor MRCR tetap stabil melewati 256K, titik di mana GPT-5.4 telah runtuh. Fable 5 mungkin sama kuatnya di sini, tetapi datanya tidak dipublikasikan dalam format yang sebanding.
Pengklasifikasi keamanan dan friksi akses
Ini adalah isu praktisi yang paling kurang dilaporkan pada Fable 5, dan patut mendapat lebih dari sekadar catatan kaki. Fable 5 menjalankan sistem pengklasifikasi dua tahap: sebuah probe memantau aktivasi internal di seluruh trafik, dan permintaan yang ditandai ditingkatkan ke pengklasifikasi LLM terlatih terpisah yang membuat keputusan akhir. Saat permintaan diblokir, permintaan tersebut dialihkan ke Claude Opus 4.8, dan pengguna diberi tahu model mana yang menangani kueri.
Anthropic menyatakan pengklasifikasi aktif kurang dari 5% sesi secara rata-rata. Tiga domain yang dicakup:
- Keamanan siber: Pengembangan eksploit, tugas siber ofensif, dan alur kerja peretasan agentik diblokir. Fable 5 meraih 0,0% di keempat tolok ukur siber saat pengklasifikasi aktif, turun dari 88,4% pada pengembangan eksploit Firefox pada model dasar Mythos.
- Biologi dan kimia: Sebagian besar permintaan di domain ini dialihkan ke Opus 4.8. Evaluasi Anthropic menunjukkan model dasar mendekati tingkat pakar pada tugas perancangan virus terkait adeno, sehingga cakupannya luas.
- Distilasi: Permintaan yang ditandai sebagai upaya mengekstrak kapabilitas Claude untuk melatih model pesaing akan dialihkan.
Mekanisme fallback bukan hanya soal kapabilitas; ini juga soal keandalan untuk pipeline agentik. Saat Fable 5 mengarah ke Opus 4.8, Anda ditagih dengan tarif Opus 4.8, tetapi Anda juga mendapatkan model yang berbeda (masih sangat baik!) di tengah tugas. Untuk pipeline yang mengharapkan kedalaman penalaran Fable 5 sepanjang proses, perpindahan diam-diam ke Opus 4.8 di tengah sesi dapat merusak asumsi tentang kualitas keluaran.
GPT-5.5 memiliki pengaman sibernya sendiri, digambarkan sebagai pengklasifikasi yang lebih ketat untuk potensi risiko siber. Namun tidak ada fallback diam-diam ke model yang lebih lemah. Pendekatan OpenAI adalah akses tepercaya bertingkat: pembela yang terverifikasi dapat mendaftar di chatgpt.com/cyber untuk akses yang diperluas dengan lebih sedikit pembatasan. Jalur ini lebih mudah diakses dibanding Project Glasswing milik Anthropic, yang masih terbatas pada sejumlah kecil mitra yang disetujui.
Ada satu penghalang lagi yang patut disebutkan secara langsung. Fable 5 dan Mythos 5 diklasifikasikan sebagai Covered Models, yang berarti Anthropic mewajibkan retensi data 30 hari untuk semua trafik, bahkan bagi pelanggan perusahaan yang sebelumnya berada pada rencana tanpa retensi. Anthropic menyatakan bahwa data tidak digunakan untuk pelatihan, tetapi persyaratan retensi itu sendiri merupakan penghalang keras untuk industri teregulasi. Beberapa pelanggan perusahaan sama sekali tidak dapat menggunakan Fable 5 karena kebijakan ini.
Pekerjaan pengetahuan dan penalaran
Keduanya kuat di sini, dan perbedaannya lebih sempit daripada di pemrograman. Fable 5 memimpin pada Hebbia's Finance Benchmark untuk penalaran tingkat senior, meraih skor tertinggi di antara model mana pun pada penalaran berbasis dokumen, interpretasi grafik, dan pemecahan masalah. IMC melaporkan bahwa Fable 5 melampaui evaluasi analisis perdagangan mereka di semua aspek, termasuk analisis akar masalah dan analisis nilai yang diharapkan.
GPT-5.5 memimpin pada FrontierMath Tier 4 dengan 35,4%, di atas skor Fable 5 yang dipublikasikan. Pada GDPval, yang menguji agen di 44 profesi, GPT-5.5 meraih 84,9%. Pada Humanity's Last Exam dengan alat, Fable 5 memimpin dengan 64,5% versus 52,2% untuk GPT-5.5, selisih yang bermakna untuk tugas penalaran multidisiplin.
Harga dan ketersediaan
Kesenjangan harga nyata dan akan berlipat pada skala besar. Fable 5 dihargai $10 per satu juta token input dan $50 per satu juta token output. GPT-5.5 sebesar $5 per satu juta token input dan $30 per satu juta token output. Untuk beban kerja volume tinggi, peningkatan 100%/67% tersebut akan cepat terasa.
Akses berlangganan menambah kerumitan lain untuk Fable 5. Pelanggan Pro, Max, Team, dan Enterprise memiliki akses gratis hingga 22 Juni. Setelah tanggal itu, menggunakan Fable 5 memerlukan kredit penggunaan di atas langganan yang ada. Anthropic menyatakan berniat memulihkan Fable 5 sebagai fitur berlangganan standar saat kapasitas memungkinkan, tetapi belum ada linimasa pasti. GPT-5.5 diluncurkan ke pengguna Plus, Pro, Business, dan Enterprise di ChatGPT dan Codex pada hari pertama, dengan akses API menyusul segera setelahnya.
Satu nuansa harga yang perlu diketahui: ketika kueri Fable 5 dialihkan ke Opus 4.8 karena pengklasifikasi, penagihan mengikuti tarif Opus 4.8 ($5 input / $25 output), bukan tarif Fable 5.
Kapan Memilih Claude Fable 5 vs GPT-5.5
Keputusan bergantung pada tiga variabel: seberapa besar selisih SWE-Bench Pro berdampak pada pekerjaan Anda, apakah domain Anda memicu pengklasifikasi Fable 5, dan apakah Anda memerlukan kinerja andal melewati 256K token.
| Kasus penggunaan | Direkomendasikan | Alasan |
|---|---|---|
| Rekayasa perangkat lunak tingkat repositori | Claude Fable 5 | 80,3% vs 58,6% pada SWE-Bench Pro adalah selisih 22 poin yang mencerminkan perbedaan kapabilitas nyata pada basis kode kompleks |
| Perkakas keamanan, pengujian penetrasi, atau riset keamanan ofensif | GPT-5.5 | Pengklasifikasi Fable 5 akan memblokir atau mengalihkan sebagian besar pekerjaan ini; jalur akses tepercaya bertingkat GPT-5.5 lebih mudah diakses |
| Telaah dokumen hukum atau sintesis literatur ilmiah pada 500K+ token | Keduanya | Skor MRCR yang dipublikasikan pada 512K-1M token (74,0%) menunjukkan GPT-5.5 tetap stabil saat GPT-5.4 runtuh; Fable 5 tidak memiliki data sebanding yang dipublikasikan, namun menjanjikan kinerja lebih baik |
| Keuangan dan pekerjaan pengetahuan dengan dokumen kompleks | Claude Fable 5 | Memimpin pada Hebbia's Finance Benchmark dan Humanity's Last Exam dengan alat (64,5% vs 52,2%) |
| Beban kerja API volume tinggi dengan fokus biaya | GPT-5.5 | $30 vs $50 per satu juta token output; selisihnya berlipat pada skala |
| Pipeline riset biomedis | GPT-5.5 (atau tunggu akses tepercaya Fable 5) | Pengklasifikasi biologi Fable 5 akan mengalihkan sebagian besar kueri biomedis ke Opus 4.8 hingga program akses tepercaya dibuka |
| Industri teregulasi yang mensyaratkan tanpa retensi data | GPT-5.5 | Kebijakan retensi wajib 30 hari Fable 5 menjadi penghalang keras bagi sebagian pelanggan perusahaan |
Pilih Claude Fable 5 jika...
- Kasus utama Anda adalah rekayasa perangkat lunak tingkat repositori, dan selisih 22 poin pada SWE-Bench Pro membenarkan biaya token keluaran 2x.
- Pekerjaan Anda tidak beririsan dengan domain keamanan siber, biologi, atau kimia, sehingga kecil kemungkinan pengklasifikasi terpicu dalam sesi Anda.
- Anda memerlukan batas atas tertinggi pada tugas analitis kompleks, termasuk tolok ukur keuangan dan penalaran multidisiplin, di mana Fable 5 unggul dua digit.
- Anda menggunakan API dan dapat menyerap biaya $50 per satu juta token output demi peningkatan kapabilitas.
Pilih GPT-5.5 jika...
- Anda membangun di domain yang berdekatan dengan keamanan dan memerlukan model yang tidak akan diam-diam mengalihkan permintaan Anda di tengah pipeline.
- Kebijakan data perusahaan Anda mewajibkan tanpa retensi, yang tidak mungkin dipenuhi oleh status Covered Model Fable 5.
- Anda memerlukan akses API yang prediktabel tanpa tebing langganan atau sistem kredit penggunaan di atas paket Anda.
- Efisiensi biaya penting, dan selisih $30 vs $50 per token keluaran bermakna pada volume penggunaan Anda.
Pemikiran Akhir
Fable 5 adalah model yang lebih mumpuni pada tolok ukur yang paling penting. Kesenjangan SWE-Bench Pro (80,3% vs 58,6%) bukan kebetulan, dan keunggulan pada Humanity's Last Exam (64,5% vs 52,2% dengan alat) mencerminkan perbedaan nyata dalam kedalaman penalaran. Jika kapabilitas mentah adalah satu-satunya variabel, Fable 5 menang.
Namun tanda bintang pada skor Fable 5 itu nyata. Angka-angka tersebut mencerminkan model dasar Mythos. Fable 5 adalah Mythos dengan pengklasifikasi di atasnya, dan untuk kueri terkait keamanan siber, biomedis, dan penggunaan ganda tertentu, Anda akan mendapatkan Opus 4.8 sebagai gantinya. Untuk pipeline agentik, ini bukan hanya soal kapabilitas; ini soal keandalan. Pipeline yang mengharapkan kedalaman penalaran Fable 5 sepanjang proses dapat terganggu saat model diam-diam berganti di tengah tugas. Ditambah persyaratan retensi data wajib 30 hari, Fable 5 jelas belum menjadi opsi bagi sebagian pelanggan perusahaan.
Ada opsi ketiga yang patut disebut. Jika harga Fable 5 terlalu tinggi dan peningkatan konteks panjang GPT-5.5 tidak relevan bagi kasus Anda, Claude Opus 4.8 bukan sekadar hadiah hiburan. Model ini sudah mengungguli GPT-5.5 pada SWE-Bench Pro dengan 69,2% versus 58,6%, biayanya $5/$25 per juta token, dan tidak memiliki friksi pengklasifikasi seperti Fable 5. Kami membahas keputusan Opus 4.8 vs GPT-5.5 secara detail dalam artikel Claude Opus 4.8 kami.
Jika Anda ingin mempercepat pemahaman tentang cara bekerja dengan model frontier di produksi, saya sarankan mulai dari jalur keterampilan AI Fundamentals kami.

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.