Sakana Fugu vs. Claude Fable 5: Tolok Ukur, Harga, & Lainnya

Claude Fable 5 menang pada tolok ukur tetapi saat ini ditangguhkan. Sakana Fugu tersedia sekarang dan harganya setengahnya.

Diperbarui 25 Jun 2026 · 6 mnt baca

Sakana memasarkan Fugu sebagai setara dengan Fable 5, tetapi tidak menyertakan Fable 5 dalam tabel tolok ukurnya sendiri. Jadi, kami akan membandingkan kedua model tersebut berdampingan sejauh yang benar-benar memungkinkan.

Berikut latar belakangnya. Pemerintah AS menangguhkan akses publik ke Claude Fable 5 kurang dari tiga hari setelah Anthropic meluncurkannya. Dan Fable 5 diposisikan sebagai model paling andal milik mereka. Kini, dua minggu kemudian, Sakana AI dari Tokyo merilis Fugu dengan sejumlah klaim besar. Satu klaim khususnya banyak dibicarakan: Sakana AI mengatakan Fugu Ultra "berdiri sejajar dengan model terdepan seperti Fable 5 dan Mythos Preview" pada tolok ukur teknik, sains, dan penalaran tersulit di industri, dan tanpa risiko pengendalian ekspor. CEO David Ha mengatakan di X bahwa Fugu membuktikan kumpulan agen yang dapat ditukar dan diorkestrasi dapat menandingi model frontier yang dibatasi seperti Fable.

Klaim-klaim ini agak sulit diverifikasi karena Fable 5 sama sekali tidak ada dalam tabel tolok ukur Fugu. Sakana mengecualikannya dengan alasan tidak dapat diakses publik. Kami melakukan yang kami bisa: Kami memeriksa segelintir tolok ukur yang muncul di tabel terbitan kedua lab dengan baseline yang cocok. Dan untuk menutupnya, kami akan membahas harga dan situasi akses.

Jika Anda menginginkan latar belakang mengenai kedua sistem tersebut secara terpisah, kami punya blog tentang itu: baca liputan Claude Fable 5 dan ulasan Sakana Fugu.

Apa Itu Sakana Fugu?

Sakana Fugu bukan satu model terlatih dalam pengertian biasa. Ini adalah orkestrator: sebuah model yang menerima permintaan Anda, memutuskan apakah akan menjawab langsung atau mendelegasikan ke model spesialis dalam sebuah kumpulan, mengelola verifikasi dan sintesis, lalu mengembalikan satu respons melalui satu API yang kompatibel dengan OpenAI. Dari luar Anda memanggil satu endpoint; di dalam, sekumpulan model frontier yang terkoordinasi melakukan pekerjaannya.

Produk ini hadir dalam dua varian. Fugu menyeimbangkan kualitas dengan latensi rendah dan diposisikan sebagai default harian untuk pengkodean, peninjauan, dan layanan interaktif. Fugu Ultra mengoordinasikan kumpulan agen ahli yang lebih dalam dan dituning untuk kualitas jawaban maksimum pada masalah sulit dan multi-langkah — reproduksi makalah, analisis keamanan siber, data science gaya Kaggle, investigasi paten.

Gagasannya sebenarnya terdiri dari dua ide.

Pertama, orkestrasi terpelajari: koordinator dilatih untuk memutuskan kapan harus mendelegasikan dan bagaimana menggabungkan keluaran, alih-alih menjalankan pipeline yang dikodekan manual.
Kedua, kumpulan agen yang dapat ditukar: ketika model frontier baru tersedia untuk publik, Sakana memperkirakan butuh sekitar dua minggu untuk mengintegrasikannya. (Penting untuk sisa artikel: Fable 5 tidak ada dalam kumpulan itu karena tidak dapat diakses publik.)

Apa Itu Claude Fable 5?

Claude Fable 5 adalah model kelas Mythos, sebuah tingkatan yang oleh Anthropic diposisikan di atas kelas Opus, dibuat aman untuk penggunaan umum melalui serangkaian pengklasifikasi. Ini adalah model dasar yang sama dengan Claude Mythos 5; perbedaannya, Fable 5 berjalan (pernah berjalan) dengan pengklasifikasi keamanan aktif, sementara Mythos 5 memiliki sebagian yang dinonaktifkan dan dibatasi untuk mitra Project Glasswing dan peneliti biologi tertentu.

Klaim Anthropic adalah bahwa Fable 5 berada di posisi terdepan pada hampir setiap tolok ukur yang mereka lacak, dengan keunggulan yang makin besar pada tugas yang lebih panjang dan kompleks. Detail praktis utamanya: ketika sebuah kueri bersinggungan dengan keamanan siber, biologi/kimia, atau distilasi model, pengklasifikasi dua tahap mengalihkan respons ke Claude Opus 4.8 dan memberi tahu pengguna bahwa pengalihan itu terjadi.

Sakana Fugu vs. Claude Fable 5: Tolok Ukur

Tabel perbandingan yang diterbitkan Sakana mengecualikan Fable 5 dan Mythos Preview, dengan alasan keduanya tidak dapat diakses publik dan karena itu tidak bisa masuk ke dalam kumpulan Fugu. Jadi angka resmi Fugu diukur terhadap Opus 4.8, GPT-5.5, dan Gemini 3.1 Pro, yang semuanya dapat Anda lihat di tabel di bawah. Anda dapat melihatnya menang pada 10 dari 11 tolok ukur.

Tolok Ukur	Fugu	Fugu Ultra	Opus 4.8 †	Gemini 3.1 Pro †	GPT-5.5 †
SWE-Bench Pro *	59.0	73.7	69.2	54.2	58.6
TerminalBench 2.1	80.2	82.1	74.6	70.3	78.2
LiveCodeBench	92.9	93.2	87.8	88.5	85.3
LiveCodeBench Pro	87.8	90.8	84.8	82.9	88.4
Humanity's Last Exam	47.2	50.0	49.8	44.4	41.4
CharXiv Reasoning	85.1	86.6	84.2	83.3	84.1
GPQA-D	95.5	95.5	92.0	94.3	93.6
SciCode	60.1	58.7	53.5	58.9	56.1
τ³ Banking	21.7	20.6	20.6	8.4	20.6
Long Context Reasoning	74.7	73.3	67.7	72.7	74.3
MRCRv2	86.6	93.6	87.9	84.9	94.8

* scaffolding mini-swe-agent. † baseline yang dilaporkan penyedia. Semua skor Fugu dilaporkan oleh Sakana dan belum direproduksi secara independen.

Untuk memasukkan Fable 5 ke dalam gambaran, saya melakukan silang referensi pada tolok ukur yang muncul di tabel Anthropic dan Sakana, dan memeriksa bahwa baseline yang sama memang selaras. Pada SWE-Bench Pro dan Humanity's Last Exam (tanpa alat), angka Opus 4.8, GPT-5.5, dan Gemini 3.1 Pro identik di kedua sumber — jadi dua perbandingan ini bersih. Jika disederhanakan hanya pada dua sistem tersebut, head-to-headnya terlihat seperti ini:

Tolok Ukur	Sakana Fugu	Sakana Fugu Ultra	Claude Fable 5	Pemenang
SWE-Bench Pro	59.0	73.7	80.3	Fable 5 (+6.6)
Humanity's Last Exam (tanpa alat)	47.2	50.0	59.0	Fable 5 (+9.0)
Terminal-Bench 2.1 ‡	80.2	82.1	88.0	Fable 5 (+5.9)

‡ Kedua lab melaporkan baseline yang berbeda dan menggunakan scaffolding yang berbeda untuk TerminalBench, sehingga kondisinya tidak identik.

Ketiga ini adalah satu-satunya tolok ukur yang muncul di tabel terbitan kedua lab dengan baseline yang cocok, itulah mengapa sisa perbandingan harus tetap kualitatif. Fable 5 memimpin ketiganya.

Jadi, pada setiap tolok ukur yang memungkinkan perbandingan berdampingan, Fable 5 unggul atas Fugu Ultra sekitar 6–9 poin. Ini selaras dengan area di mana Fable 5 dibangun untuk menang, yaitu pada tugas berdurasi panjang yang dinilai di akhir, di mana satu model yang lebih kuat menumpuk lebih sedikit kesalahan berantai.

Singkatnya:

Semua angka Fugu dilaporkan sendiri dan belum muncul di papan peringkat pihak ketiga.
Sakana menggambarkan Fugu sebagai "berdiri sejajar" dengan Fable 5 dan Mythos Preview. Mengingat selisih di atas, itu penilaian yang dapat dipertahankan namun dermawan. "Dekat, tetapi tertinggal" lebih akurat.
Himpunan perbandingan hanya tumpang tindih sebagian. Fable 5 unggul pada visi (dapat membangun ulang sumber web app dari tangkapan layar), yang sama sekali tidak ditekankan Fugu; Fugu menerbitkan tolok ukur konteks panjang dan perbankan yang tidak dicakup tabel Anthropic. Jadi keduanya dioptimalkan untuk bentuk pekerjaan yang agak berbeda.

Sakana Fugu vs. Claude Fable 5: Ketersediaan dan Akses

Claude Fable 5 saat ini ditangguhkan. Anthropic menarik akses ke Fable 5 dan Mythos 5 pada 12 Juni setelah arahan pengendalian ekspor pemerintah AS, dan mengatakan sedang berupaya memulihkan akses secepat mungkin. Model Anthropic lainnya, seperti Opus 4.8, masih tersedia.

Sakana Fugu tersedia sekarang melalui console.sakana.ai dengan API yang kompatibel dengan OpenAI — kecuali di UE dan EEA, di mana Sakana menghentikan sementara ketersediaan sambil menuntaskan kepatuhan GDPR. Saya tidak bisa mendapatkan tenggat pastinya.

Saat ini, tim di Eropa mungkin tidak bisa menggunakan keduanya.

Pemikiran Akhir

Di atas kertas, ini adalah pertarungan yang dekat dan nyata antara dua filosofi.

Anthropic memikirkan skala — satu model kelas Mythos yang begitu andal hingga membutuhkan sistem pengklasifikasi paralel.

Sakana bertaruh pada koordinasi — bahwa sebuah orkestrator terlatih di atas kumpulan yang dapat ditukar dapat tetap berada dalam jarak yang dapat dikejar dari model frontier tunggal mana pun sekaligus lebih murah, lebih tangguh, dan agnostik terhadap penyedia.

Tolok ukur, jika diambil apa adanya, menunjukkan taruhan Anthropic menghasilkan artefak yang lebih kuat pada pengujian yang dapat dibandingkan, sementara taruhan Sakana menghasilkan yang lebih tersedia dan lebih murah.

Author

Josef Waples

Apakah Sakana Fugu lebih baik daripada Claude Fable 5?

Mengapa Fable 5 tidak ada di tabel tolok ukur Fugu?

Mana yang lebih murah?

Apakah Fable 5 akan kembali?

Apakah Fugu benar-benar mengakali penangguhan Fable 5?

Topik

Kecerdasan Buatan

Belajar AI dengan DataCamp

Program

Kecerdasan Buatan untuk Rekayasa Perangkat Lunak

7 Hr

Tulis kode dan bangun aplikasi perangkat lunak lebih cepat dari sebelumnya dengan alat pengembangan AI terbaru, termasuk GitHub Copilot, Windsurf, dan Replit.

Lihat Detail

Mulai Kursus

Kursus

Software Development with Claude Code

4 Hr

4.2K

Claude Code brings AI assistance to your terminal. Learn the workflows that turn it into a reliable tool for real software development.

Lihat Detail

Mulai Kursus

Kursus

Introduction to Agent Skills

2 Hr 30 Min

1.4K

Learn how to build, configure, and share Skills in Claude Code — reusable markdown instructions that Claude automatically applies to tasks at the right time.

Lihat Detail

Mulai Kursus

Lihat Lebih Banyak

Terkait

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.

Hugo Bowne-Anderson

13 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.