Lewati ke konten utama

Sakana Fugu vs. Claude Fable 5: Tolok Ukur, Harga, & Lainnya

Claude Fable 5 menang pada tolok ukur tetapi saat ini ditangguhkan. Sakana Fugu tersedia sekarang dan harganya setengahnya.
Diperbarui 25 Jun 2026  · 6 mnt baca

Sakana memasarkan Fugu sebagai setara dengan Fable 5, tetapi tidak menyertakan Fable 5 dalam tabel tolok ukurnya sendiri. Jadi, kami akan membandingkan kedua model tersebut berdampingan sejauh yang benar-benar memungkinkan.

Berikut latar belakangnya. Pemerintah AS menangguhkan akses publik ke Claude Fable 5 kurang dari tiga hari setelah Anthropic meluncurkannya. Dan Fable 5 diposisikan sebagai model paling andal milik mereka. Kini, dua minggu kemudian, Sakana AI dari Tokyo merilis Fugu dengan sejumlah klaim besar. Satu klaim khususnya banyak dibicarakan: Sakana AI mengatakan Fugu Ultra "berdiri sejajar dengan model terdepan seperti Fable 5 dan Mythos Preview" pada tolok ukur teknik, sains, dan penalaran tersulit di industri, dan tanpa risiko pengendalian ekspor. CEO David Ha mengatakan di X bahwa Fugu membuktikan kumpulan agen yang dapat ditukar dan diorkestrasi dapat menandingi model frontier yang dibatasi seperti Fable.

Klaim-klaim ini agak sulit diverifikasi karena Fable 5 sama sekali tidak ada dalam tabel tolok ukur Fugu. Sakana mengecualikannya dengan alasan tidak dapat diakses publik. Kami melakukan yang kami bisa: Kami memeriksa segelintir tolok ukur yang muncul di tabel terbitan kedua lab dengan baseline yang cocok. Dan untuk menutupnya, kami akan membahas harga dan situasi akses.

Jika Anda menginginkan latar belakang mengenai kedua sistem tersebut secara terpisah, kami punya blog tentang itu: baca liputan Claude Fable 5 dan ulasan Sakana Fugu.

Apa Itu Sakana Fugu?

Sakana Fugu bukan satu model terlatih dalam pengertian biasa. Ini adalah orkestrator: sebuah model yang menerima permintaan Anda, memutuskan apakah akan menjawab langsung atau mendelegasikan ke model spesialis dalam sebuah kumpulan, mengelola verifikasi dan sintesis, lalu mengembalikan satu respons melalui satu API yang kompatibel dengan OpenAI. Dari luar Anda memanggil satu endpoint; di dalam, sekumpulan model frontier yang terkoordinasi melakukan pekerjaannya.

Produk ini hadir dalam dua varian. Fugu menyeimbangkan kualitas dengan latensi rendah dan diposisikan sebagai default harian untuk pengkodean, peninjauan, dan layanan interaktif. Fugu Ultra mengoordinasikan kumpulan agen ahli yang lebih dalam dan dituning untuk kualitas jawaban maksimum pada masalah sulit dan multi-langkah — reproduksi makalah, analisis keamanan siber, data science gaya Kaggle, investigasi paten.

Gagasannya sebenarnya terdiri dari dua ide.

  • Pertama, orkestrasi terpelajari: koordinator dilatih untuk memutuskan kapan harus mendelegasikan dan bagaimana menggabungkan keluaran, alih-alih menjalankan pipeline yang dikodekan manual.
  • Kedua, kumpulan agen yang dapat ditukar: ketika model frontier baru tersedia untuk publik, Sakana memperkirakan butuh sekitar dua minggu untuk mengintegrasikannya. (Penting untuk sisa artikel: Fable 5 tidak ada dalam kumpulan itu karena tidak dapat diakses publik.)

Apa Itu Claude Fable 5?

Claude Fable 5 adalah model kelas Mythos, sebuah tingkatan yang oleh Anthropic diposisikan di atas kelas Opus, dibuat aman untuk penggunaan umum melalui serangkaian pengklasifikasi. Ini adalah model dasar yang sama dengan Claude Mythos 5; perbedaannya, Fable 5 berjalan (pernah berjalan) dengan pengklasifikasi keamanan aktif, sementara Mythos 5 memiliki sebagian yang dinonaktifkan dan dibatasi untuk mitra Project Glasswing dan peneliti biologi tertentu.

Klaim Anthropic adalah bahwa Fable 5 berada di posisi terdepan pada hampir setiap tolok ukur yang mereka lacak, dengan keunggulan yang makin besar pada tugas yang lebih panjang dan kompleks. Detail praktis utamanya: ketika sebuah kueri bersinggungan dengan keamanan siber, biologi/kimia, atau distilasi model, pengklasifikasi dua tahap mengalihkan respons ke Claude Opus 4.8 dan memberi tahu pengguna bahwa pengalihan itu terjadi. 

Sakana Fugu vs. Claude Fable 5: Tolok Ukur

Tabel perbandingan yang diterbitkan Sakana mengecualikan Fable 5 dan Mythos Preview, dengan alasan keduanya tidak dapat diakses publik dan karena itu tidak bisa masuk ke dalam kumpulan Fugu. Jadi angka resmi Fugu diukur terhadap Opus 4.8, GPT-5.5, dan Gemini 3.1 Pro, yang semuanya dapat Anda lihat di tabel di bawah. Anda dapat melihatnya menang pada 10 dari 11 tolok ukur. 

Tolok Ukur Fugu Fugu Ultra Opus 4.8 † Gemini 3.1 Pro † GPT-5.5 †
SWE-Bench Pro * 59.0 73.7 69.2 54.2 58.6
TerminalBench 2.1 80.2 82.1 74.6 70.3 78.2
LiveCodeBench 92.9 93.2 87.8 88.5 85.3
LiveCodeBench Pro 87.8 90.8 84.8 82.9 88.4
Humanity's Last Exam 47.2 50.0 49.8 44.4 41.4
CharXiv Reasoning 85.1 86.6 84.2 83.3 84.1
GPQA-D 95.5 95.5 92.0 94.3 93.6
SciCode 60.1 58.7 53.5 58.9 56.1
τ³ Banking 21.7 20.6 20.6 8.4 20.6
Long Context Reasoning 74.7 73.3 67.7 72.7 74.3
MRCRv2 86.6 93.6 87.9 84.9 94.8

* scaffolding mini-swe-agent. † baseline yang dilaporkan penyedia. Semua skor Fugu dilaporkan oleh Sakana dan belum direproduksi secara independen.

Untuk memasukkan Fable 5 ke dalam gambaran, saya melakukan silang referensi pada tolok ukur yang muncul di tabel Anthropic dan Sakana, dan memeriksa bahwa baseline yang sama memang selaras. Pada SWE-Bench Pro dan Humanity's Last Exam (tanpa alat), angka Opus 4.8, GPT-5.5, dan Gemini 3.1 Pro identik di kedua sumber — jadi dua perbandingan ini bersih. Jika disederhanakan hanya pada dua sistem tersebut, head-to-headnya terlihat seperti ini:

Tolok Ukur Sakana Fugu Sakana Fugu Ultra Claude Fable 5 Pemenang
SWE-Bench Pro 59.0 73.7 80.3 Fable 5 (+6.6)
Humanity's Last Exam (tanpa alat) 47.2 50.0 59.0 Fable 5 (+9.0)
Terminal-Bench 2.1 ‡ 80.2 82.1 88.0 Fable 5 (+5.9)

‡ Kedua lab melaporkan baseline yang berbeda dan menggunakan scaffolding yang berbeda untuk TerminalBench, sehingga kondisinya tidak identik.

Ketiga ini adalah satu-satunya tolok ukur yang muncul di tabel terbitan kedua lab dengan baseline yang cocok, itulah mengapa sisa perbandingan harus tetap kualitatif. Fable 5 memimpin ketiganya.

Jadi, pada setiap tolok ukur yang memungkinkan perbandingan berdampingan, Fable 5 unggul atas Fugu Ultra sekitar 6–9 poin. Ini selaras dengan area di mana Fable 5 dibangun untuk menang, yaitu pada tugas berdurasi panjang yang dinilai di akhir, di mana satu model yang lebih kuat menumpuk lebih sedikit kesalahan berantai.

Singkatnya:

  1. Semua angka Fugu dilaporkan sendiri dan belum muncul di papan peringkat pihak ketiga.
  2. Sakana menggambarkan Fugu sebagai "berdiri sejajar" dengan Fable 5 dan Mythos Preview. Mengingat selisih di atas, itu penilaian yang dapat dipertahankan namun dermawan. "Dekat, tetapi tertinggal" lebih akurat.
  3. Himpunan perbandingan hanya tumpang tindih sebagian. Fable 5 unggul pada visi (dapat membangun ulang sumber web app dari tangkapan layar), yang sama sekali tidak ditekankan Fugu; Fugu menerbitkan tolok ukur konteks panjang dan perbankan yang tidak dicakup tabel Anthropic. Jadi keduanya dioptimalkan untuk bentuk pekerjaan yang agak berbeda.

Sakana Fugu vs. Claude Fable 5: Ketersediaan dan Akses

Claude Fable 5 saat ini ditangguhkan. Anthropic menarik akses ke Fable 5 dan Mythos 5 pada 12 Juni setelah arahan pengendalian ekspor pemerintah AS, dan mengatakan sedang berupaya memulihkan akses secepat mungkin. Model Anthropic lainnya, seperti Opus 4.8, masih tersedia.

Sakana Fugu tersedia sekarang melalui console.sakana.ai dengan API yang kompatibel dengan OpenAI — kecuali di UE dan EEA, di mana Sakana menghentikan sementara ketersediaan sambil menuntaskan kepatuhan GDPR. Saya tidak bisa mendapatkan tenggat pastinya.

Saat ini, tim di Eropa mungkin tidak bisa menggunakan keduanya.

Pemikiran Akhir

Di atas kertas, ini adalah pertarungan yang dekat dan nyata antara dua filosofi.

Anthropic memikirkan skala — satu model kelas Mythos yang begitu andal hingga membutuhkan sistem pengklasifikasi paralel.

Sakana bertaruh pada koordinasi — bahwa sebuah orkestrator terlatih di atas kumpulan yang dapat ditukar dapat tetap berada dalam jarak yang dapat dikejar dari model frontier tunggal mana pun sekaligus lebih murah, lebih tangguh, dan agnostik terhadap penyedia.

Tolok ukur, jika diambil apa adanya, menunjukkan taruhan Anthropic menghasilkan artefak yang lebih kuat pada pengujian yang dapat dibandingkan, sementara taruhan Sakana menghasilkan yang lebih tersedia dan lebih murah.


Josef Waples's photo
Author
Josef Waples

Saya penulis dan editor data science dengan kontribusi pada artikel riset di jurnal ilmiah. Saya sangat tertarik pada aljabar linear, statistika, R, dan sejenisnya. Saya juga cukup sering bermain catur! 

FAQ Sakana Fugu vs. Claude Fable

Apakah Sakana Fugu lebih baik daripada Claude Fable 5?

Pada tolok ukur yang memungkinkan perbandingan berdampingan (SWE-Bench Pro, Humanity's Last Exam, Terminal-Bench), Fable 5 unggul atas Fugu Ultra sekitar 6–9 poin. 

Mengapa Fable 5 tidak ada di tabel tolok ukur Fugu?

Sakana mengecualikan Fable 5 dan Mythos Preview karena keduanya tidak dapat diakses publik dan oleh karena itu tidak dapat menjadi bagian dari kumpulan agen Fugu. Perbandingan resminya adalah terhadap Opus 4.8, GPT-5.5, dan Gemini 3.1 Pro, yang kesemuanya dikalahkan Fugu Ultra pada 10 dari 11 tolok ukur.

Mana yang lebih murah?

Fugu Ultra, dengan harga $5/M input dan $30/M output, kira-kira setengah dari harga Fable 5 yang $10/M input dan $50/M output. Keduanya menawarkan paket langganan bulanan $20/$100/$200.

Apakah Fable 5 akan kembali?

Anthropic mengatakan sedang berupaya memulihkan akses ke Fable 5 dan Mythos 5 secepat mungkin, tetapi belum menerbitkan lini masa. Model lainnya, termasuk Opus 4.8, tetap tersedia sementara itu.

Apakah Fugu benar-benar mengakali penangguhan Fable 5?

Tidak secara langsung — Fable 5 tidak pernah ada dalam kumpulan Fugu, jadi Fugu tidak dapat memulihkan kapabilitas spesifiknya.

Topik

Belajar AI dengan DataCamp

Program

Kecerdasan Buatan untuk Rekayasa Perangkat Lunak

7 Hr
Tulis kode dan bangun aplikasi perangkat lunak lebih cepat dari sebelumnya dengan alat pengembangan AI terbaru, termasuk GitHub Copilot, Windsurf, dan Replit.
Lihat DetailRight Arrow
Mulai Kursus
Lihat Lebih BanyakRight Arrow
Terkait

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.
Hugo Bowne-Anderson's photo

Hugo Bowne-Anderson

13 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.
Dario Radečić's photo

Dario Radečić

15 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.
David Woods's photo

David Woods

13 mnt

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.
Javier Canales Luna's photo

Javier Canales Luna

14 mnt

Lihat Lebih BanyakLihat Lebih Banyak