Claude Opus 4.8 vs Gemini 3.5 Flash: Perbandingan Tolok Ukur dan Use Case

Bandingkan Claude Opus 4.8 dan Gemini 3.5 Flash pada MCP Atlas, SWE-bench Pro, dan GDPval, plus harga dan kecepatan, untuk menemukan model yang tepat bagi pekerjaan Anda.

Diperbarui 9 Jun 2026 · 9 mnt baca

Jelajahi dengan AI

Buka di ChatGPT Buka di Claude Buka di Perplexity

Alur kerja agentik mendefinisikan paruh pertama 2026, terutama dalam pengodean: model yang menerima satu prompt dan menuntaskan tugas. Persaingan kini berjalan di tiga sumbu sekaligus: kapabilitas, kecepatan, dan harga. Anthropic dan Google memasang taruhan yang terlihat berbeda.

Artikel ini membandingkan dua rilis terbaru: Gemini 3.5 Flash dari Google, diumumkan di Google I/O, dan Claude Opus 4.8 dari Anthropic, dirilis 28 Mei. Keduanya bukan di kelas yang sama. Satu adalah kuda kerja yang cepat dan murah; yang lain adalah flagship premium. Kesenjangan itu yang membuat perbandingan ini layak dilakukan, karena memaksa pertanyaan: kapan kapabilitas mentah layak untuk dibayar lebih.

Di artikel ini, saya akan membandingkan keduanya pada tolok ukur, biaya, dan kecepatan, lalu menguraikan model mana yang cocok untuk tugas mana. Anda juga dapat melihat ulasan mendalam kami di Gemini 3.5 Flash dan rangkuman kami tentang Claude Opus 4.8.

Singkatnya

Opus 4.8 adalah model yang lebih mampu secara keseluruhan. Ia memimpin Artificial Analysis Intelligence Index (61,4), GDPval-AA (1.890 Elo), dan Humanity's Last Exam.
Gemini 3.5 Flash jauh lebih murah dan cepat: $1,50/$9 per satu juta token dibanding $5/$25 pada Opus 4.8, dan 192,2 token keluaran per detik dibanding 66,8.
Gemini 3.5 Flash menerima input multimodal (video, audio, PDF), sementara Opus 4.8 hanya menangani teks dan gambar.
Pilih Opus 4.8 ketika kualitas tugas dan risiko halusinasi membawa biaya nyata. Pilih Gemini 3.5 Flash untuk pipeline ber-volume tinggi, multimodal, dan sensitif biaya.

Apa Itu Claude Opus 4.8?

Claude Opus 4.8 adalah model flagship Anthropic dan penerus Opus 4.7, dibangun untuk penalaran kompleks dan pengodean agentik berjangka panjang. Saat ini memuncaki Artificial Analysis Intelligence Index dengan 61,4 poin.

Model ini juga memimpin papan peringkat GDPval-AA, yang menilai model pada tugas dunia nyata di berbagai profesi, serta tolok ukur ITBench-AA yang baru, yang menguji seberapa baik agen mendiagnosis akar penyebab insiden Kubernetes dari snapshot insiden yang disimpan.

Fitur dan kapabilitas utama

Spesifikasi utama:

jendela konteks 1 juta token dengan hingga 128K token keluaran
adaptive thinking sebagai satu-satunya mode berpikir yang didukung
parameter effort yang kini default tinggi di semua tempat, termasuk Claude Code

Opus 4.8 juga menambahkan fast mode, saat ini pratinjau riset, yang menghadirkan hingga 2,5x lebih banyak token keluaran per detik dengan harga $10/$50 per satu juta token input/keluaran. Itu dua kali harga Opus 4.8 standar, tetapi sepertiga dari biaya fast mode pada Opus 4.7.

Messages API kini menerima entri system di dalam array messages, sehingga Anda dapat memperbarui instruksi Claude di tengah tugas tanpa memulai ulang percakapan. Anda dapat mendorong izin, anggaran token, atau konteks lingkungan tanpa memutus cache prompt.

Panjang prompt minimum yang dapat di-cache juga turun menjadi 1.024 token, dari 4.096 pada Opus 4.7, sehingga prompt yang lebih pendek kini dapat di-cache.

Dibanding Opus 4.7, peningkatan terlihat di beberapa tolok ukur, menurut Artificial Analysis:

Terminal-Bench Hard: +6,6 poin
τ²-Bench Telecom, yang mensimulasikan skenario dukungan teknis: +5,8 poin
IFBench, yang mengukur ketaatan instruksi secara presisi: +3,6 poin

Model ini juga memuncaki Humanity's Last Exam, mencetak 49,8% tanpa tools dan 57,9% dengan tools.

Kelebihan dan kekurangan

Dalam pekerjaan agentik, Opus 4.8 adalah opsi terkuat dalam perbandingan ini. Model ini menempati peringkat pertama pada Artificial Analysis Agentic Index, yang mencakup tugas seperti pemrograman.

Biayanya yang menjadi ganjalan. Harga tidak berubah dari Opus 4.7, yaitu $5/$25 per satu juta token input/keluaran, yang terasa mahal untuk pekerjaan ber-volume tinggi. Kontrol sampling juga masih tidak tersedia: temperature, top_p, dan top_k semuanya memunculkan error jika diatur.

Apa Itu Gemini 3.5 Flash?

Gemini 3.5 Flash adalah model terbaru Google, dibangun untuk kecepatan dengan kualitas mendekati frontier, seperti yang kami bahas dalam ulasan Gemini 3.5 Flash. Model ini mencetak 76,2% pada Terminal-Bench 2.1 dan mencapai 1.656 Elo pada GDPval-AA.

Fitur dan kapabilitas utama

Flash menerima teks, gambar, video, audio, dan PDF sebagai input, dengan dukungan penuh untuk tingkat berpikir. Fitur inti:

input context sekitar 1 juta token (1.048.576 token) dengan batas keluaran 65.536 token
Batch API dan caching prompt
eksekusi kode dan pemanggilan fungsi
search grounding dan keluaran terstruktur

Pada tolok ukur, model ini mencapai 83,6% di MCP Atlas untuk koordinasi agentik multi-tool dan 84,2% pada CharXiv Reasoning untuk pemahaman multimodal. Model ini berada di posisi ke-7 pada Artificial Analysis Intelligence Index, yang kuat untuk model tingkat Flash, dan ke-6 pada Agentic Index, mendekati Opus 4.7.

Gemini 3.5 Flash juga mendukung harness multi-agen Antigravity secara native. Antarmuka Antigravity dirombak pada rilis ini agar menyerupai aplikasi OpenAI Codex dan Cursor.

Kelebihan dan kekurangan

Nilai jual Flash adalah kecerdasan per dolar: skor 55 pada Artificial Analysis Intelligence Index dengan $1,50 per satu juta token input dan $9 per satu juta token keluaran, yang tergolong mampu untuk harganya.

Input multimodal native adalah nilai jual lainnya, termasuk video dan audio. Sistem empat tingkat berpikirnya (minimal, rendah, sedang, tinggi) juga memberi Anda kontrol biaya dan kinerja yang lebih halus dibandingkan pengaturan effort tunggal pada Opus 4.8.

Yang paling menonjol adalah penggunaan alat secara agentik. Flash mencetak 83,6% pada MCP Atlas, hasil koordinasi multi-tool terbaik dalam perbandingan ini dan bahkan di atas Opus 4.8 pada 82,2%. Model tingkat Flash mengungguli flagship terbaru Anthropic pada tolok ukur itu adalah hasil yang biasanya tidak mengikuti garis tier.

Ada dua catatan. Pada run Intelligence Index, Flash menghasilkan 73 juta token dibanding rata-rata 35 juta, jadi model ini verbose, dan verbose itu menambah biaya penagihan keluaran. Waktu ke token pertama 18,88 detik, tinggi untuk kelasnya, di mana model sebanding berada sekitar dua detik.

Untuk melihat bagaimana Flash dibandingkan dengan flagship OpenAI, kami membandingkannya dalam artikel Gemini 3.5 Flash vs. GPT-5.5.

Claude Opus 4.8 vs Gemini 3.5 Flash: Perbandingan Langsung

Berikut referensi cepat sebelum kita masuk kategori demi kategori.

Properti	Claude Opus 4.8	Gemini 3.5 Flash
Rilis	28 Mei 2026	19 Mei 2026
Jendela konteks	1 juta token	1 juta token
Maks token keluaran	128K	65.536
Intelligence Index (AA)	61,4	55
GDPval-AA Elo	1.890	1.656
Kecepatan keluaran	66,8 token/detik	192,2 token/detik
Modality input	Teks, gambar	Teks, gambar, video, audio, PDF
Harga input	$5 / 1M token	$1,50 / 1M token
Harga keluaran	$25 / 1M token	$9 / 1M token
Mode berpikir	Hanya adaptive	Minimal / rendah / sedang / tinggi

Performa agentik dan pengodean

Opus 4.8 adalah agen yang lebih kuat, tetapi Flash lebih dekat daripada yang disiratkan tingkatnya. Opus 4.8 memimpin GDPval-AA dengan 1.890 Elo dibanding 1.656 milik Flash, jadi lebih baik untuk pekerjaan berbasis pengetahuan.

MCP Atlas adalah kejutan. Flash mencetak 83,6% pada tolok ukur koordinasi multi-tool ini, mengungguli 82,2% milik Opus 4.8. Model Flash mengalahkan flagship terbaru Anthropic dalam penggunaan alat agentik benar-benar tak terduga, dan ini adalah argumen terjelas untuk Flash dalam perbandingan ini.

SWE-bench Pro berkebalikan. Tolok ukur ini menguji model dalam menyelesaikan tiket rekayasa perangkat lunak dunia nyata, dan Opus 4.8 mencetak 69,2%, kedua setelah Mythos Preview internal Anthropic. Flash meraih 55,0%, tertinggal dari Opus sesuai margin antartier yang diharapkan, tetapi tetap patut dicatat: ia mengalahkan 54,2% milik Gemini 3.1 Pro, jadi rilis Flash ini menyamai tier Pro generasi sebelumnya.

Pada Terminal-Bench Hard, Opus 4.8 mencetak 58,3% dibanding 40,9% milik Flash, yang menjadikannya pilihan lebih baik untuk rekayasa perangkat lunak berbasis terminal, administrasi sistem, dan pekerjaan pemrosesan data. Flash layak dipilih ketika Anda menjalankan loop pengodean paralel, dan kecepatan serta biaya lebih penting daripada akurasi puncak.

Penalaran dan tugas ilmiah

Opus 4.8 jelas unggul dalam penalaran akademik. Model ini mencetak 57,9% pada Humanity's Last Exam dibanding 40,25% milik Flash, yang menguntungkannya untuk pekerjaan matematika, sains, dan humaniora.

Dukungan input multimodal

Ini kemenangan bersih untuk Flash. Opus 4.8 membaca teks dan gambar; Flash juga membaca video, audio, dan PDF. Jika pipeline Anda menyentuh format-format tersebut, Flash adalah satu-satunya opsi di antara keduanya yang menanganinya.

Kecepatan dan latensi

Flash kira-kira tiga kali lebih cepat pada keluaran. Artificial Analysis mencatat 192,2 token keluaran per detik dibanding 66,8 pada Opus 4.8.

Biaya dan efisiensi token

Token keluaran yang menjadi titik perbedaan: $25 per juta pada Opus 4.8 dibanding $9 pada Flash, jadi Opus sekitar 2,8 kali lebih mahal. Pada pipeline ber-volume tinggi, perbedaan itu cepat terakumulasi.

Jendela konteks dan kapasitas keluaran

Keduanya menerima 1 juta token input, jadi perbedaannya ada di sisi keluaran. Opus 4.8 menulis hingga 128K token dalam satu kali proses dibanding 65.536 milik Flash, hampir dua kali lipat. Untuk sintesis kode long-form, pembuatan dokumen, atau loop agentik yang menghasilkan keluaran berukuran besar dalam satu proses, ruang ekstra itu penting.

Model Mana yang Harus Anda Pilih?

Kesimpulannya adalah apakah Anda membayar untuk kapabilitas atau untuk throughput. Berikut cara saya membaginya.

Pilih Claude Opus 4.8 jika…

Kualitas penyelesaian tugas punya konsekuensi langsung. Skor 1.890 Elo di GDPval-AA dan tingkat halusinasi yang lebih rendah daripada model Google dan OpenAI pada AA-Omniscience menjadikannya pilihan lebih aman untuk pekerjaan pengetahuan berpresisi tinggi.
Anda membutuhkan 128K token keluaran untuk generasi satu kali proses berukuran besar, hampir dua kali 65.536 milik Flash.
Anda sudah membangun di ekosistem Anthropic melalui Claude Code atau API, dan pindah platform itu merepotkan.
Loop agentik Anda berjalan cukup lama sehingga system message di tengah percakapan penting, karena Messages API kini memperbarui izin, anggaran token, atau konteks di tengah tugas tanpa memutus cache prompt.

Pilih Gemini 3.5 Flash jika…

Pipeline Anda mengonsumsi video, audio, atau PDF.
Anda membutuhkan volume keluaran, di mana $9 dibanding $25 per juta token mengubah perhitungan.
Anda menginginkan skor koordinasi multi-tool terkuat, karena Flash memimpin MCP Atlas pada 83,6%, di atas Opus 4.8 pada 82,2%.
Anda membangun di infrastruktur Google melalui Antigravity atau Vertex AI dan menginginkan satu vendor.
Kontrol biaya yang terperinci penting, di mana empat tingkat berpikir Flash mengungguli pengaturan effort tunggal Opus 4.8.

Apa Berikutnya untuk Flash dan Model Flagship

Model Flash ini jauh lebih mahal daripada rilis Flash sebelumnya, dan Google menerima kritik karenanya. Kesenjangan kecerdasan antara tier Flash dan Opus masih signifikan, yang melemahkan alasan membayar harga mendekati flagship untuk model Flash. Perlombaan yang lebih menarik adalah model kecil yang benar-benar andal dalam pengodean dan kerja agentik sambil tetap semurah Composer 2.5 milik Cursor.

Fast mode Anthropic adalah yang patut diamati untuk pengodean agentik, tetapi harganya akan menjadi penghalang. Pada $10/$50, ini sulit dijual bagi pengembang yang menjalankan loop panjang, dan adopsinya bergantung pada Anthropic meninjau ulang angka tersebut.

Anthropic tetap fokus pada pengodean, jadi saya ragu mereka akan mengejar Google ke input video dan audio dalam waktu dekat. Itu memberi Google peluang, tetapi hanya jika mereka dapat menghadirkan model Flash atau flagship yang mengalahkan Opus pada tugas agentik. Sejauh ini belum.

Pemikiran Akhir

Jika kualitas tugas dan risiko halusinasi membawa biaya nyata, misalnya di keuangan atau medis, Opus 4.8 adalah model yang layak dipilih. Jika Anda mengoptimalkan untuk throughput, biaya, atau input multimodal, Gemini 3.5 Flash lebih cocok.

Menurut saya sendiri: keduanya sebenarnya tidak bersaing untuk pekerjaan yang sama, dan sebagian besar tim akan tahu mereka berada di sisi mana hanya dalam satu kalimat saat menggambarkan beban kerja mereka. Pertanyaan yang lebih sulit adalah apakah Google dapat menutup kesenjangan kapabilitas tanpa melepaskan keunggulan harga yang membuat Flash layak digunakan. Google sudah menjalankan Gemini 3.5 Pro secara internal, dan rilis itu, bukan Flash, yang paling mungkin memberi tekanan nyata pada Opus 4.8.

Jika Anda ingin mengasah keterampilan yang membuat asisten AI lebih andal dalam alur kerja Anda sendiri, saya akan mulai dengan kursus AI-Assisted Coding for Developers. Dan jika Anda ingin membangun aplikasi LLM dengan prompt, chain, dan agen, kursus Developing LLM Applications with LangChain adalah langkah lanjutan yang solid.

Apakah Claude Opus 4.8 secara keseluruhan lebih baik daripada Gemini 3.5 Flash?

Format input apa yang didukung Gemini 3.5 Flash?

Bagaimana perbandingan harga antara kedua model?

Apa itu GDPval-AA, dan mengapa penting terkait Opus 4.8 dan Gemini 3.5 Flash?

Model mana yang memiliki jendela keluaran lebih besar?

Apakah Gemini 3.5 Flash mendukung thinking?

Author

Derrick Mwiti

Topik

Kecerdasan Buatan

Large Language Models

Belajar AI bersama DataCamp!

Kursus

Pengantar Model Claude

3 Hr

12.3K

Pelajari cara bekerja dengan Claude menggunakan Anthropic API untuk menyelesaikan tugas dunia nyata dan membangun aplikasi berbasis AI.

Lihat Detail

Mulai Kursus

Kursus

AI Praktis dengan Google Gemini dan NotebookLM

2 Hr

Gunakan Master Gemini dan NotebookLM untuk mengotomatisasi tugas, meningkatkan produktivitas, dan bekerja lebih cerdas di ekosistem AI Google.

Lihat Detail

Mulai Kursus

Kursus

Introduction to Google Workspace with Gemini

30 Min

1.7K

You learn about the key features of Gemini and how they can be used to improve productivity and efficiency in Google Workspace.

Lihat Detail

Mulai Kursus

Lihat Lebih Banyak

Terkait

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.

Javier Canales Luna

14 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.

Dario Radečić

15 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.

Hugo Bowne-Anderson

13 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.

David Woods

13 mnt

Lihat Lebih Banyak Lihat Lebih Banyak

Singkatnya

Apa Itu Claude Opus 4.8?

Fitur dan kapabilitas utama

Kelebihan dan kekurangan

Apa Itu Gemini 3.5 Flash?

Fitur dan kapabilitas utama

Kelebihan dan kekurangan

Claude Opus 4.8 vs Gemini 3.5 Flash: Perbandingan Langsung

Performa agentik dan pengodean

Penalaran dan tugas ilmiah

Dukungan input multimodal

Kecepatan dan latensi

Biaya dan efisiensi token

Jendela konteks dan kapasitas keluaran

Model Mana yang Harus Anda Pilih?

Pilih Claude Opus 4.8 jika…

Pilih Gemini 3.5 Flash jika…

Apa Berikutnya untuk Flash dan Model Flagship

Pemikiran Akhir

Claude Opus 4.8 vs Gemini 3.5 Flash FAQ

Bagaimana perbandingan harga antara kedua model?

Apa itu GDPval-AA, dan mengapa penting terkait Opus 4.8 dan Gemini 3.5 Flash?

Model mana yang memiliki jendela keluaran lebih besar?

Apakah Gemini 3.5 Flash mendukung thinking?

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

40 Pertanyaan Wawancara DBMS Teratas di 2026

Spaghetti Plot dan Jalur Badai

Tutorial Korelasi di R

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Pengantar Model Claude

AI Praktis dengan Google Gemini dan NotebookLM

Introduction to Google Workspace with Gemini

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

40 Pertanyaan Wawancara DBMS Teratas di 2026

Spaghetti Plot dan Jalur Badai

Tutorial Korelasi di R

Pengantar Model Claude