Lewati ke konten utama

Claude Opus 4.8 vs Gemini 3.5 Flash: Perbandingan Tolok Ukur dan Kasus Penggunaan

Bandingkan Claude Opus 4.8 dan Gemini 3.5 Flash pada MCP Atlas, SWE-bench Pro, dan GDPval, plus harga dan kecepatan, untuk menemukan model yang tepat bagi pekerjaan Anda.
Diperbarui 9 Jun 2026  · 9 mnt baca

Alur kerja agentic menjadi ciri paruh pertama 2026, terutama dalam pengkodean: model yang menerima satu prompt dan menuntaskan tugas hingga selesai. Persaingan kini berjalan pada tiga sumbu sekaligus: kapabilitas, kecepatan, dan harga. Anthropic dan Google mengambil taruhan yang jelas berbeda.

Artikel ini membandingkan dua rilis terbaru: Gemini 3.5 Flash dari Google, diumumkan di Google I/O, dan Claude Opus 4.8 dari Anthropic, dirilis 28 Mei. Keduanya tidak berada di kelas yang sama. Satu adalah kuda beban yang cepat dan murah; yang lain adalah andalan premium. Kesenjangan itu yang membuat perbandingan ini layak dilakukan, karena memaksa pertanyaan: kapan kapabilitas mentah layak dibayar lebih mahal.

Di artikel ini, saya akan membandingkan keduanya pada tolok ukur, biaya, dan kecepatan, lalu menjabarkan model mana yang cocok untuk pekerjaan tertentu. Anda juga dapat melihat ulasan mendalam kami di ringkasan Gemini 3.5 Flash dan tulisan kami tentang Claude Opus 4.8.

Intinya

  • Opus 4.8 adalah model yang lebih mumpuni secara keseluruhan. Ia memimpin Artificial Analysis Intelligence Index (61,4), GDPval-AA (1.890 Elo), dan Humanity's Last Exam.
  • Gemini 3.5 Flash jauh lebih murah dan cepat: $1,50/$9 per juta token dibanding $5/$25 pada Opus 4.8, dan 192,2 token keluaran per detik dibanding 66,8.
  • Gemini 3.5 Flash menerima masukan multimodal (video, audio, PDF), sementara Opus 4.8 hanya menangani teks dan gambar.
  • Pilih Opus 4.8 ketika kualitas tugas dan risiko halusinasi membawa biaya nyata. Pilih Gemini 3.5 Flash untuk pipeline volume tinggi, multimodal, dan sensitif biaya.

Apa itu Claude Opus 4.8?

Claude Opus 4.8 adalah model andalan Anthropic dan penerus Opus 4.7, dibangun untuk penalaran kompleks dan pengkodean agentic jangka panjang. Saat ini memuncaki Artificial Analysis Intelligence Index dengan 61,4 poin.

Ia juga memimpin papan peringkat GDPval-AA, yang menilai model pada tugas dunia nyata di berbagai profesi, serta tolok ukur baru ITBench-AA, yang menguji seberapa baik agen mendiagnosis akar penyebab insiden Kubernetes dari snapshot insiden yang disimpan.

Fitur dan kapabilitas utama

Spesifikasi utama:

  • jendela konteks 1M token dengan hingga 128K token keluaran
  • adaptive thinking sebagai satu-satunya mode thinking yang didukung
  • parameter effort yang kini baku di tingkat tinggi di semua tempat, termasuk Claude Code

Opus 4.8 juga menambahkan fast mode, saat ini pratinjau riset, yang menghadirkan hingga 2,5x lebih banyak token keluaran per detik dengan harga $10/$50 per juta token input/output. Itu dua kali harga Opus 4.8 standar, tetapi sepertiga biaya fast mode pada Opus 4.7.

Messages API kini menerima entri system di dalam array messages, sehingga Anda dapat memperbarui instruksi Claude di tengah tugas tanpa memulai ulang percakapan. Anda dapat mendorong izin, anggaran token, atau konteks lingkungan tanpa memutus cache prompt.

Panjang prompt minimum yang dapat di-cache juga turun menjadi 1.024 token, dari 4.096 pada Opus 4.7, sehingga prompt yang lebih pendek kini bisa di-cache.

Dibanding Opus 4.7, peningkatan terlihat di beberapa tolok ukur, menurut Artificial Analysis:

  • Terminal-Bench Hard: +6,6 poin
  • τ²-Bench Telecom, yang mensimulasikan skenario dukungan teknis: +5,8 poin
  • IFBench, yang mengukur ketepatan mengikuti instruksi: +3,6 poin

Ia juga memuncaki Humanity's Last Exam, mencetak 49,8% tanpa alat dan 57,9% dengan alat.

Kelebihan dan kekurangan

Untuk pekerjaan agentic, Opus 4.8 adalah opsi terkuat dalam perbandingan ini. Ia berada di peringkat pertama pada Artificial Analysis Agentic Index, yang mencakup tugas seperti pemrograman.

Biayanya yang menjadi ganjalan. Harga tidak berubah dari Opus 4.7 pada $5/$25 per juta token input/output, yang terasa mahal untuk pekerjaan berkuantitas besar. Kontrol sampling juga masih belum tersedia: temperaturetop_p, dan top_k akan memunculkan error jika Anda mengaturnya.

Apa itu Gemini 3.5 Flash?

Gemini 3.5 Flash adalah model terbaru Google, dibangun untuk kecepatan dengan kualitas mendekati frontier, sebagaimana kami bahas dalam ringkasan Gemini 3.5 Flash. Model ini meraih 76,2% pada Terminal-Bench 2.1 dan mencapai 1.656 Elo pada GDPval-AA.

Fitur dan kapabilitas utama

Flash menerima masukan teks, gambar, video, audio, dan PDF, dengan dukungan penuh untuk tingkat thinking. Fitur inti:

  • konteks input sekitar 1M token (1.048.576 token) dengan batas keluaran 65.536 token
  • batch API dan caching prompt
  • eksekusi kode dan pemanggilan fungsi
  • search grounding dan keluaran terstruktur

Pada tolok ukur, Flash mencetak 83,6% pada MCP Atlas untuk koordinasi agen multi-alat dan 84,2% pada CharXiv Reasoning untuk pemahaman multimodal. Ia berada di peringkat ke-7 pada Artificial Analysis Intelligence Index, yang kuat untuk model kelas Flash, dan ke-6 pada Agentic Index, mendekati Opus 4.7.

Gemini 3.5 Flash juga mendukung harness multi-agen Antigravity secara native. Antarmuka Antigravity dikerjakan ulang pada rilis ini agar menyerupai aplikasi OpenAI Codex dan Cursor.

Kelebihan dan kekurangan

Nilai jual Flash adalah kecerdasan per dolar: skor 55 pada Artificial Analysis Intelligence Index dengan harga $1,50 per juta token input dan $9 per juta token output, yang tergolong sangat mumpuni untuk harganya.

Input multimodal native adalah nilai jual lainnya, termasuk video dan audio. Sistem thinking empat tingkatnya (minimal, low, medium, high) juga memberi Anda kontrol biaya dan kinerja yang lebih halus dibanding pengaturan effort tunggal pada Opus 4.8.

Yang paling menonjol adalah penggunaan alat secara agentic. Flash mencetak 83,6% pada MCP Atlas, hasil koordinasi multi-alat terbaik dalam perbandingan ini dan bahkan melampaui Opus 4.8 di 82,2%. Model kelas Flash mengungguli andalan terbaru Anthropic pada tolok ukur itu adalah hasil yang biasanya tidak mengikuti garis kelas.

Ada dua catatan. Pada pengujian Intelligence Index, Flash menghasilkan 73 juta token dibanding rata-rata 35 juta, sehingga cenderung verbose, dan verbositas itu menambah biaya pada penagihan output. Waktu ke token pertama adalah 18,88 detik, tinggi untuk kelasnya, sementara model sebanding berada di sekitar dua detik.

Untuk melihat bagaimana Flash dibandingkan dengan andalan OpenAI, kami membandingkannya dalam artikel Gemini 3.5 Flash vs. GPT-5.5.

Claude Opus 4.8 vs Gemini 3.5 Flash: Perbandingan Head-to-Head

Berikut referensi cepat sebelum kita masuk per kategori.

Properti Claude Opus 4.8 Gemini 3.5 Flash
Rilis 28 Mei 2026 19 Mei 2026
Jendela konteks 1M token 1M token
Maks token keluaran 128K 65.536
Intelligence Index (AA) 61,4 55
GDPval-AA Elo 1.890 1.656
Kecepatan keluaran 66,8 token/dtk 192,2 token/dtk
Modalitas input Teks, gambar Teks, gambar, video, audio, PDF
Harga input $5 / 1M token $1,50 / 1M token
Harga output $25 / 1M token $9 / 1M token
Mode thinking Hanya adaptive Minimal / low / medium / high

Performa agentic dan pengkodean

Opus 4.8 adalah agen yang lebih kuat, namun Flash lebih dekat daripada yang disiratkan oleh kelasnya. Opus 4.8 memimpin GDPval-AA pada 1.890 Elo dibanding 1.656 milik Flash, sehingga lebih baik untuk pekerjaan berbasis pengetahuan.

MCP Atlas adalah kejutan. Flash mencetak 83,6% pada tolok ukur koordinasi multi-alat ini, sedikit di atas 82,2% milik Opus 4.8. Model kelas Flash mengalahkan andalan terbaru Anthropic dalam penggunaan alat agentic benar-benar tidak terduga, dan itu adalah argumen paling jelas untuk Flash dalam perbandingan ini.

SWE-bench Pro berkebalikan. Tolok ukur ini menguji model dalam menyelesaikan tiket rekayasa perangkat lunak dunia nyata, dan Opus 4.8 mencetak 69,2%, kedua setelah Mythos Preview internal Anthropic. Flash meraih 55,0%, tertinggal dari Opus sesuai jarak antarkelas, namun tetap patut dicatat: ia mengungguli 54,2% milik Gemini 3.1 Pro, sehingga rilis Flash ini telah menyamai kelas Pro generasi sebelumnya.

Pada Terminal-Bench Hard, Opus 4.8 mencetak 58,3% dibanding 40,9% milik Flash, yang menjadikannya pilihan lebih baik untuk rekayasa perangkat lunak berbasis terminal, administrasi sistem, dan pekerjaan pemrosesan data. Flash menemukan tempatnya saat Anda menjalankan loop pengkodean paralel, dan kecepatan serta biaya lebih penting daripada akurasi puncak.

Penalaran dan tugas ilmiah

Opus 4.8 jelas unggul dalam penalaran akademik. Ia mencetak 57,9% pada Humanity's Last Exam dibanding 40,25% milik Flash, yang menguntungkannya untuk pekerjaan matematika, sains, dan humaniora.

Dukungan input multimodal

Ini kemenangan bersih untuk Flash. Opus 4.8 membaca teks dan gambar; Flash juga membaca video, audio, dan PDF. Jika pipeline Anda menyentuh format-format tersebut, dari dua ini hanya Flash yang menanganinya.

Kecepatan dan latensi

Flash kira-kira tiga kali lebih cepat pada keluaran. Artificial Analysis mencatat 192,2 token keluaran per detik dibanding 66,8 milik Opus 4.8.

Biaya dan efisiensi token

Token keluaran adalah celah yang terasa: $25 per juta pada Opus 4.8 dibanding $9 pada Flash, jadi Opus sekitar 2,8 kali lebih mahal. Pada pipeline volume tinggi, perbedaan itu cepat terakumulasi.

Jendela konteks dan kapasitas keluaran

Keduanya menerima 1M token input, jadi perbedaannya ada pada sisi keluaran. Opus 4.8 dapat menulis hingga 128K token dalam satu kali proses dibanding 65.536 milik Flash, hampir dua kali lipat. Untuk sintesis kode long-form, pembuatan dokumen, atau loop agentic yang menghasilkan keluaran besar dalam satu kali proses, ruang ekstra itu penting.

Model Mana yang Harus Anda Pilih?

Pada akhirnya, ini bergantung apakah Anda membayar untuk kapabilitas atau untuk throughput. Begini cara saya membaginya.

Pilih Claude Opus 4.8 jika…

  • Kualitas penyelesaian tugas memiliki konsekuensi langsung. Elo 1.890 pada GDPval-AA dan laju halusinasi yang lebih rendah daripada model Google dan OpenAI pada AA-Omniscience menjadikannya pilihan lebih aman untuk pekerjaan pengetahuan berpresisi tinggi.
  • Anda membutuhkan 128K token keluaran untuk generasi sekali jalan berskala besar, hampir dua kali lipat 65.536 milik Flash.
  • Anda sudah membangun di ekosistem Anthropic melalui Claude Code atau API, dan berpindah platform menimbulkan kerepotan.
  • Loop agentic Anda berjalan cukup lama sehingga pesan system di tengah percakapan penting, karena Messages API kini memperbarui izin, anggaran token, atau konteks di tengah tugas tanpa memutus cache prompt.

Pilih Gemini 3.5 Flash jika…

  • Pipeline Anda mengonsumsi video, audio, atau PDF.
  • Anda membutuhkan volume keluaran, di mana $9 dibanding $25 per juta token mengubah perhitungannya.
  • Anda menginginkan skor koordinasi multi-alat terkuat, karena Flash memimpin MCP Atlas pada 83,6%, melampaui Opus 4.8 di 82,2%.
  • Anda membangun di infrastruktur Google melalui Antigravity atau Vertex AI dan menginginkan satu vendor.
  • Kontrol biaya yang terperinci penting, di mana thinking empat tingkat milik Flash mengungguli pengaturan effort tunggal Opus 4.8.

Apa Selanjutnya untuk Flash dan Model Andalan

Model Flash ini jauh lebih mahal daripada rilis Flash sebelumnya, dan Google mendapat kritik karenanya. Kesenjangan kecerdasan antara kelas Flash dan Opus masih signifikan, yang melemahkan alasan membayar harga mendekati andalan untuk model Flash. Perlombaan yang lebih menarik adalah model kecil yang benar-benar andal dalam pengkodean dan kerja agentic sambil tetap semurah Composer 2.5 milik Cursor Composer 2.5.

Fast mode Anthropic adalah yang patut diawasi untuk pengkodean agentic, tetapi harganya akan menjadi penghalang. Pada $10/$50, sulit dijual bagi pengembang yang menjalankan loop panjang, dan adopsinya bergantung pada Anthropic meninjau kembali angka tersebut.

Anthropic tetap fokus pada pengkodean, jadi kecil kemungkinan mereka akan mengejar Google ke input video dan audio dalam waktu dekat. Itu memberi Google peluang, tetapi hanya jika bisa merilis model Flash atau andalan yang mengungguli Opus pada tugas agentic. Sejauh ini belum.

Pemikiran Akhir

Jika kualitas tugas dan risiko halusinasi membawa biaya nyata—misalnya di keuangan atau kesehatan—Opus 4.8 adalah model yang tepat. Jika Anda mengoptimalkan throughput, biaya, atau input multimodal, Gemini 3.5 Flash lebih cocok.

Menurut saya: keduanya sebenarnya tidak bersaing untuk pekerjaan yang sama, dan sebagian besar tim akan tahu mereka berada di kubu mana dalam satu kalimat saat mendeskripsikan beban kerja mereka. Pertanyaan yang lebih sulit adalah apakah Google bisa menutup kesenjangan kapabilitas tanpa melepaskan keunggulan harga yang membuat Flash layak digunakan. Google sudah menjalankan Gemini 3.5 Pro secara internal, dan rilis itulah, bukan Flash, yang paling mungkin memberi tekanan nyata pada Opus 4.8.

Jika Anda ingin mengasah keterampilan yang membuat asisten AI lebih andal dalam alur kerja Anda sendiri, saya akan memulai dengan kursus AI-Assisted Coding for Developers. Dan jika Anda ingin membangun aplikasi LLM dengan prompt, chain, dan agent, kursus Developing LLM Applications with LangChain adalah langkah lanjut yang solid.

FAQ Claude Opus 4.8 vs Gemini 3.5 Flash

Apakah Claude Opus 4.8 lebih baik daripada Gemini 3.5 Flash secara keseluruhan?

Pada tolok ukur kecerdasan keseluruhan, ya. Opus 4.8 mencetak 61,4 pada Artificial Analysis Intelligence Index dibanding 55 milik Flash. Namun lebih baik tergantung kasus penggunaan. Flash lebih cepat, lebih murah, dan mendukung input video, audio, serta PDF yang tidak didukung Opus 4.8.

Format input apa yang didukung Gemini 3.5 Flash?

Gemini 3.5 Flash mendukung input teks, gambar, video, audio, dan PDF. Claude Opus 4.8 hanya mendukung teks dan gambar.

Bagaimana perbandingan harga antara kedua model tersebut?

Claude Opus 4.8 dihargai $5 per juta token input dan $25 per juta token output. Gemini 3.5 Flash adalah $1,50 per juta token input dan $9 per juta token output. Harga cache hit adalah $0,50 per juta untuk Opus 4.8 dan $0,15 per juta untuk Flash.

Apa itu GDPval-AA, dan mengapa penting terkait Opus 4.8 dan Gemini 3.5 Flash?

GDPval-AA adalah tolok ukur utama Artificial Analysis untuk performa agentic pada tugas pekerjaan pengetahuan dunia nyata, dinilai dalam Elo. Opus 4.8 memimpin pada 1.890 Elo dibanding 1.656 milik Flash. Ini lebih berguna daripada tolok ukur tradisional untuk mengevaluasi model dalam konteks agentic produksi.

Model mana yang memiliki jendela keluaran lebih besar?

Claude Opus 4.8 mendukung maksimal 128K token keluaran, dua kali lipat jendela 65.536 token milik Gemini 3.5 Flash. Untuk alur kerja yang menghasilkan dokumen panjang, berkas kode besar, atau membutuhkan keluaran sekali jalan berukuran besar, Opus 4.8 adalah opsi yang disukai.

Apakah Gemini 3.5 Flash mendukung thinking?

Ya. Flash memiliki empat tingkat thinking: minimal, low, medium, dan high. Bawaannya adalah medium. Claude Opus 4.8 hanya menggunakan adaptive thinking, tanpa dukungan extended thinking budget.


Derrick Mwiti's photo
Author
Derrick Mwiti
Topik

Belajar AI dengan DataCamp!

Kursus

Pengantar Model Claude

3 Hr
9.9K
Pelajari cara bekerja dengan Claude menggunakan Anthropic API untuk menyelesaikan tugas dunia nyata dan membangun aplikasi berbasis AI.
Lihat DetailRight Arrow
Mulai Kursus
Lihat Lebih BanyakRight Arrow
Terkait

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.
Javier Canales Luna's photo

Javier Canales Luna

14 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.
Dario Radečić's photo

Dario Radečić

15 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.
Hugo Bowne-Anderson's photo

Hugo Bowne-Anderson

13 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.
David Woods's photo

David Woods

13 mnt

Lihat Lebih BanyakLihat Lebih Banyak