Program
Jika Anda membangun alur kerja agentik atau memilih asisten pengodean, kemungkinan besar Anda sedang menimbang Gemini 3.5 Flash dibandingkan Claude Opus 4.7. Keduanya diluncurkan pada 2026, menargetkan tugas agentik jangka panjang, dan sama-sama mengklaim melampaui generasi sebelumnya pada tolok ukur yang paling penting untuk penggunaan produksi. Pilihannya tidaklah jelas.
Gemini 3.5 Flash adalah jawaban Google atas pertanyaan apakah model yang dioptimalkan untuk kecepatan juga bisa menjadi model frontier. Claude Opus 4.7 adalah batas produksi tertinggi Anthropic saat ini, peningkatan langsung dari Opus 4.6 dengan lonjakan besar dalam pengodean agentik dan memori lintas sesi.
Dalam artikel ini, saya akan membandingkan Gemini 3.5 Flash dan Claude Opus 4.7 di lima dimensi: pengodean dan alur kerja agentik, tugas penalaran dan pengetahuan, kemampuan multimodal, ekosistem dan ketersediaan, serta harga. Anda juga dapat melihat panduan mandiri kami untuk Gemini 3.5 Flash dan Claude Opus 4.7 untuk liputan lebih mendalam tentang masing-masing model.
Apa Itu Gemini 3.5 Flash?
Gemini 3.5 Flash adalah model terbaru Google yang dioptimalkan untuk kecepatan, diumumkan pada Google I/O 2026 tanggal 19 Mei. Model ini berada di tingkat Flash dalam keluarga Gemini 3.5, yang diposisikan Google sebagai seri model baru yang dibangun di sekitar eksekusi agentik alih-alih hanya inferensi cepat. Klaim utama: 3.5 Flash memberikan kecerdasan setara frontier dengan throughput token keluaran empat kali lipat dibanding model frontier lainnya.
Yang membuat 3.5 Flash tidak biasa untuk model tingkat Flash adalah kinerjanya yang melampaui versi Pro terbaru, Gemini 3.1 Pro, pada beberapa tolok ukur agentik dan pengodean, termasuk Terminal-Bench 2.1 (76,2%), MCP Atlas (83,6%), dan Finance Agent v2 (57,9%).
Model ini dirancang untuk bekerja dengan kerangka Antigravity Google untuk penerapan multiagen. Pastikan untuk membaca ulasan kami tentang Claude Code vs Antigravity untuk perbandingan mendetail antara pendekatan Anthropic dan Google terhadap kerangka agent.
Flash 3.5 kini menjadi model default di aplikasi Gemini dan AI Mode in Search secara global. Gemini 3.5 Pro sedang dikembangkan dan diperkirakan akan menyusul bulan depan.
Apa Itu Claude Opus 4.7?
Claude Opus 4.7 adalah andalan produksi Anthropic saat ini, dirilis pada 16 April 2026. Ini adalah peningkatan langsung dari Opus 4.6, dengan peningkatan paling signifikan pada:
- Pengodean agentik (SWE-bench Pro naik dari 53,4% menjadi 64,3%)
- Visi beresolusi tinggi (gambar hingga 2.576 piksel pada sisi panjang, lebih dari tiga kali batas sebelumnya)
- Memori lintas sesi menggunakan penyimpanan berbasis sistem berkas
Anthropic menggambarkannya sebagai model yang dapat Anda percayakan untuk tugas pengodean sulit dengan pengawasan lebih sedikit dibanding Opus 4.6.
Satu kerangka pikir yang perlu diingat: Opus 4.7 bukan model paling andal Anthropic. Itu adalah Mythos Preview, yang meraih 77,8% pada SWE-bench Pro dibanding 64,3% milik Opus 4.7. Mythos belum tersedia luas, jadi Opus 4.7 adalah batas praktis bagi sebagian besar pengembang. Opus 4.7 juga hadir dengan tingkat upaya xhigh baru yang berada di antara high dan max untuk kontrol lebih halus atas kedalaman penalaran.
Untuk pengujian langsung dan rincian tolok ukur lengkap, lihat panduan Claude Opus 4.7 kami.
Gemini 3.5 Flash vs Claude Opus 4.7: Perbandingan Langsung
Berikut ringkasan singkat tentang bagaimana kedua model ini dibandingkan pada dimensi yang paling penting bagi para praktisi.
| Fitur | Gemini 3.5 Flash | Claude Opus 4.7 |
|---|---|---|
| Tingkat | Dioptimalkan untuk kecepatan (Flash) | Flagship |
| SWE-bench Pro | 55,1% | 64,3% |
| Terminal-bench 2.1 | 76,2% | 66,1% |
| MCP Atlas (penggunaan alat) | 83,6% | 77,3% |
| CharXiv Reasoning (multimodal) | 84,2% | 82,1% |
| Finance Agent v2 | 57,9% | 51,5% |
| OSWorld (penggunaan komputer) | 78,4% | 78,0% |
| Humanity's Last Exam | 40,2% | 46,9% |
| ARC-AGI-2 (penalaran abstrak) | 72,1% | 75,8% |
| Jendela konteks | 1M token | 1M token |
| Resolusi visi | Tidak disebutkan | Hingga 2.576px / 3,75MP |
| Dukungan Computer Use | Tidak didukung | Didukung (OSWorld: 78,0%) |
| Harga input API | $1,50 / 1M token | $5,00 / 1M token |
| Harga output API | $9,00 / 1M token | $25,00 / 1M token |
| Kerangka multiagen | Kerangka Antigravity | Anggaran tugas + parameter upaya |
Alur kerja pengodean dan agentik
Ini adalah dimensi di mana kedua model berbeda paling jelas, meskipun tidak ada pemenang mutlak di semua aspek.
Pada SWE-bench Pro, tolok ukur pengodean andalan, Opus 4.7 meraih 64,3% versus 55,1% milik Gemini 3.5 Flash. Itu selisih yang berarti untuk pekerjaan rekayasa tingkat repositori bagi Claude. Namun, gambarnya berbalik pada Terminal-Bench 2.1, di mana Gemini 3.5 Flash mencetak 76,2%, unggul sekitar margin yang sama atas 66,1% milik Opus 4.7. Untuk pekerjaan yang lebih banyak di terminal, Gemini 3.5 Flash adalah pilihan yang lebih baik.
| Tolok ukur | Gemini 3.5 Flash | Claude Opus 4.7 | Catatan |
|---|---|---|---|
| SWE-bench Pro | 55,1% | 64,3% | Dilaporkan vendor; Opus 4.7 unggul ~9 poin persentase |
| Terminal-Bench 2.1 / 2.0 | 76,2% (v2.1) | 69,4% (v2.0) | Versi tolok ukur berbeda; indikatif saja |
| MCP Atlas | 83,6% | 77,3% | Gemini 3.5 Flash unggul dalam orkestrasi alat |
Kedua model dirancang untuk tugas agentik jangka panjang, tetapi pendekatannya berbeda. Gemini 3.5 Flash dibangun di sekitar kerangka Antigravity, yang menerapkan subagen kolaboratif secara paralel. Contoh dari Google adalah mensintesis makalah AlphaZero dan membuat gim yang sepenuhnya dapat dimainkan menggunakan dua agen selama enam jam. Opus 4.7 menggunakan anggaran tugas dan tingkat upaya xhigh baru untuk mempertahankan performa sepanjang rangkaian panjang, dengan laporan Anthropic bahwa model mendorong penyelesaian masalah sulit alih-alih berhenti di tengah jalan.
Gemini 3.5 Flash memimpin pada MCP Atlas dengan 83,6% dibanding 77,3% milik Opus 4.7, yang mengukur performa pada alur kerja multi-alat yang kompleks. Jika sistem agentik Anda sangat bergantung pada orkestrasi alat daripada pemahaman kode yang mendalam, 3.5 Flash punya keunggulan nyata.
Untuk kedalaman rekayasa perangkat lunak murni, Opus 4.7 adalah pilihan yang lebih kuat. Untuk pipeline agentik yang berat alat, di mana throughput dan eksekusi subagen paralel penting, Gemini 3.5 Flash kompetitif dan jauh lebih murah.
Tugas penalaran dan pengetahuan
Selain keterampilan pemrograman, kedalaman penalaran umum adalah area nomor satu di mana Opus 4.7 unggul atas Gemini 3.5 Flash. Pada Humanity's Last Exam, kumpulan pertanyaan tingkat pascasarjana di sains, matematika, dan humaniora, Opus 4.7 meraih 46,9% tanpa alat dibanding 40,2% milik Gemini 3.5 Flash. Kesenjangan menyempit pada penalaran abstrak: ARC-AGI-2 menempatkan Flash di 72,1% dan Opus 4.7 di 75,8%.
Sinyal yang lebih menarik adalah Finance Agent v2, di mana Gemini 3.5 Flash mencetak 57,9% dibanding 51,5% milik Opus 4.7. Angka ini membuat saya meninjau ulang keseluruhan perbandingan. Awalnya, saya berasumsi Opus 4.7 akan unggul pada hal apa pun yang memerlukan penalaran multi-langkah atas dokumen kompleks, karena itulah keunggulan andalannya. Model tingkat Flash mengunggulinya 6 poin pada otomatisasi alur kerja keuangan bukanlah selisih kecil.
Ini menyiratkan Google secara khusus mengoptimalkan 3.5 Flash untuk pipeline pemanggilan alat dan pengolahan dokumen yang benar-benar diterapkan perusahaan.
Kemampuan multimodal dan penggunaan komputer
Pada CharXiv Reasoning, yang menguji penalaran visual atas bagan ilmiah, Gemini 3.5 Flash mencetak 84,2% dibanding 82,1% milik Opus 4.7. Kesenjangan ini kecil, tetapi patut dicatat bahwa model tingkat Flash memimpin model flagship dalam penalaran visual, terlebih mengingat penalaran visual adalah salah satu kekuatan Opus 4.7.
OSWorld, yang menguji kontrol antarmuka komputer, pada dasarnya seri (78,4% vs 78,0%). Sanggahan penting: Gemini 3.5 Flash tidak mendukung penggunaan komputer sebagai fitur, terlepas dari skor OSWorld, yang hanya evaluasi riset. Artinya, ini mengukur apa yang dapat dilakukan model dalam kondisi tolok ukur, tetapi alat Computer Use API untuk versi model ini belum (atau belum?) tersedia atau dirilis.
Opus 4.7 memang mendukung Computer Use, dan ini adalah kapabilitas terdokumentasi dengan skor OSWorld-Verified 78,0%. Jika alur kerja Anda melibatkan agen yang mengklik, mengetik, dan menavigasi aplikasi secara otonom, Opus 4.7 adalah satu-satunya opsi di sini.
Opus 4.7 juga memperkenalkan peningkatan visi yang signifikan: gambar hingga 2.576 piksel pada sisi panjang, lebih dari tiga kali resolusi model Claude sebelumnya. Ini membuka kasus penggunaan seperti membaca cuplikan layar padat, mengekstrak data dari diagram kompleks, dan agen penggunaan komputer yang memerlukan akurasi tingkat piksel. XBOW melaporkan lonjakan dari 54,5% menjadi 98,5% pada tolok ukur ketajaman visual setelah beralih ke Opus 4.7, yang memberi gambaran seberapa penting peningkatan resolusi ini dalam praktik.
Ekosistem dan ketersediaan
Gemini 3.5 Flash tersedia melalui Google AI Studio, Gemini API, Android Studio, Gemini Enterprise Agent Platform, Gemini Enterprise, dan Google Antigravity. Ini juga menjadi model default di aplikasi Gemini dan AI Mode in Search secara global, yang berarti miliaran pengguna sudah menjalankannya. Bagi pengembang yang sudah berada di ekosistem Google Cloud, jalur integrasinya lugas.
Opus 4.7 tersedia melalui Anthropic API, Amazon Bedrock, Google Cloud Vertex AI, dan Microsoft Foundry, serta aplikasi web dan seluler Claude sendiri. ID modelnya adalah claude-opus-4-7. Anthropic juga meluncurkan anggaran tugas dalam beta publik bersamaan dengan Opus 4.7, memberi pengembang cara untuk membatasi penggunaan token sepanjang rangkaian agentik panjang. Perintah garis miring /ultrareview baru di Claude Code menghasilkan sesi tinjauan khusus yang menandai bug dan masalah desain.
Satu perbedaan praktis: Gemini 3.5 Flash terikat erat dengan kerangka Antigravity untuk kerja multiagen, sementara anggaran tugas dan parameter upaya Opus 4.7 dapat digunakan pada orkestrasi apa pun. Jika Anda membangun di atas kerangka selain Antigravity, Opus 4.7 memberi fleksibilitas lebih dalam mengelola agen yang berjalan lama.
Harga
Di sinilah perbandingan menjadi menarik. Gemini 3.5 Flash berharga $1,50 per satu juta token input dan $9,00 per satu juta token output. Claude Opus 4.7 berharga $5,00 per satu juta token input dan $25,00 per satu juta token output. Pada tarif tersebut, Gemini 3.5 Flash sekitar 3,3x lebih murah untuk input dan 2,8x lebih murah untuk output.
Ada satu catatan pada sisi Opus 4.7. Anthropic memperkenalkan pengubah token baru dengan Opus 4.7 yang menggunakan 1,0x hingga 1,35x lebih banyak token untuk input yang sama dibanding Opus 4.6. Beban kerja yang didominasi bahasa Inggris melihat inflasi token sekitar 12–18% dalam pengujian independen. Harga daftar tidak berubah, tetapi biaya efektif per prompt meningkat. Panduan Anthropic adalah menggunakan parameter upaya, anggaran tugas, dan instruksi singkat yang eksplisit untuk mengelolanya.
Untuk beban kerja ber-volume tinggi atau sensitif latensi, Gemini 3.5 Flash adalah pilihan jelas dari sisi biaya. Untuk beban kerja yang benar-benar membutuhkan kedalaman pengodean Opus 4.7 atau dukungan Computer Use, premi harga ini sulit dihindari. Anthropic menawarkan caching prompt (hingga 90% penghematan pada token input yang di-cache) dan pemrosesan batch (hingga 50% penghematan) sebagai kontrol biaya, yang dapat menutup kesenjangan untuk pola beban kerja yang tepat.
Kapan Memilih Gemini 3.5 Flash vs Claude Opus 4.7
Data tolok ukur dan perbedaan fitur mengarah pada pemisahan kasus penggunaan yang cukup jelas. Begini cara saya membingkai keputusan tersebut.
| Kasus penggunaan | Direkomendasikan | Alasan |
|---|---|---|
| Pipeline agentik ber-volume tinggi dengan kendala biaya | Gemini 3.5 Flash | 3x lebih murah pada token output dan throughput 4x lebih cepat |
| Rekayasa perangkat lunak tingkat repositori | Claude Opus 4.7 | 64,3% vs 55,1% pada SWE-bench Pro; lebih kuat pada tugas multi-berkas yang kompleks |
| Orkestrasi agentik multi-alat | Gemini 3.5 Flash | Memimpin MCP Atlas di 83,6% vs 77,3% milik Opus 4.7 |
| Agen penggunaan komputer (mengklik, mengetik, menavigasi aplikasi) | Claude Opus 4.7 | Computer Use didukung; Gemini 3.5 Flash tidak mendukungnya |
| Analisis dokumen keuangan dan otomatisasi alur kerja | Gemini 3.5 Flash | Memimpin Finance Agent v2 di 57,9% vs 51,5%; uji coba Macquarie Bank mengonfirmasi kecocokan dunia nyata |
| Analisis gambar dan diagram beresolusi tinggi | Claude Opus 4.7 | Mendukung gambar hingga 2.576px / 3,75MP; XBOW melaporkan 98,5% pada tolok ukur ketajaman visual |
| Integrasi Google Cloud atau aplikasi Gemini | Gemini 3.5 Flash | Integrasi native di Google AI Studio, Android Studio, Gemini Enterprise, dan Search |
| Pengodean jangka panjang dengan memori lintas sesi | Claude Opus 4.7 | Memori berbasis sistem berkas menyimpan catatan penting lintas sesi kerja |

Pilih Gemini 3.5 Flash jika...
- Anda menjalankan pipeline agentik ber-volume tinggi di mana biaya dan throughput adalah kendala utama. Dengan $1,50 input / $9,00 output per satu juta token, biayanya jauh lebih murah daripada Opus 4.7 untuk volume beban kerja yang sama.
- Alur kerja Anda lebih berat pada alat daripada pada kode. Skor MCP Atlas 83,6% adalah yang tertinggi dari model mana pun dalam perbandingan ini, dan kerangka Antigravity dibuat khusus untuk penerapan subagen paralel.
- Anda sudah berada di ekosistem Google. Model ini tersedia secara native di Google AI Studio, Android Studio, Gemini Enterprise, dan Antigravity, tanpa pekerjaan integrasi tambahan.
- Kasus penggunaan Anda melibatkan penalaran dokumen keuangan atau analisis bagan multimodal. Gemini 3.5 Flash memimpin pada Finance Agent v2 dan CharXiv Reasoning—hasil yang mengejutkan untuk model tingkat Flash.
Pilih Claude Opus 4.7 jika...
- Kasus penggunaan utama Anda adalah rekayasa perangkat lunak tingkat repositori. Skor SWE-bench Pro 64,3% unggul 9 poin dibanding Gemini 3.5 Flash, dan penguji akses awal seperti Cursor (70% vs 58% pada CursorBench) dan Rakuten (3x lebih banyak tugas produksi terselesaikan) melaporkan lonjakan nyata di dunia nyata.
- Anda memerlukan dukungan Computer Use. Gemini 3.5 Flash tidak mendukungnya; Opus 4.7 mencetak 78,0% pada OSWorld-Verified dan satu-satunya opsi di sini untuk agen yang mengendalikan antarmuka desktop.
- Agen Anda perlu bekerja dengan gambar beresolusi tinggi atau diagram teknis yang padat. Dukungan gambar 2.576px adalah perubahan pada tingkat model yang berlaku otomatis, dan penting untuk OCR, ekstraksi bagan, serta agen penggunaan komputer yang membaca cuplikan layar padat.
- Anda memerlukan memori lintas sesi untuk proyek jangka panjang. Memori berbasis sistem berkas Opus 4.7 memungkinkan agen membawa konteks lintas sesi tanpa harus membangunnya dari awal setiap kali.
Pemikiran Akhir
Ringkasan jujurnya: kedua model ini sebenarnya tidak bersaing untuk beban kerja yang sama. Gemini 3.5 Flash adalah model tingkat Flash yang kebetulan mengungguli model Pro generasi sebelumnya pada beberapa tolok ukur agentik, dan melakukannya pada titik harga yang membuat penerapan ber-volume tinggi menjadi praktis. Claude Opus 4.7 adalah model flagship dengan kemampuan pengodean lebih dalam, dukungan Computer Use, dan kedalaman penalaran mentah yang lebih baik. Jika Anda memilih di antara keduanya, keputusan biasanya bermuara pada apakah Anda memerlukan performa pengodean setara SWE-bench dan Computer Use, ataukah Anda membutuhkan throughput, efisiensi biaya, dan orkestrasi alat yang kuat.
Hal yang paling menarik dari perbandingan ini bagi saya adalah hasil Finance Agent v2. Skor 57,9% Gemini 3.5 Flash dibanding 51,5% milik Opus 4.7 pada otomatisasi alur kerja keuangan bukanlah sesuatu yang Anda harapkan dari model yang dioptimalkan untuk kecepatan. Dikombinasikan dengan keunggulan pada MCP Atlas, ini menyiratkan Google telah men-tuning 3.5 Flash secara khusus untuk alur kerja multi-langkah, pemanggilan alat, dan penalaran dokumen yang benar-benar dijalankan perusahaan, bukan sekadar untuk performa tolok ukur mentah.
Satu hal yang patut dipantau: Gemini 3.5 Pro diperkirakan rilis bulan depan. Jika mengikuti pola peluncuran 3.5 Flash dan melampaui Gemini 3.1 Pro dengan margin yang berarti, perbandingan dengan Opus 4.7 akan terlihat cukup berbeda. Harga tingkat Pro kemungkinan akan memperkecil kesenjangan biaya, tetapi batas kinerja harus naik. Untuk saat ini, Gemini 3.5 Flash adalah pilihan lebih baik untuk pekerjaan agentik yang sensitif biaya, dan Opus 4.7 adalah pilihan lebih baik untuk pengodean mendalam dan penggunaan komputer.
Jika Anda ingin membangun keterampilan praktis dengan sistem AI agentik dan memahami cara bekerja dengan model seperti ini di produksi, saya sarankan melihat jalur keterampilan AI Agent Fundamentals di DataCamp.

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.