Kursus
Gemini 3.5 Flash diluncurkan pada 19 Mei 2026 sebagai jawaban kuat terhadap model andalan terbaru OpenAI dan Anthropic, dengan klaim performa setara frontier pada kecepatan Flash. GPT-5.5 dari OpenAI hadir sebelumnya, pada April 2026, diposisikan sebagai model pengodean agentik terkuat yang pernah dirilis perusahaan.
Kedua model secara eksplisit dibangun untuk kerja agentik dan melampaui pendahulunya pada tolok ukur yang paling penting untuk tugas berdurasi panjang. Pertanyaannya adalah mana yang benar-benar sesuai dengan alur kerja Anda, dan apakah kompromi kecepatan serta biaya sepadan untuk use case spesifik Anda.
Dalam artikel ini, saya akan membandingkan Gemini 3.5 Flash dan GPT-5.5 pada lima dimensi utama: pengodean dan alur kerja agentik, penalaran dan tugas berbasis pengetahuan, kapabilitas multimodal, konteks dan performa konteks panjang, serta harga. Anda juga dapat melihat ulasan mandiri kami tentang Gemini 3.5 Flash dan telaah mendalam kami tentang GPT-5.5 untuk detail lebih lanjut tentang masing-masing model.
Apa Itu Gemini 3.5 Flash?
Gemini 3.5 Flash adalah model terbaru Google dalam keluarga Gemini 3.5, dirilis pada Google I/O 2026. Model ini berada di tingkat Flash, artinya dioptimalkan untuk kecepatan dan biaya, namun klaim utama Google adalah bahwa kini performanya menyaingi model andalan yang lebih besar pada tolok ukur agentik dan pengodean (yang didukung oleh hasil awal).
Model ini dirancang untuk bekerja dengan Antigravity harness milik Google, sebuah kerangka kerja untuk menerapkan subagen kolaboratif secara paralel.
Model ini tersedia melalui Gemini API, Google AI Studio, Android Studio, Gemini Enterprise Agent Platform, dan sebagai model default di aplikasi Gemini serta AI Mode in Search secara global. Gemini 3.5 Pro sudah digunakan secara internal di Google dan diperkirakan akan diluncurkan bulan depan.
Untuk informasi lebih lanjut tentang peluncuran dan makna tolok ukur dalam praktik, lihat panduan Gemini 3.5 Flash kami. Kami juga membahas pengumuman I/O yang lebih luas, termasuk Gemini Omni, model generatif media multimodal native baru dari Google, agen AI 24/7 Gemini Spark, dan Managed Agents di API yang baru.
Apa Itu GPT-5.5?
GPT-5.5 adalah rilis model OpenAI pada April 2026, digambarkan sebagai model pengodean agentik terkuat perusahaan hingga saat ini. OpenAI juga merilis varian GPT-5.5 Pro untuk pekerjaan dengan akurasi lebih tinggi, tersedia bagi pengguna Pro, Business, dan Enterprise.
Seperti yang kami bahas dalam artikel perbandingan GPT-5.5 vs Claude Opus 4.7, membayar 6x lebih mahal untuk GPT-5.5 Pro tampaknya layak hanya untuk alur kerja yang mencakup matematika sulit dan/atau tugas penelusuran web serta ketika akurasi tinggi benar-benar penting.
Model ini dirancang bersama untuk dan dijalankan pada sistem NVIDIA GB200 dan GB300 NVL72, dan OpenAI menyatakan latensi per token-nya menyamai GPT-5.4 dalam penyajian dunia nyata sambil memberikan tingkat kecerdasan yang lebih tinggi.
Model ini tersedia di ChatGPT dan Codex untuk pengguna Plus, Pro, Business, dan Enterprise, dengan akses API seharga $5 per 1 juta token input dan $30 per 1 juta token output.
Gemini 3.5 Flash vs GPT-5.5: Perbandingan Head-to-Head
Berikut ringkasan singkat posisi masing-masing model sebelum kita masuk ke detailnya.
| Fitur | Gemini 3.5 Flash | GPT-5.5 |
|---|---|---|
| Terminal-Bench (pengodean agentik) | 76,2% | 78,2% |
| SWE-Bench Pro | 55,1% | 58,6% |
| MCP Atlas (penggunaan alat) | 83,6% | 75,3% |
| OSWorld-Verified (penggunaan komputer) | 78,4% | 78,7% |
| CharXiv Reasoning (multimodal) | 84,2% | 84,1% |
| Finance Agent v2 | 57,9% | 51,8% |
| ARC-AGI-2 | 72,1% | 84,6% |
| Humanity's Last Exam | 40,2% | 41,4% |
| Kecepatan output | 4x lebih cepat daripada model frontier lain (klaim Google) | Menyamai latensi GPT-5.4 |
| Jendela konteks | 1 juta token | 1 juta token |
| Harga input API | ~$1,50 / 1 juta token | $5,00 / 1 juta token |
| Harga output API | ~$9,00 / 1 juta token | $30,00 / 1 juta token |
| Kerangka multi-agen | Antigravity harness | Codex |
Pengodean dan alur kerja agentik
Pengodean adalah dimensi yang paling jelas dipersaingkan kedua model, dan GPT-5.5 unggul tipis di sini. Baik pada pengodean terminal agentik (Terminal-Bench 2.1: 78,2% vs 76,2%) maupun pada rekayasa perangkat lunak klasik (SWE-Bench Pro: 58,6% vs 55,1%), GPT-5.5 memiliki keunggulan beberapa poin persentase atas Gemini 3.5 Flash.
Keunggulan Gemini 3.5 Flash muncul pada penggunaan alat. Model ini mencetak 83,6% pada MCP Atlas, mengalahkan 75,3% milik GPT-5.5 dengan margin yang berarti. MCP Atlas menguji pemanggilan alat multi-langkah dan kepatuhan skema di seluruh alur kerja agen yang kompleks—persis jenis tugas yang dirancang untuk Antigravity harness.
| Tolok ukur | Gemini 3.5 Flash | GPT-5.5 | Catatan |
|---|---|---|---|
| Terminal-Bench | 76,2% | 78,2% | GPT-5.5 unggul tipis |
| SWE-Bench Pro | 55,1% | 58,6% | Laporan vendor; Claude Opus 4.7 memimpin di 64,3% |
| MCP Atlas | 83,6% | 75,3% | Gemini unggul; menguji pemanggilan alat multi-langkah |
Kesimpulan jujur: GPT-5.5 lebih kuat untuk DevOps berat terminal dan otomatisasi shell. Gemini 3.5 Flash lebih kuat untuk pipeline agen yang sarat alat di mana pemanggilan alat gaya MCP menjadi pusat. Untuk rekayasa perangkat lunak tingkat repositori, Claude Opus 4.7 masih memimpin keduanya pada SWE-Bench Pro.
Tugas penalaran dan pengetahuan
Pada penalaran abstrak, perbedaan kedua model paling menonjol: GPT-5.5 unggul jelas pada ARC-AGI-2 (84,6% dibanding 72,1% milik Gemini 3.5 Flash). Itu selisih 12,5 poin pada tolok ukur yang menguji pengenalan pola baru dan penalaran yang tak bisa dihafal dari data pelatihan. Pada Humanity's Last Exam, nilainya berdekatan: GPT-5.5 di 41,4% dan Gemini 3.5 Flash di 40,2%.
Salah satu kekuatan GPT-5.5 adalah matematika, terlihat dari hasil menonjolnya pada FrontierMath Tier 4 dengan skor 35,4%. Tidak ada model yang saat ini tersedia yang menandingi skor ini, meskipun AI Co-Mathematician milik Google mengungguli bahkan GPT-5.5 Pro dengan margin besar (47,9% vs 39,6%). Model tersebut tidak tersedia luas, hanya rilis riset terbatas.
Satu hasil mengejutkan dari perbandingan Gemini 3.5 Flash vs Claude Opus 4.7 kami terulang: Gemini 3.5 Flash menduduki puncak papan peringkat Finance Agent v2 (57,9% vs 51,8% milik GPT-5.5 dan 51,5% Opus 4.7) untuk penalaran finansial multi-langkah, meskipun ia yang paling ringan di antara ketiganya. Ini menunjukkan model yang unggul ketika agen perlu memanggil alat eksternal secara andal dalam urutan panjang.
Kapabilitas multimodal
Multimodal adalah area di mana Gemini 3.5 Flash paling kompetitif dengan GPT-5.5. Pada CharXiv Reasoning, yang menguji penalaran visual atas grafik ilmiah, Gemini 3.5 Flash mencetak 84,2% dibanding 84,1% milik GPT-5.5. Itu pada dasarnya seri, dan hasil yang bermakna mengingat 3.5 Flash diposisikan sebagai model yang dioptimalkan untuk kecepatan.
Pada tolok ukur OSWorld, yang menguji kontrol antarmuka komputer, kedua model dan Claude Opus 4.7 pada dasarnya seri, berkisar antara 78,0% (Gemini Flash 3.5) dan 78,4% (GPT-5.5). Namun, Gemini Flash 3.5 tidak menawarkan fitur penggunaan komputer, jadi hasilnya hanya mencerminkan evaluasi riset internal.
Jika Anda memerlukan agen yang mampu menavigasi situs web secara otonom, Anda perlu memilih GPT-5.5 (atau Opus 4.7).
Jendela konteks dan performa konteks panjang
Kedua model menawarkan jendela konteks 1 juta token. Pertanyaan yang lebih menarik adalah apa yang sebenarnya mereka lakukan dengannya. Dalam ulasan GPT-5.5 kami, temuan paling mengungkap adalah data performa konteks panjang: GPT-5.4 kolaps melewati kira-kira 128K token pada uji jarum MRCR, sementara GPT-5.5 tetap stabil hingga 512K dan lebih jauh. Pada konteks 512K–1M, GPT-5.5 mencetak 74,0% pada MRCR v2 8-needle, dibanding 36,6% milik GPT-5.4.
Di mana kita bisa membandingkan langsung adalah pada konteks 128K pada tolok ukur yang sama. GPT-5.5 mencetak 94,8% pada MRCR v2 8-needle (rata-rata 128K), sementara Gemini 3.5 Flash mencetak 77,3%. Itu selisih yang bermakna: GPT-5.5 mengambil dan menalar atas fakta yang tersebar dalam konteks panjang dengan akurasi yang terasa lebih tinggi pada rentang tersebut.
Pada skala penuh 1 juta token, gambarnya kurang jelas karena data yang dipublikasikan tidak tumpang tindih dengan rapi. Gemini 3.5 Flash mencetak 26,6% pada MRCR v2 8-needle (1M pointwise), sedikit lebih baik daripada 26,3% milik Gemini 3.1 Pro.
OpenAI belum memublikasikan skor 1M pointwise yang langsung sebanding untuk GPT-5.5, jadi kita tidak bisa membuat penilaian head-to-head pada rentang itu. Meski begitu, skor 74,0% GPT-5.5 pada 512K–1M pada potongan MRCR yang berbeda menunjukkan kemungkinan ia bertahan lebih baik.
Untuk tolok ukur Graphwalks, yang menguji penalaran atas struktur graf yang disisipkan dalam konteks panjang, GPT-5.5 mencetak 45,4% pada BFS di 1 juta token. Skor Gemini 3.5 Flash pada tolok ukur spesifik ini tidak dipublikasikan.
Intinya secara praktis: GPT-5.5 adalah model konteks panjang yang lebih kuat di area yang bisa kita ukur.
Harga
Di sinilah perbandingan menjadi kontras. Gemini 3.5 Flash dihargai sekitar $1,50 per 1 juta token input dan $9,00 per 1 juta token output. GPT-5.5 berharga $5,00 per 1 juta token input dan $30,00 per 1 juta token output, menjadikannya lebih dari tiga kali lebih mahal daripada Gemini 3.5 Flash.
Kerangka narasi Google adalah bahwa 3.5 Flash menghadirkan performa setara frontier dengan biaya kurang dari setengah model frontier lain. Klaim itu berlaku jika dibandingkan harga GPT-5.5. Untuk beban kerja agentik dengan volume tinggi di mana model dipanggil ratusan kali per alur kerja, perbedaan biaya akan cepat terakumulasi.
GPT-5.5 Pro bahkan lebih mahal, yaitu $30 per 1 juta token input dan $180 per 1 juta token output. Tingkat ini dirancang untuk tugas penalaran tersulit dan tersedia bagi pengguna Pro, Business, dan Enterprise. Gemini 3.5 Pro, yang diperkirakan hadir bulan depan, kemungkinan berada di atas 3.5 Flash dalam hal kapabilitas dan harga, meskipun harga pastinya belum diumumkan.
| Model | Input (per 1 juta token) | Output (per 1 juta token) | Jendela konteks |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1,50 | ~$9,00 | 1 juta token |
| GPT-5.5 | $5,00 | $30,00 | 1 juta token |
| GPT-5.5 Pro | $30,00 | $180,00 | 1 juta token |
Satu nuansa yang patut dicatat: OpenAI menyatakan GPT-5.5 menggunakan token yang jauh lebih sedikit untuk menyelesaikan tugas Codex yang sama dibanding GPT-5.4. Jadi kenaikan harga per token tidak secara langsung berbanding lurus dengan kenaikan biaya untuk alur kerja agentik. Meski demikian, bahkan dengan efisiensi token yang meningkat, Gemini 3.5 Flash tetap jauh lebih murah di tingkat API.
Kapan Memilih Gemini 3.5 Flash vs GPT-5.5
Keputusan terutama bergantung pada tiga faktor: sensitivitas biaya, jenis pekerjaan agentik yang Anda lakukan, dan ekosistem mana yang sudah Anda gunakan. Berikut cara saya membingkai pilihan di berbagai skenario umum.
| Use case | Rekomendasi | Alasan |
|---|---|---|
| Pipeline agen volume tinggi dengan pemanggilan alat intensif | Gemini 3.5 Flash | Memimpin pada MCP Atlas (83,6% vs 75,3%) dan biaya ~3x lebih rendah per token |
| DevOps berat terminal dan otomatisasi shell | GPT-5.5 | Memimpin Terminal-Bench 2.0 di 82,7%; lebih kuat pada alur kerja CLI kompleks |
| Analisis dokumen finansial dan alur kerja berat OCR | Gemini 3.5 Flash | Memimpin Finance Agent v2 di 57,9% vs 51,8% milik GPT-5.5 |
| Penalaran abstrak dan soal matematika sulit | GPT-5.5 | Memimpin ARC-AGI-2 di 84,6% vs 72,1%; lebih kuat pada FrontierMath Tier 4 |
| Pemahaman grafik visual dan gambar ilmiah | Keduanya (praktis seri) | CharXiv Reasoning: 84,2% vs 84,1%; pilih berdasarkan faktor lain |
| Integrasi Google Workspace dan Android Studio | Gemini 3.5 Flash | Integrasi native dengan Docs, Sheets, Gmail, Android Studio melalui Antigravity |
| Pekerjaan dokumen konteks panjang melewati 128K token | GPT-5.5 | Skor MRCR yang dipublikasikan menunjukkan performa stabil hingga 1 juta token; GPT-5.4 kolaps melewati 128K |
| Deployment produksi yang sensitif biaya dalam skala besar | Gemini 3.5 Flash | ~$1,50/$9,00 per 1 juta token vs $5,00/$30,00 milik GPT-5.5 |
Pilih Gemini 3.5 Flash jika...
- Agen Anda melakukan banyak pemanggilan alat per alur kerja. Skor MCP Atlas 83,6% adalah sinyal paling jelas bahwa 3.5 Flash dituning untuk penggunaan alat yang andal dalam skala besar, dan Antigravity harness memberi Anda kerangka kerja bawaan untuk menjalankan subagen secara paralel.
- Biaya adalah kendala utama. Dengan harga kira-kira sepertiga per token GPT-5.5, 3.5 Flash adalah pilihan jelas untuk beban kerja berjumlah besar di mana Anda membayar jutaan token per hari.
- Anda sudah berada di ekosistem Google. Jika tim Anda menggunakan Google Workspace, BigQuery, atau Android Studio, integrasi native dengan Gemini Enterprise Agent Platform sangat mengurangi friksi.
- Pekerjaan Anda melibatkan dokumen finansial, faktur, atau grafik kompleks. Hasil Finance Agent v2 dan CharXiv Reasoning sama-sama menunjukkan model yang menangani data visual dan finansial terstruktur dengan baik.
- Kecepatan penting bagi pengguna Anda. Google mengklaim 3.5 Flash berjalan empat kali lebih cepat pada token output per detik dibanding model frontier lain, yang menjadi keunggulan nyata untuk respons streaming pada aplikasi yang menghadap konsumen.
Pilih GPT-5.5 jika...
- Pekerjaan Anda berat terminal. Skor 82,7% pada Terminal-Bench 2.0 dan integrasi Codex menjadikan GPT-5.5 pilihan lebih kuat untuk otomatisasi shell, alur kerja Docker/kubectl, dan orkestrasi CLI yang kompleks.
- Anda memerlukan penalaran abstrak terbaik yang tersedia. Skor 84,6% pada ARC-AGI-2 dan hasil FrontierMath Tier 4 (35,4%) menempatkan GPT-5.5 di depan untuk tugas yang memerlukan penalaran baru alih-alih pencocokan pola.
- Keandalan konteks panjang melewati 128K token sangat krusial. Data MRCR yang dipublikasikan menunjukkan GPT-5.5 tetap andal hingga 1 juta token dengan cara yang tidak terjadi pada GPT-5.4, dan itu peningkatan bermakna untuk alur kerja riset yang berat dokumen.
- Anda menjalankan riset ilmiah atau bioinformatika. Hasil GeneBench (25,0%) dan BixBench (80,5%), ditambah contoh pembuktian bilangan Ramsey, menyiratkan GPT-5.5 benar-benar berguna sebagai co-pilot riset untuk biologi kuantitatif dan matematika.
- Anda sudah menggunakan Codex atau ChatGPT untuk alur kerja tim. Peluncuran untuk Plus/Pro/Business/Enterprise berarti sebagian besar tim sudah punya akses, dan integrasi Codex matang.
Pemikiran Akhir
Cara paling jelas untuk membingkai perbandingan ini: GPT-5.5 lebih kuat pada penalaran murni dan pengodean agentik yang berat terminal, sementara Gemini 3.5 Flash lebih tepat untuk pipeline yang sarat alat, pekerjaan dokumen finansial, dan penerapan apa pun di mana biaya serta kecepatan menjadi kendala utama. Tidak ada model yang dominan di semua aspek, dan celah tolok ukur cukup kecil sehingga kesesuaian ekosistem dan harga akan mendorong sebagian besar keputusan nyata.
Hal yang paling menarik bagi saya dari perbandingan ini adalah hasil MCP Atlas. Skor 83,6% Gemini 3.5 Flash dibanding 75,3% milik GPT-5.5 pada tolok ukur yang menguji pemanggilan alat multi-langkah adalah sinyal yang bermakna. Alur kerja agentik tampaknya menjadi tren AI utama pada 2026, jadi celah ini bisa lebih penting daripada celah Terminal-Bench ke arah sebaliknya.
Hal lain yang patut diperhatikan adalah Gemini 3.5 Pro, yang kata Google sudah digunakan secara internal dan diperkirakan hadir bulan depan. Jika 3.5 Pro menghadirkan lompatan setara atas 3.5 Flash sebagaimana 3.1 Pro atas 3 Flash, peta kompetitif akan bergeser lagi. Untuk saat ini, 3.5 Flash adalah pilihan yang lebih hemat biaya untuk sebagian besar beban kerja agentik produksi, dan GPT-5.5 adalah pilihan ketika kedalaman penalaran dan keandalan terminal tidak bisa ditawar.
Jika Anda ingin mempraktikkan konsep AI agentik dan membangun dengan model seperti ini, saya sarankan melihat jalur keterampilan AI Agent Fundamentals kami.

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.