Lewati ke konten utama

Claude Opus 4.7 vs Gemini 3.1 Pro: Model Mana yang Lebih Baik?

Kami membandingkan Opus 4.7 dan Gemini 3.1 Pro pada pengodean, penalaran, tolok ukur agentik, harga, dan batas konteks untuk membantu Anda memilih model yang tepat.
Diperbarui 27 Apr 2026  · 10 mnt baca

Sejauh ini, 2026 menjadi tahunnya AI agentik. Peningkatan model telah melahirkan banyak alat untuk kerja agentik, dari asisten AI pribadi hingga agen pengodean. Pemain besar di ranah ini adalah Gemini dari Google, seri GPT dari OpenAI, dan model-model Anthropic, yang menjadi favorit para pengembang. 

Dalam artikel ini, saya akan membandingkan Claude Opus 4.7 dan Gemini 3.1 Pro, termasuk tolok ukur dan harga. Di bagian akhir, saya akan memberikan kriteria yang dapat Anda gunakan untuk memutuskan model mana yang paling sesuai untuk alur kerja Anda. 

Apa Itu Claude Opus 4.7?

Seperti yang kami bahas dalam artikel Opus 4.7 kami, Claude Opus 4.7 adalah model unggulan terbaru Anthropic, pembaruan dari pendahulunya, Claude Opus 4.6. Model ini dirancang untuk alur kerja agentik yang kompleks dan penalaran multi-tahap. Kinerjanya lebih baik pada pengodean agentik, penalaran visual, dan penggunaan alat.

Fitur utama dan kapabilitas Claude Opus 4.7

Salah satu fitur utama Opus 4.7 adalah anggaran tugas, yang memungkinkan Anda menetapkan batas biaya atas jumlah token yang dapat digunakan agen per tugas. Ini mencegah biaya tak terduga saat agen berjalan secara otonom dengan memaksanya mengoptimalkan dan tetap dalam anggaran.

Claude Opus 4.7 memiliki jendela konteks 1 juta token dan 128K token keluaran. Artinya, model ini dapat menjalankan tugas jangka panjang sambil mempertahankan seluruh konteks tugas. Ini sangat berguna saat menelusuri basis kode yang besar. 

Model ini juga meningkatkan kapabilitas visi, mendukung gambar hingga 3,75 megapiksel. Hasilnya, kinerjanya lebih baik pada penalaran visual dibanding Opus 4.6, menjadikannya model ideal untuk tugas seperti ekstraksi data dari bagan beresolusi tinggi.  

Opus 4.7 juga menghadirkan tingkat upaya penalaran baru xhigh yang berada di antara high dan max untuk memberikan hasil terbaik pada tugas pengodean dan agentik. Anda juga dapat menggunakan tingkat pemikiran high untuk upaya pemikiran yang sedikit lebih rendah. Anthropic juga memperkenalkan /ultrareview di Claude Code untuk menjalankan code review pada perubahan kode dan menangkap bug. 

Fitur utama dan kapabilitas Claude Opus 4.7

Hal yang mungkin mengejutkan sebagian orang adalah Adaptive Thinking kini menghilangkan respons pemikiran secara bawaan. Anda dapat mengembalikan versi penalaran yang diringkas dengan mengatur thinking.display ke summarized.  

Dalam hal tolok ukur, Opus 4.7 meraih skor:

  • 87,6% pada SWE-bench Verified
  • 64,3% pada varian SWE-bench Pro yang lebih sulit
  • 78% pada OSWorld, yang mengukur penggunaan komputer otonom
  • 77,3% pada MCP Atlas untuk orkestrasi alur kerja multi-alat

Saat Claude Opus 4.7 dirilis, model ini berada di puncak Artificial Analysis Intelligence Index dengan skor 57. Model ini juga memimpin pada kerja agentik dunia nyata yang diukur dengan GDPval-AA, dengan skor 1.753 Elo. Sementara itu, GPT-5.5 telah melampauinya pada keduanya.

Pelajari cara membangun aplikasi tolok ukur Streamlit yang menguji apakah memori kritik-diri Opus 4.7 benar-benar meningkatkan kinerja pengodean pada tingkat upaya high, xhigh, dan max dari Claude Opus 4.7 Practical Benchmark tutorial kami. 

Kelebihan dan kekurangan Claude Opus 4.7

Model Anthropic dikenal sebagai yang terbaik untuk pengodean, dan tolok ukur Opus 4.7 membuktikannya. Namun, keluarga model Opus tidak murah, sehingga anggaran tugas menjadi tambahan yang berguna, terutama bagi mereka yang menjalankan alur kerja agentik panjang. 

Model ini juga tersedia melalui berbagai penyedia cloud seperti Amazon Bedrock, Google Vertex AI, dan Microsoft Foundry. Ini memudahkan integrasi menggunakan penyedia yang sudah Anda gunakan. 

Opus 4.7 juga hadir dengan tokenizer baru, yang membuat sedikit lebih sulit untuk membandingkan biaya aktual dengan model Opus sebelumnya. Namun, menurut Artificial Analysis Intelligence, Opus 4.7 menggunakan ~35% lebih sedikit token keluaran dibanding Opus 4.6 untuk menjalankan indeks mereka. 

Kelebihan dan kekurangan Claude Opus 4.7

Pelajari kapabilitas model terbaik Anthropic yang tersedia untuk publik, Claude Opus 4.7, dan bangun alat sains data yang dapat mengubah bagan menjadi data mentah dari Tutorial API Claude Opus 4.7 kami. 

Apa itu Gemini 3.1 Pro? 

Gemini 3.1 Pro adalah model penalaran unggulan Google DeepMind saat ini yang menampilkan model mixture of experts berbasis Transformer. Saat Gemini 3.1 Pro dirilis, model ini memimpin Artificial Analysis Intelligence Index dengan keunggulan 4 poin di depan Opus 4.6, dan kini setara dengan Opus 4.7 dengan skor 57. 

Untuk mempelajari lebih lanjut tentang Gemini 3.1 Pro, sim ak artikel Building with Gemini 3.1 Pro kami, yang membahas cara membangun aplikasi siap produksi dengan Gemini 3.1 Pro. 

Fitur utama dan kapabilitas Gemini 3.1 Pro

Berbeda dengan Gemini 3 Pro, yang memiliki dua tingkat, Gemini 3.1 Pro memiliki 3 tingkat pemikiran: penalaran low, medium, dan high. Low terbaik untuk kecepatan dan optimasi token. medium memberikan pendekatan seimbang. Karena high menghasilkan lebih banyak token pemikiran dan respons paling lambat, Anda sebaiknya menggunakannya untuk tugas yang membutuhkan penalaran kompleks.  

Gemini 3.1 Pro juga memiliki jendela konteks 1 juta token untuk masukan, tetapi lebih kecil untuk keluaran, sekitar 65K token. Model ini bersifat multimodal, mendukung audio, PDF, teks, dan gambar. 

Mari bicara tolok ukur. Berikut dua area di mana Gemini 3.1 Pro unggul: 

  • Gemini 3.1 Pro memimpin pada ARC-AGI-2 dengan skor 77,1%.
  • Gemini 3.1 Pro meraih 73,9% pada MCP Atlas, yang mengukur koordinasi alur kerja multi-alat. 

Fitur utama dan kapabilitas Gemini 3.1 Pro

Menurut Artificial Analysis Intelligence, Gemini 3.1 Pro Preview efisien dalam penggunaan token, menggunakan ~57M token untuk menjalankan Indeks mereka dibandingkan dengan Opus 4.6. 

Gemini 3.1 Pro unggul atas Opus 4.7 pada Artificial Analysis Coding Index, tetapi tertinggal pada Agentic Index. 

Kelebihan dan kekurangan Gemini 3.1 Pro

Harga Gemini 3.1 Pro cukup menarik, terutama untuk pekerjaan yang membutuhkan banyak token. Google juga menawarkan diskon 50% dengan model harga batch mereka, menjadikannya opsi ideal saat Anda tidak memerlukan hasil real-time. 

Di sisi lain, jendela keluaran 65K milik Gemini 3.1 Pro hanya setengah dari Opus 4.7 (128K). 

Perbandingan Langsung Claude Opus 4.7 vs Gemini 3.1 Pro

Berikut referensi cepat, sebelum kita melihat setiap kategori.

 

Claude Opus 4.7

Gemini 3.1 Pro

Tanggal rilis

16 April 2026

19 Februari 2026

Jendela konteks

1M token

1M token

Keluaran maks

128K token

65K token

SWE-bench Verified

87,6%

80,6%

SWE-bench Pro

64,3%

54,2%

ARC-AGI-2

68,8%

77,1%

GPQA Diamond

94,2% (imbang)

94,3% (imbang)

MCP Atlas

77,3%

73,9%

OSWorld

78,0%

Tidak ada skor yang dipublikasikan

Visi

2576px / 3,75MP

Multimodal (video, audio, PDF)

Harga input

$5/1M token

$2/1M token

Harga output

$25/1M token

$12/1M token

Kinerja agentik dan penggunaan komputer 

Opus 4.7 adalah model yang sangat kuat untuk pekerjaan agentik, terutama karena memungkinkan Anda mengontrol berapa banyak token yang dapat digunakan agen. Sistem ini tidak tersedia di Gemini 3.1 Pro; Anda harus menggunakan tingkat pemikiran untuk mengontrol penggunaan token. 

Opus 4.7 meraih 78% pada tolok ukur penggunaan komputer otonom OSWorld. Itu hasil yang kuat dan setara dengan GPT 5.5 yang 78,7%, sementara Gemini 3.1 Pro tidak memiliki skor OSWorld yang dipublikasikan. Pada MCP Atlas, Opus 4.7 memimpin dengan 77,3% dibanding 73,9% milik Gemini. Angka-angka ini menjadikan Opus 4.7 pilihan ideal untuk sistem agentik produksi. 

Tolok ukur pengodean 

Sekarang mari kita lihat model mana yang terbaik dalam hal pemrograman menurut tolok ukur yang tersedia, khususnya SWE-bench Verified, yang menguji isu nyata di GitHub. 

Opus 4.7 mencapai 87,6% dibanding 80,6% milik Gemini 3.1 Pro. Pada SWE-bench Pro, varian tes yang lebih sulit, Opus 4.7 meraih 64,3% dibanding 54,2% milik Gemini (dan 58,6% milik GPT 5.5). Angka-angka ini menunjukkan bahwa Opus 4.7 saat ini adalah model pengodean terkuat di dunia. 

Mari lihat bagaimana kinerja model pada Terminal-Bench 2.0, yang menguji kemampuan model untuk mengode di terminal. Opus 4.7 meraih 69,4%, Gemini Pro 68,5%, dan GPT 5.5 baru 82,7%. GPT-5.5 adalah pemenang jelas pada tolok ukur ini, sementara kedua model kita imbang di sini. 

Penalaran dan tugas ilmiah 

Model mana yang terbaik untuk penalaran dan tugas ilmiah? Mari kita cari tahu. Saya tidak akan menggunakan tolok ukur GPQA Diamond karena semua model unggul di sana. Sebagai gantinya, kita akan melihat ARC-AGI-2, yang mengukur kecerdasan cair, yakni kemampuan model untuk menyelesaikan masalah penalaran abstrak yang belum pernah dilihat sebelumnya. 

Gemini 3.1 Pro meraih 77,1% dibanding 75,8% milik Opus 4.7 dan 85,0% milik GPT 5.5, menjadikan GPT 5.5 pemenang jelas di sini, diikuti oleh Gemini 3.1 Pro. 

Pada Humanity's Last Exam, yang bertujuan mengukur penalaran tingkat pascasarjana di bidang sains, matematika, dan humaniora, Opus 4.7 unggul atas Gemini 3.1 Pro baik dengan maupun tanpa alat:

  • Tanpa alat: Opus 4.7 memimpin dengan 46,9%, diikuti Gemini 3.1 Pro (44,4%) dan GPT 5.5 Pro (43,1%).
  • Dengan alat: GPT 5.5 Pro memimpin dengan 57,2%, diikuti Opus 4.7 (54,7%) dan Gemini 3.1 Pro (51,4%).

Biaya dan efisiensi token 

Opus 4.7 berharga $5 per satu juta token input dan $25 per satu juta token output, sedangkan Gemini 3.1 Pro berharga $2 per satu juta token input dan $12 per satu juta token output. Gemini jauh lebih murah, dan dengan diskon harga batch 50%, model ini sangat kompetitif untuk tugas yang membutuhkan banyak token. 

Perlu juga disebutkan bahwa tokenizer baru dari Opus 4.7 membuat sedikit lebih sulit untuk membandingkan biaya dengan model Opus sebelumnya. 

Jendela konteks dan kapasitas keluaran 

Kedua model menerima 1 juta token input, sehingga keduanya dapat mengonsumsi seluruh basis kode dan dokumen riset panjang dalam satu prompt. 

Untuk token keluaran, Opus 4.7 mendukung 128K token sementara Gemini 3.1 Pro mendukung 65.536. Ini membuat Opus menjadi pilihan lebih baik untuk alur kerja yang memerlukan generasi token keluaran lebih banyak. 

Perbandingan langsung Claude Opus 4.7 vs Gemini 3.1 Pro

Pelajari bagaimana Opus 4.7 dan GPT 5.4 dibandingkan dalam tutorial Opus 4.7 vs. GPT-5.4 kami, di mana kami membandingkan keduanya untuk pengodean, alur kerja agentik, dan tugas ber-konteks panjang, serta menganalisis tolok ukur.  

Apakah Claude Opus 4.7 Lebih Baik daripada Gemini 3.1 Pro?

Ini membawa kita pada pertanyaan: mana dari kedua model ini yang sebaiknya Anda pilih?

Anda sebaiknya memilih Claude Opus 4.7 jika... 

  • Anda membangun pipeline pengodean agentik di mana selisih 10 poin pada SWE-bench Pro langsung berimbas pada lebih sedikit kegagalan run di produksi.
  • Anda memerlukan anggaran tugas untuk membuat loop otonom panjang lebih prediktif tanpa menambahkan logika pemantauan eksternal.
  • Pipeline Anda menghasilkan keluaran panjang, dan batas 128K token penting, hampir dua kali lipat dari yang didukung Gemini 3.1 Pro.
  • Anda menginginkan skor orkestrasi multi-alat terkuat pada MCP Atlas untuk alur kerja agentik yang kompleks.
  • Anda sudah berada dalam ekosistem Anthropic melalui Claude Code, Amazon Bedrock, atau Claude API, dan biaya pindah lebih besar daripada selisih harga.

Anda sebaiknya memilih Gemini 3.1 Pro jika... 

  • Volume token Anda membuat selisih biaya input 2,5x menjadi signifikan; pada 500 juta token per bulan, selisih itu sebesar $1.500 setiap bulan
  • Anda memerlukan masukan video, audio, atau PDF secara native dalam satu panggilan API tanpa langkah prapemrosesan terpisah
  • Anda membangun di infrastruktur Google dan menginginkan hubungan satu vendor melalui Vertex AI
  • Penalaran visual abstrak adalah kasus penggunaan utama Anda. Opus tertinggal pada ARC-AGI-2 dengan 75,8% dibanding 77,1% milik Gemini

Pemikiran Akhir

Claude Opus 4.7 dan Gemini 3.1 Pro sama-sama model yang kuat. Pilihan model mana yang digunakan bergantung pada anggaran dan tugas yang ingin Anda selesaikan. Opus unggul pada tugas agentik, tetapi jika di luar anggaran, Gemini 3.1 Pro juga kandidat kuat, terutama karena tokennya lebih murah dan diskon harga batch 50%. 

Anthropic mempertahankan keunggulannya pada model pengodean terbaik, sehingga sangat cocok untuk tugas agentik yang memerlukan penalaran dan pemrograman kompleks. Google menghadirkan model penalaran terdepan dengan harga yang jauh lebih rendah dibanding Anthropic. Pertarungan antara kedua perusahaan dan pemain besar lain seperti OpenAI adalah untuk menghadirkan model agentik terbaik yang juga menjadi model serba guna yang baik.

Mengingat mahalnya keluarga model Opus, menyenangkan melihat diperkenalkannya anggaran tugas. Saya tidak akan terkejut jika penyedia lain mengintegrasikannya dalam rilis mendatang. Ini akan menjadi tambahan yang baik untuk membuat biaya menjalankan tugas agen jangka panjang lebih prediktif. 

Untuk mempelajari lebih lanjut tentang bekerja dengan alat AI, saya menyarankan untuk melihat panduan kami tentang alat AI gratis terbaik. Untuk keterampilan pengodean AI yang lebih luas, coba kursus AI-Assisted Coding for Developers kami untuk mengembangkan keterampilan yang membuat asisten AI menjadi mitra yang lebih andal dalam alur kerja pengembangan Anda. 

Terakhir, Anda juga dapat mempelajari cara membangun aplikasi bertenaga AI menggunakan LLM, prompt, chain, dan agent di LangChain dari kursus Developing LLM Applications with LangChain kami.

Topik
Terkait

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.
Javier Canales Luna's photo

Javier Canales Luna

12 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.
Dario Radečić's photo

Dario Radečić

15 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.
Hugo Bowne-Anderson's photo

Hugo Bowne-Anderson

13 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.
David Woods's photo

David Woods

13 mnt

Lihat Lebih BanyakLihat Lebih Banyak