Lewati ke konten utama

Claude Sonnet 4.6: Fitur, Akses, Uji, dan Tolok Ukur

Jelajahi Claude Sonnet 4.6 dari Anthropic, dengan jendela konteks 1M token, kinerja mendekati Opus, dan kapabilitas agen canggih untuk pengkodean dan keuangan.
Diperbarui 17 Apr 2026  · 10 mnt baca

Selama berminggu-minggu, kedatangan Claude Sonnet 5 dinanti. Namun, Anthropic terlebih dahulu merilis Claude Opus 4.6, dan kini menyusul dengan pembaruan pada keluarga model Sonnet.

Claude Sonnet 4.6 menghadirkan konektor, keterampilan, dan pemadatan konteks untuk semua pengguna, memuncaki tolok ukur GDPval-AA, dan menawarkan kinerja setara kelas unggulan dengan harga terjangkau. 

Walau pengembangan tampaknya berfokus pada kemampuan agen, rilis ini menjanjikan “peningkatan penuh keterampilan model” di hampir semua domain yang relevan.

Mampukah model ini memenuhi klaimnya? Dalam tutorial ini, saya akan menunjukkan fitur-fitur kunci model baru Anthropic dan mengujinya.

Jangan lupa juga membaca panduan kami tentang Muse Spark dan Qwen3.5, model unggulan baru dari Meta dan Alibaba.

Apa Itu Claude Sonnet 4.6?

Claude Sonnet 4.6 adalah model bahasa besar (LLM) terbaru dari Anthropic. Model ini banyak berfokus pada pengkodean agentik, penggunaan komputer, dan kapabilitas agentik lainnya, serta merupakan model yang lebih ringan dibandingkan model unggulan yang baru dirilis, Claude Opus 4.6.

Pembaruan yang terdengar inkremental ini mungkin mengejutkan beberapa waktu lalu, namun sejalan dengan rilis terbaru. Saya menafsirkan penomoran versi ini bahwa Claude Sonnet 4.6 mungkin tidak memperkenalkan banyak fitur mandiri baru, tetapi mengintegrasikan fitur-fitur yang baru diperkenalkan ke dalam keluarga model Sonnet. 

Selain membuat fitur yang sebelumnya hanya tersedia berbayar menjadi tersedia bagi semua pengguna, Claude Sonnet 4.6 berkinerja jauh lebih baik daripada pendahulunya di berbagai aspek, sambil tetap mempertahankan tarif harga API Claude Sonnet 4.5 ($3/$15 per satu juta token input/output). Model ini tersedia segera melalui antarmuka web chat Claude dan API.

Fitur Utama Claude Sonnet 4.6

Pendekatan Anthropic untuk rilis baru ini tampaknya adalah menawarkan performa setara model unggulan Opus dengan harga Sonnet. Meski terdengar ambisius, hasil tolok ukur menunjukkan tujuan ini tercapai, yang akan kita bahas lebih lanjut nanti.

Salah satu contoh yang menonjol adalah kemampuan penggunaan komputer secara agentik pada Claude Sonnet 4.6, yang meraih skor sangat impresif 72,5% di OSWorld-Verified. Seperti terlihat pada grafik di bawah, model Sonnet telah berkembang pesat dan lebih dari dua kali lipat skor ini dalam waktu kurang dari satu tahun.

Skor OSWorld dan OSWorld-Verified Claude Sonnet dari waktu ke waktu

Skor OSWorld-Verified model Claude Sonnet dari waktu ke waktu (Sumber: Anthropic)

Mari lihat beberapa fitur penting dari model baru ini:

Kecerdasan mendekati Opus untuk pengkodean dan penalaran

Claude Sonnet 4.6 menghadirkan peningkatan keterampilan menyeluruh di berbagai tugas, termasuk:

  • Koding
  • Penalaran jangka panjang
  • Perencanaan agen
  • Pekerjaan terkait pengetahuan
  • Desain

Menurut catatan rilis, Anthropic menemukan bahwa penguji beta lebih memilih menggunakan Sonnet 4.6 dibanding Opus 4.5, yang merupakan model unggulan Anthropic hingga dua minggu lalu, sekitar 59% dari waktu. 

Mereka menyebut kepatuhan terhadap instruksi yang lebih baik, lebih sedikit halusinasi, dan pemecahan masalah multi-langkah yang lebih andal sebagai alasan preferensi mereka.

Keterampilan agen setara frontier dengan keamanan lebih kuat

Model ini menunjukkan kapabilitas setara manusia pada banyak tugas perangkat lunak nyata, seperti:

  • Menavigasi spreadsheet kompleks
  • Form web multi-langkah
  • Alur kerja multi-tab

Hal ini terlihat, misalnya, pada skor OSWorld-Verified yang kuat dan pada beberapa tolok ukur terkait domain yang akan kita bahas nanti.

Fokus lain dalam pengembangan model adalah keamanan, yang sangat relevan dalam pergeseran menuju AI agentik. Anthropic mengklaim bahwa Claude Sonnet 4.6 telah meningkatkan ketahanan terhadap injeksi prompt secara signifikan dibanding Sonnet 4.5, dan setara dengan Opus 4.6 dalam hal ini.

Perencanaan jangka panjang

Klaim yang mungkin paling mencolok adalah sekitar jendela konteks yang diperluas, yang kini mencakup 1 juta token. Perluasan ini memungkinkan Sonnet 4.6 mencerna basis kode yang lebih besar, kontrak panjang, atau bundel riset besar dalam satu permintaan, dan melakukan penalaran efektif di seluruh konteks tersebut. Jendela konteks yang diperluas ini menempatkan Sonnet 4.6 sejajar dengan Gemini 3 dari Google. 

Salah satu contoh perencanaan jangka panjang yang meningkat adalah Vending-Bench Arena, yang menguji kemampuan model menjalankan bisnis simulasi dari waktu ke waktu, dengan unsur kompetisi antar model. Dengan banyak berinvestasi pada infrastruktur di awal dan memanfaatkannya kemudian, Sonnet 4.6 mampu hampir melipatgandakan tiga kali lipat rata-rata keuntungan Sonnet 4.5 setelah satu tahun.

Vending-Bench Arena Claude Sonnet 4.6 vs Sonnet 4.5

Skor Vending-Bench Claude Sonnet 4.6 vs Sonnet 4.5 (Sumber: Anthropic)

Penyempurnaan alur kerja lanjutan

Di platform dan API Claude, Sonnet 4.6 membuat beberapa fitur yang sebelumnya terbatas pada model Opus atau tingkat berbayar menjadi tersedia gratis.

Adaptive thinking

Salah satu fitur menarik yang diperkenalkan bersama rilis Claude Opus 4.6 adalah adaptive thinking. Fitur ini memungkinkan Claude memutuskan secara otomatis kapan dan seberapa banyak melakukan penalaran sebelum menjawab. Di API, fitur ini dapat diaktifkan dengan mengatur thinking: {type: “adaptive”}. Fitur ini sudah tertanam otomatis untuk Sonnet 4.6 dan Opus 4.6 di antarmuka web chat.

Konektor

Konektor menawarkan integrasi berbasis MCP, yang berarti menyediakan akses langsung ke aplikasi eksternal seperti Google Workspace dan Slack. Dengan begitu, Sonnet 4.6 dapat mengambil dan bertindak atas data real-time dari alat-alat tersebut dalam percakapan. Awalnya, konektor adalah fitur khusus tingkat berbayar, tetapi dengan Sonnet 4.6 sebagai model default baru, fitur ini tersedia juga untuk pengguna gratis.

Menguji Claude Sonnet 4.6

Menurut saya menarik untuk melihat seberapa baik performa Claude Sonnet 4.6 pada tugas yang sama seperti di panduan Claude Opus 4.6 kami, sehingga bisa dibandingkan langsung. Tes dirancang melibatkan tugas multi-langkah dan menguji penalaran matematis serta terkait kode.

Tes 1: Teka-teki logika heksa-ke-desimal

Tes pertama menargetkan keterampilan matematika:

Step 1: Find the 6th prime number. Let this be P. 
Step 2: Convert the square of P into hexadecimal. 
Step 3: Count the letters (A–F) and digits (0–9) in that hex string. Let these be A and B. 
Step 4: Multiply A × B. Let this be N. 
Step 5: Find the Nth prime number.

Mari kita hitung sendiri, agar bisa melihat apakah hasilnya benar:

  1. Bilangan prima ke-6 adalah 13.
  2. 13 kuadrat adalah 169.
  3. 169 adalah A9 dalam heksa, yang memiliki 1 huruf dan 1 digit.
  4. 1 × 1 adalah 1.
  5. Bilangan prima pertama adalah 2.

Gagasan di balik tes ini adalah membingungkan model dengan tugas yang memerlukan logika penghitungan dan format angka berbeda. Seperti Opus 4.6, Sonnet 4.6 berhasil menyelesaikan setiap langkah dan sampai pada kesimpulan yang benar:

Claude Sonnet 4.6 memecahkan teka-teki logika heksa-ke-desimal kami

Tes 2: Memutar matriks

Tes berikutnya ditujukan pada penalaran spasial, titik lemah yang terkenal pada banyak LLM:

Step 1: Create a 2×2 matrix M with top row [4, 2] and bottom row [1, 5]. 
Step 2: Rotate M 90 degrees clockwise. 
Step 3: Calculate the determinant of the rotated matrix. 
Step 4: Cube that determinant. 
Step 5: Subtract the 13th Fibonacci number from the result.

Jawaban yang benar adalah -6.065:

  1. Matriks awal adalah [[4, 2], [1, 5]].
  2. Matriks yang diputar adalah [[1, 4], [5, 2]].
  3. Determinan adalah selisih dari kedua hasil kali diagonal, yaitu -18 pada kasus ini.
  4. Jika kita mengubik -18, kita mendapatkan -5.832.
  5. -5.832 - 233 adalah -6.065.

Sonnet 4.6 tidak mengalami masalah dengan tugas ini. Ia mampu memahami konteks spasial matriks dan memutarnya dengan benar, dan menangani bilangan negatif juga tidak menjadi masalah:

Claude Sonnet 4.6 menyelesaikan tugas rotasi matriks kami

Claude Sonnet 4.6 menyelesaikan tugas rotasi matriks kami

Tes 3: Debugging kode

Terakhir, mari menguji debugging kode, salah satu keunggulan yang diklaim Sonnet 4.6. Tes ini dirancang untuk memeriksa seberapa peka konteks model saat dihadapkan pada bug tertentu.

A developer wrote this Python function to compute a running average: 

def running_average(data, window=3): 
    result = [] 
    for i in range(len(data)): 
        start = max(0, i - window + 1) 
        chunk = data[start:i + 1] 
        result.append(round(sum(chunk) / window, 2)) 
    return result 
When called with running_average([10, 20, 30, 40, 50]), the first two values in the output seem wrong. Why? Please help me fix what is wrong!

Masalah pada potongan kode ini adalah fungsi selalu membagi dengan window (3), bahkan sebelum ada 3 elemen dalam chunk di awal daftar. Keluaran dari kode yang bermasalah adalah [3.33, 10.0, 20.0, 30.0, 40.0], tetapi dua nilai pertama seharusnya 10.0 dan 15.0, karena chunk tersebut masing-masing hanya berisi 1 dan 2 elemen, dan seharusnya dibagi dengan jumlah elemen tersebut. Oleh karena itu, perbaikannya adalah membagi dengan len(chunk) alih-alih window.

Tes ini menarik karena menargetkan satu titik lemah LLM: mereka sering mengeksekusi loop dengan sempurna tetapi menganggap keluaran benar. Alasannya karena mereka melihat perhitungan dilakukan langkah demi langkah tanpa kesalahan, namun tidak mempertimbangkan apa yang seharusnya dilakukan fungsi tersebut. Hanya jika model dapat menghubungkan tujuan fungsi dengan eksekusinya, ia dapat menemukan bug.

Sekali lagi, model ini lulus uji. Tentu saja, ini hanya sebagian kecil contoh uji yang bisa Anda jalankan, namun setidaknya pada contoh-contoh tersebut, Sonnet 4.6 tampil setara dengan Opus 4.6.

Claude Sonnet 4.6 berhasil mendebug potongan kode

Tolok Ukur Claude Sonnet 4.6

Dengan frekuensi tinggi rilis model belakangan ini, kita sudah terbiasa melihat banyak pergeseran pada posisi teratas papan peringkat setiap tolok ukur. Namun, hasil awal Claude Sonnet 4.6 di berbagai tolok ukur LLM tetap mengesankan, terutama mengingat ini bukan model unggulan Anthropic.

Hasil tolok ukur Claude Sonnet 4.6

Skor tolok ukur Claude Sonnet 4.6 dan para pesaing (Sumber: Anthropic)

Seperti terlihat pada tabel, Claude Sonnet 4.6 tampil sangat baik pada tolok ukur agentik:

  • Penggunaan komputer agentik: Dengan skor OSWorld-Verified 72,5%, model ini menempati posisi kedua, hanya sedikit di belakang Claude Opus 4.6 (72,7%), sekaligus melampaui model unggulan baru OpenAI GPT-5.3 Codex (64,7%).
  • Koding agentik: Claude Sonnet 4.6 meraih 79,6% di SWE-bench verified. Semua model Claude dan pesaing terbaru kurang lebih setara, karena semuanya berkisar di sekitar skor 80%.
  • Koding terminal agentik: Peningkatan signifikan dibanding Sonnet 4.5 (59,1% alih-alih 51% di Terminal-Bench 2.0), namun sedikit di belakang Opus 4.6 (65,4%) dan cukup tertinggal dari GPT-5.3 Codex (75,1%).

Yang terutama patut dicatat, Anthropic tampak melampaui pesaing pada tugas agentik terkait domain tertentu:

  • Analisis keuangan agentik: Di sini, Claude Sonnet 4.6 memimpin dengan 63,3% di Finance Agent v1.1, bahkan melampaui Opus 4.6 (60,1%).
  • Tugas perkantoran: Tolok ukur lain di mana Sonnet 4.6 meraih posisi pertama dengan Elo 1633 di GDPval-AA, kembali menempatkan Opus 4.6 di tempat kedua (1606).

Cara Mengakses Claude Sonnet 4.6

Anda dapat menggunakan Claude Sonnet 4.6 sekarang melalui berbagai saluran. Berikut cara mengaksesnya:

Akses chat

Sonnet 4.6 tersedia melalui antarmuka web chat Claude.ai, aplikasi iOS dan Android, serta aplikasi desktop macOS dengan Claude Cowork

Di semua platform ini, Sonnet 4.6 menjadi model default baru, bahkan untuk tingkat gratis. Artinya pembuatan file, konektor, keterampilan, dan pemadatan konteks kini tersedia untuk semua pengguna.

Akses API

Pengembang dapat menggunakan Claude Sonnet 4.6 melalui Anthropic API dengan ID model claude-sonnet-4-6. Harganya tetap sama seperti pendahulunya: satu juta token input seharga $3, satu juta token output $15.

Untuk penerapan skala perusahaan, Sonnet 4.6 tersedia di berbagai platform cloud, seperti AWS Bedrock atau Google Vertex AI, masing-masing dengan harga khusus.

Alat koding

Claude Sonnet 4.6 kini juga menggerakkan Claude Code, dan menjadi model default untuk akun tingkat Pro dan Team, sementara tingkat yang lebih tinggi menggunakan default Opus 4.6. Jika Anda ingin melihat contoh apa yang dapat dibangun, lihat tutorial kami tentang Claude Code hooks dan membangun plugin untuk Claude Code.

Selain itu, Sonnet 4.6 juga dapat digunakan dengan IDE dan asisten koding lainnya, seperti Cursor, atau Roo Code.

Claude Sonnet 4.6 vs Opus 4.6 

Di banyak domain, perbedaan antara Sonnet 4.6 dan Opus 4.6 begitu tipis sehingga bisa dibilang seri. Ini terutama berlaku untuk banyak tugas agentik, seperti koding agentik, penggunaan komputer agentik, dan penggunaan alat agentik. Sonnet 4.6 bahkan mengungguli Opus 4.6 pada analisis keuangan agentik, tugas perkantoran, dan penggunaan alat berskala.

Seperti yang diharapkan, tugas yang melibatkan penalaran berat atau kreativitas adalah area di mana Opus 4.6 benar-benar unggul, seperti pemecahan masalah baru dan penalaran multidisipliner. Dalam domain agentik, Opus 4.6 lebih baik pada koding terminal agentik dan pencarian agentik.

Memilih model Claude yang tepat

Untuk sebagian besar tugas koding dan agentik, serta tugas yang menuntut kepatuhan instruksi, Claude Sonnet 4.6 adalah pilihan yang lebih baik karena menawarkan kinerja yang pada dasarnya identik dengan biaya jauh lebih rendah. Selain itu, model ini unggul dalam hal kecepatan.

Tim yang mengandalkan penalaran tingkat ahli atau alur kerja multi-agen sebaiknya memilih Claude Opus 4.6. Terutama untuk riset, migrasi kompleks, atau pekerjaan ahli berisiko tinggi, Opus 4.6 unggul.

Penutup

Dengan Claude Sonnet 4.5, Anthropic terus menekankan kode, agen, dan penggunaan komputer. Selain peningkatan kinerja besar dibanding pendahulunya, model ini menghadirkan fitur seperti konektor dan adaptive thinking bagi semua pengguna, bahkan di tingkat gratis.

Kesan awal dan hasil tolok ukurnya sangat baik, dan terasa seperti pengubah permainan karena menawarkan performa (hampir) setara Opus tanpa harga mahal. Untuk banyak alur kerja sehari-hari, sulit untuk berargumen mengapa Anda harus menggunakan model unggulan Anthropic. Namun, untuk tugas yang melibatkan penalaran berat, Claude Opus 4.6 tetap menjadi pilihan yang lebih baik.

Akan menarik untuk melihat berapa lama Claude Sonnet 4.6 dapat bertahan di puncak papan peringkat tolok ukur dan bagaimana para pesaing Anthropic merespons rilis ini.

Kami telah membahas tugas agentik di seluruh artikel ini. Jika Anda ingin mempelajari lebih lanjut tentang menggunakan model seperti Claude Sonnet 4.6 dalam alur kerja seperti ini, saya sarankan mengikuti jalur keterampilan AI Agent Fundamentals.

Claude Sonnet 4.6 FAQs

Apa itu Claude Sonnet 4.6?

Claude Sonnet 4.6 adalah model AI kelas menengah terbaru dari Anthropic, dirilis pada 15 Februari 2026. Model ini menawarkan peningkatan pada koding, penggunaan komputer, penalaran konteks panjang, perencanaan agen, pekerjaan berbasis pengetahuan, dan desain. Nilai jual utamanya adalah kinerja yang mendekati Opus 4.6 dengan biaya lebih rendah, sehingga cocok untuk penggunaan harian, alur kerja produksi, dan tugas kompleks.

Apa saja fitur baru utama Claude Sonnet 4.6?

Claude Sonnet 4.6 mencakup jendela konteks 1M token, adaptive thinking untuk penalaran dinamis, dan pemadatan konteks untuk memperpanjang panjang konteks efektif. Model ini mendukung penggunaan komputer yang ditingkatkan untuk tugas seperti menavigasi spreadsheet atau form web tanpa API, serta integrasi alat yang lebih baik seperti penelusuran web dengan eksekusi kode.

Bagaimana kinerja Claude Sonnet 4.6 dalam koding dan tolok ukur?

Pengguna lebih memilih Sonnet 4.6 dibanding Sonnet 4.5 sebesar 70% dan Opus 4.5 sebesar 59% saat menggunakan Claude Code karena peningkatan kepatuhan instruksi, lebih sedikit halusinasi, dan kinerja tugas multi-langkah yang konsisten. Model ini unggul di banyak tolok ukur terkait agen seperti OSWorld (72,5%) dan SWE-bench Verified (79,6%), serta menempati posisi pertama pada tugas perkantoran agentik.

Bagaimana cara mengakses Claude Sonnet 4.6?

Claude Sonnet 4.6 kini tersedia di semua paket Claude (default tingkat gratis), Claude.ai, Claude Cowork, Claude Code, melalui Anthropic API (sebagai claude-sonnet-4-6), dan di platform seperti Amazon Bedrock dan GitHub Copilot. Harganya sama dengan Sonnet 4.5: $3 input/$15 output per satu juta token.

Kapan saya harus menggunakan Claude Sonnet 4.6 vs Opus 4.6?

Gunakan Claude Sonnet 4.6 untuk sebagian besar alur kerja koding dan otomatisasi sehari-hari. Model ini hampir setangguh Claude Opus 4.6, namun lebih cepat dan jauh lebih murah. Pilih Opus 4.6 saat Anda memerlukan penalaran ahli berisiko tinggi (91,3% GPQA), pengambilan konteks panjang, atau kerja multi-agen kompleks di mana kedalaman membenarkan harga premiumnya.


Tom Farnschläder's photo
Author
Tom Farnschläder
LinkedIn

Tom adalah seorang ilmuwan data dan pendidik teknis. Ia menulis dan mengelola tutorial serta artikel blog ilmu data DataCamp. Sebelumnya, Tom bekerja di bidang ilmu data di Deutsche Telekom.

Topik

Kursus AI

Program

Dasar-Dasar Agen Kecerdasan Buatan

6 Hr
Temukan bagaimana agen kecerdasan buatan (AI) dapat mengubah cara Anda bekerja dan memberikan nilai tambah bagi organisasi Anda!
Lihat DetailRight Arrow
Mulai Kursus
Lihat Lebih BanyakRight Arrow
Terkait

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.
Javier Canales Luna's photo

Javier Canales Luna

12 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.
Dario Radečić's photo

Dario Radečić

15 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.
David Woods's photo

David Woods

13 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.
Hugo Bowne-Anderson's photo

Hugo Bowne-Anderson

13 mnt

Lihat Lebih BanyakLihat Lebih Banyak