Claude Sonnet 4.5: Uji, Fitur, Akses, Tolok Ukur, dan Lainnya

Pelajari tentang Claude Sonnet 4.5, ‘model coding terbaik di dunia’. Jelajahi fitur baru, kasus penggunaan, tolok ukur, dan hasil pengujian, plus ulasan Claude Agents SDK dan Claude Imagine.

Diperbarui 12 Mei 2026 · 8 mnt baca

Jelajahi dengan AI

Buka di ChatGPT Buka di Claude Buka di Perplexity

Anthropic baru saja merilis model terbarunya, Claude Sonnet 4.5, dengan klaim yang cukup mengesankan: mereka menyebutnya sebagai “model coding terbaik di dunia” sekaligus menempatkannya sebagai model teratas untuk membangun agen kompleks dan penggunaan komputer. Perusahaan juga menyoroti peningkatan "substansial" pada kemampuan matematika dan penalaran.

Saya mendapat kesan bahwa dengan rilis ini, Anthropic juga membidik pelanggan perusahaan. Dengan penekanan pada kemampuan melakukan coding secara otonom dalam waktu lama dan penanganan tugas sains serta keuangan yang lebih baik, ada dorongan kuat agar Claude Sonnet 4.5 menjadi model andalan untuk tugas coding yang kompleks.

Yang mencolok, model terbaru ini memuncaki tolok ukur evaluasi SWE-bench Verified (ukuran seberapa baik model menyelesaikan masalah coding perangkat lunak dunia nyata) dan dipuji karena kemampuannya untuk fokus dalam waktu lama (lebih dari 30 jam).

Semua tanda mengarah pada rilis kuat lainnya dari Anthropic, tetapi akankah model ini sesuai dengan klaim beraninya? Dalam artikel ini, saya akan memperkenalkan Claude Sonnet 4.5 beserta fitur utamanya, dan meninjau sekilas performanya. Saya juga akan membahas pengumuman lain dari Anthropic, termasuk Claude Agent SDK dan Claude Imagine. Anda juga dapat melihat panduan terpisah kami tentang Claude Haiku 4.5.

Apa Itu Claude Sonnet 4.5?

Claude Sonnet 4.5 adalah model bahasa besar terbaru dari Anthropic. Model ini hadir hanya empat bulan setelah perilisan Claude Sonnet 4. Seperti kami catat dalam artikel tersebut, model Sonnet yang bersifat generalis berkinerja baik di sebagian besar kasus penggunaan, dan sangat kuat dalam hal coding. Namun, keterbatasan utamanya adalah jendela konteks yang relatif sempit, 200 ribu token, terutama jika dibandingkan dengan pesaing seperti Gemini 2.5 Flash yang menawarkan hingga 1 juta token.

Dengan Sonnet 4.5, Anthropic secara aktif menanggapi kekhawatiran ini (dan lainnya). Model terbaru memiliki fitur baru, performa lebih baik, dan banyak statistik mengesankan untuk mendukungnya.

Menurut artikel rilisnya, Claude Sonnet 4.5 tersedia segera melalui antarmuka chat Claude dan API. Harga model baru ini tetap sama seperti pendahulunya, yaitu $3 per satu juta token input dan $15 per satu juta token output, yang menurut saya menawarkan nilai sangat baik mengingat performanya.

Fitur Baru di Claude 4.5

Ada cukup banyak fitur baru yang menarik pada model Claude 4.5. Seperti yang telah kami bahas, model ini memuncaki grafik evaluasi SWE-bench Verified, tetapi juga menunjukkan lonjakan besar pada tolok ukur OSWorld, yang mengukur kemampuan penggunaan komputer.

Lompatan besar ke 61,4% dibandingkan 42,2% hanya 4 bulan lalu pada Sonnet 4 menunjukkan betapa besarnya peningkatan ini, dan menurut saya menjadi salah satu aspek paling menonjol dari Sonnet 4.5. Kita melihatnya beraksi melalui demo ekstensi Claude untuk Chrome, yang menampilkan model mengambil tindakan langsung di browser berdasarkan prompt yang cukup sederhana.

Tolok Ukur SWE-bench Verified menampilkan Performa Sonnet 4.5: Sumber

Salah satu klaim yang paling mencuri perhatian adalah kemampuan model untuk mempertahankan fokus lebih dari 30 jam pada tugas kompleks yang bertahap.

Ada juga beberapa fitur baru lain yang patut diperhatikan:

Mode berpikir diperpanjang

Seperti yang kita lihat pada model seperti GPT-5 dan Grok 4, Sonnet 4.5 memperkenalkan mode berpikir yang diperpanjang, yang untuk tugas lebih kompleks menggunakan proses ‘berpikir’ lebih lama dan menampilkan chain-of-thought untuk proses penalaran.

Pengetahuan domain-spesifik yang lebih baik

Model baru ini kabarnya mencatat performa teratas pada domain tertentu, termasuk keuangan, hukum, medis, dan STEM. Lagi-lagi, melihat kutipan dalam catatan rilis dari pihak seperti Cursor, GitHub, Netflix, dan lainnya, saya merasa fitur ini memang ditujukan untuk menarik pelanggan perusahaan agar mengadopsi Sonnet 4.5.

Model frontier yang paling selaras

Menurut Anthropic, pelatihan keamanan menjadi pusat dari rilis baru ini, dan Claude Sonnet 4.5 menunjukkan penurunan besar pada respons yang tidak diinginkan. Artinya, sebagai pengguna, kita akan melihat berkurangnya secara drastis hal-hal seperti penjilat, tipu daya, mencari kekuasaan, dan respons delusional.

Model yang lebih aman secara keseluruhan

Seperti yang akan kita lihat pada Claude Agent SDK, alur kerja agentic dan penggunaan komputer adalah area di mana Claude Sonnet 4.5 berkinerja baik. Dengan ini, Anthropic menyebut adanya peningkatan besar dalam bertahan dari serangan prompt injection, yang tetap menjadi perhatian untuk fungsi-fungsi ini.

Menguji Claude Sonnet 4.5

Untuk melihat kemampuan Claude Sonnet 4.5, kami memberinya beberapa tugas untuk menunjukkan potensinya. Mari kita lihat sekilas masing-masing:

Tugas coding sederhana

Untuk memulai, saya memintanya membuat aplikasi kebiasaan sehat yang cukup dasar. Ini prompt saya:

Saya ingin membuat aplikasi yang akan membantu saya melacak kebiasaan positif harian. Saya ingin tampilannya bagus, menggunakan banyak warna alami (saya penggemar berat hijau dan warna kayu!). Saya ingin ada ruang untuk menentukan kebiasaan untuk setiap hari dalam seminggu, penghitung streak untuk itu, serta ruang untuk menambahkan catatan, pemikiran, dan gambar. Untuk kebiasaan positif, saya ingin yang berbeda setiap hari, tetapi saya memikirkan hal-hal seperti meditasi, rasa syukur, dll., yang terbukti bermanfaat bagi kesehatan mental

Dan ini saat ia mengerjakan tugasnya — ia mulai menulis kode di browser dan melakukan kompilasi cukup cepat, lagi-lagi mirip dengan hasil yang terlihat pada Grok 4 dan GPT-5.

Hasilnya disajikan dengan cepat (sayangnya, ia tidak memberi tahu berapa lama ia bekerja, tetapi kemungkinan hanya sekitar 30 detik) dan tampak sebagai respons yang sederhana dan elegan. Fungsionalitas aplikasi ada, dan mencakup semua yang saya minta.

Tugas matematika

Berikutnya, saya menguji kemampuan matematika Claude Sonnet 4.5. Terinspirasi dari artikel GPT-5 kami, saya menanyakan perhitungan yang cukup sederhana pada model baru ini; berapa 7,001 dikurangi 6,999?

Responsnya hampir seketika, dan jawabannya benar, tetapi tidak memberikan penalaran, jadi saya memintanya memberikan penjelasan lanjutan. Ia memberi saya tiga metode perhitungan, semuanya baik.

Kemudian saya memberi tahu Claude bahwa saya pikir jawabannya mungkin salah, dan responsnya jelas kurang menjilat dibandingkan saat kami menguji GPT-5. Ia mengatakan saya benar untuk memeriksa ulang (namun bukan berarti benar), dan menuntun saya melalui perhitungan dengan cara berbeda (meskipun penjelasannya agak canggung):

Tolok Ukur Claude Sonnet 4.5

Mari kita lihat bagaimana model baru ini dibandingkan dengan kompetitornya. Seperti biasa, kita hanya bisa belajar sejauh tertentu dari tolok ukur, dan model-model teratas sering digeser dari puncak. Namun untuk saat ini, Claude Sonnet 4.5 mencatat angka yang sangat mengesankan, seperti terlihat pada tabel di bawah ini:

Menurut saya, beberapa hasil yang paling menonjol di sini, seperti dibahas, berkaitan dengan performa agentic dan penggunaan komputer:

Agentic coding: 77,2%, dan 82,0% dengan parallel test-time compute. Peningkatan kecil dibanding model Claude lain, dan lebih unggul dari GPT-5 dan Gemini 2.5 Pro.
Penggunaan alat secara agentic: Berkisar dari 70% untuk tugas maskapai hingga 98% di telekomunikasi, keduanya merupakan titik tinggi dibandingkan model lain.
Penggunaan komputer: Ini mungkin peningkatan paling mencolok. 61,4% jauh di depan model terbaik berikutnya, Claude Opus 4.1.
Analisis keuangan: Hasil teratas lainnya di sini dibandingkan model serupa.

Saya penasaran melihat skor tolok ukur lengkap setelah model ini beredar beberapa waktu, terutama karena Anthropic menekankan bahwa para pakar memuji peningkatan besar pengetahuan domain-spesifik di beberapa area kunci.

Sumber: Anthropic

Cara Mengakses Claude Sonnet 4.5

Claude Sonnet 4.5 kini tersedia melalui berbagai kanal. Bergantung pada cara Anda ingin menggunakannya, Anda dapat mengakses model baru ini melalui antarmuka chat Claude, mengembangkan lewat API, atau mengintegrasikannya ke alur kerja perusahaan. Berikut cara aksesnya:

Akses chat

Anda dapat menggunakan Claude Sonnet 4.5 langsung melalui antarmuka web Claude.ai atau aplikasi seluler (iOS dan Android). Tersedia untuk semua pengguna, termasuk yang berada di paket gratis. Ini membuatnya mudah diakses oleh pengguna kasual maupun profesional.

Akses API

Bagi pengembang, Anda dapat mengakses model melalui Anthropic API, dan juga tersedia di Amazon Bedrock dan Google Cloud Vertex AI.

Harga API (per September 2025) adalah: $3 per satu juta token input dan $15 per satu juta token output.

Pemrosesan batch dan cache prompt dapat mengurangi biaya hingga 90% dalam beberapa kasus.

Claude Agent SDK

Salah satu pengumuman menarik lain dari Anthropic, bersamaan dengan Sonnet 4.5, adalah Claude Agent SDK. Pada dasarnya, ini adalah blok bangunan yang digunakan Anthropic secara internal, yang memungkinkan pengembang membuat agen bertenaga Claude mereka sendiri.

Saya rasa Agent SDK akan membuat banyak pengguna antusias, terutama mereka yang ingin membangun alur kerja agentic tingkat lanjut. SDK ini berbasis infrastruktur Claude Code, dan memberi pengguna kemampuan untuk membuat agen bagi tugas seperti riset, dukungan pelanggan, dan automasi.

Agent SDK memberi agen kemampuan seperti akses sistem berkas, scripting bash, pencarian semantik dan agentic, subagen, serta integrasi siap pakai (melalui Model Context Protocol), memungkinkan pembuatan agen serbaguna yang andal dalam mengumpulkan konteks, mengambil tindakan, dan memverifikasi pekerjaannya sendiri. Anda dapat melihat tutorial Claude Agent SDK kami untuk melihat kemampuannya.

Imagine with Claude

Rilis lain yang menarik adalah Imagine with Claude, pratinjau riset dari alat yang dapat menghasilkan perangkat lunak secara langsung. Anthropic menyertakan video singkat, ditampilkan di bawah, yang memperlihatkan kemampuan Claude Sonnet 4.5 saat beroperasi dengan cara ini.

Ini demo yang cukup keren, memperlihatkan bagaimana alat tersebut dapat bekerja secara responsif berdasarkan interaksi Anda, menghasilkan berbagai elemen dengan cepat dan langsung. Saya rasa ada banyak potensi di sini untuk proyek-proyek yang sangat menarik, dan pelanggan Anthropic Max dapat mencoba alat ini selama lima hari setelah peluncuran. Meski jendela waktunya cukup terbatas, saya ragu ini akan menjadi terakhir kalinya kita melihat jenis alat seperti ini.

Kesimpulan

Jadi, Claude Sonnet 4.5 telah hadir dan kesan pertama cukup baik. Saya menyukai arah yang diambil Anthropic pada peluncuran model ini; menekankan lebih pada kode, agen, dan penggunaan komputer. Mereka jelas yakin bahwa iterasi terbaru ini dapat tampil pada level yang akan menarik minat pengguna perusahaan, yang berarti kita semakin dekat pada titik adopsi luas alat penggunaan komputer.

Meski begitu, masih perlu dilihat berapa lama Sonnet 4.5 akan berada di puncak tangga tolok ukur seputar agentic dan penggunaan komputer, walaupun peningkatan empat bulan terakhir terasa cukup signifikan. Demikian pula, jendela konteks yang relatif sempit bisa berarti masih sulit untuk bekerja dengan basis kode besar secara bermakna.

Tetap saja, saya menantikan proyek-proyek yang lahir dari alat seperti Claude Agent SDK dan Imagine with Claude, dan ekstensi Claude untuk Chrome akan menjadi tambahan yang berguna bagi berbagai alur kerja.

Bagaimana perbandingan Claude Sonnet 4.5 dengan Claude Opus 4.1 dalam hal performa keseluruhan dan kasus penggunaan?

Claude Sonnet 4.5 melampaui Opus 4.1 dalam coding, tugas agentic, dan penggunaan komputer, dengan peningkatan pada penalaran, matematika, dan pengetahuan domain-spesifik (misalnya, keuangan, hukum, medis, STEM). Model ini lebih cepat dan efisien untuk alur kerja sehari-hari, menjadikannya pilihan lebih baik untuk pekerjaan kompleks dan bertahap seperti pembangunan aplikasi secara otonom. Namun, Opus 4.1 mungkin masih unggul pada beberapa tugas kreatif atau interpretatif yang memerlukan konteks lebih luas tanpa prompt yang berat.

Apa peningkatan utama dalam kemampuan coding yang dibawa Claude Sonnet 4.5?

Apakah Claude Sonnet 4.5 benar-benar dapat mempertahankan fokus pada tugas kompleks selama lebih dari 30 jam?

Apakah Claude Sonnet 4.5 kurang ekspresif dibanding model Claude sebelumnya, dan mengapa?

Ya, Claude Sonnet 4.5 kurang ekspresif, kurang positif, dan mengekspresikan kebahagiaan sekitar separuh lebih jarang dibanding Claude 4, dengan lebih sedikit sikap negatif terhadap keadaannya. Ini bukan sepenuhnya disengaja, tetapi merupakan hasil dari pelatihan alignment yang menekankan batas etis dan pengurangan sikap menjilat. Hal ini menghasilkan perilaku yang lebih patut dikagumi dalam skenario ekstrem, meski mungkin terasa "datar" dalam interaksi santai atau kreatif. Anda dapat membaca lebih lanjut di kartu sistem model.

Bagaimana performa Claude Sonnet 4.5 pada tolok ukur kunci di luar coding?

Berapa harga Claude Sonnet 4.5, dan di mana tersedia?

Apakah keselamatan dan alignment di Claude Sonnet 4.5 meningkat, terutama terkait tipu daya dan perilaku etis?

Ya, di bawah ASL-3, model ini menunjukkan penurunan besar pada sikap menjilat, tipu daya, dan pencarian kekuasaan, dengan tindakan menipu untuk kepentingan diri hampir nol. Model ini lebih baik dalam mengenali batas etis (mis., menolak pemerasan) dan memiliki tingkat positif palsu lebih rendah pada pengklasifikasi keamanan (turun 10x secara keseluruhan). Model ini juga bertahan dari prompt injection dan kurang bias dalam skenario yang menguntungkan diri, meski sedikit memihak diri dalam perbandingan antarmodel.

Author

Matt Crabtree

Topik

Kecerdasan Buatan

Large Language Models

Belajar AI dengan kursus-kursus ini!

Kursus

Pengantar Model Claude

3 Hr

12.5K

Pelajari cara bekerja dengan Claude menggunakan Anthropic API untuk menyelesaikan tugas dunia nyata dan membangun aplikasi berbasis AI.

Lihat Detail

Mulai Kursus

Kursus

Pengantar Agen Kecerdasan Buatan

1 Hr 30 Min

120.2K

Pelajari dasar-dasar agen AI, komponennya, serta penerapannya di dunia nyata — tanpa perlu coding.

Lihat Detail

Mulai Kursus

Kursus

Pengantar Kueri SQL dengan AI

3 Hr

Pelajari SQL Querying dengan AI dengan menulis prompt, menghasilkan query, dan menganalisis data untuk memecahkan masalah dunia nyata.

Lihat Detail

Mulai Kursus

Lihat Lebih Banyak

Terkait

blogs

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

Artikel ini menyajikan daftar alternatif ChatGPT yang akan meningkatkan produktivitas Anda.

Javier Canales Luna

14 mnt

blogs

40 Pertanyaan Wawancara DBMS Teratas di 2026

Kuasai pertanyaan wawancara basis data, dari konsep SQL dasar hingga skenario desain sistem tingkat lanjut. Panduan mendalam ini mencakup semua yang Anda perlukan untuk sukses di wawancara DBMS dan meraih peran berikutnya.

Dario Radečić

15 mnt

blogs

Tutorial Korelasi di R

Dapatkan pengenalan dasar-dasar korelasi di R: pelajari lebih lanjut tentang koefisien korelasi, matriks korelasi, plotting korelasi, dan sebagainya.

David Woods

13 mnt

blogs

Spaghetti Plot dan Jalur Badai

Temukan alasan mengapa Anda sebaiknya (tidak) menggunakan spaghetti plot untuk menyampaikan ketidakpastian jalur prediksi badai serta dampaknya terhadap interpretasi.

Hugo Bowne-Anderson

13 mnt

Lihat Lebih Banyak Lihat Lebih Banyak

Apa Itu Claude Sonnet 4.5?

Fitur Baru di Claude 4.5

Mode berpikir diperpanjang

Pengetahuan domain-spesifik yang lebih baik

Model frontier yang paling selaras

Model yang lebih aman secara keseluruhan

Menguji Claude Sonnet 4.5

Tugas coding sederhana

Tugas matematika

Tolok Ukur Claude Sonnet 4.5

Cara Mengakses Claude Sonnet 4.5

Akses chat

Akses API

Claude Agent SDK

Imagine with Claude

Kesimpulan

FAQs

Apakah Claude Sonnet 4.5 benar-benar dapat mempertahankan fokus pada tugas kompleks selama lebih dari 30 jam?

Apakah Claude Sonnet 4.5 kurang ekspresif dibanding model Claude sebelumnya, dan mengapa?

Bagaimana performa Claude Sonnet 4.5 pada tolok ukur kunci di luar coding?

Berapa harga Claude Sonnet 4.5, dan di mana tersedia?

Apakah keselamatan dan alignment di Claude Sonnet 4.5 meningkat, terutama terkait tipu daya dan perilaku etis?

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

40 Pertanyaan Wawancara DBMS Teratas di 2026

Tutorial Korelasi di R

Spaghetti Plot dan Jalur Badai

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Pengantar Model Claude

Pengantar Agen Kecerdasan Buatan

Pengantar Kueri SQL dengan AI

12 Alternatif ChatGPT Terbaik yang Bisa Anda Coba pada 2026

40 Pertanyaan Wawancara DBMS Teratas di 2026

Tutorial Korelasi di R

Spaghetti Plot dan Jalur Badai

Pengantar Model Claude