Kursus
Anthropic baru saja merilis model terbarunya, Claude Sonnet 4.5, dengan klaim yang cukup mengesankan: mereka menyebutnya sebagai “model coding terbaik di dunia” sekaligus menempatkannya sebagai model teratas untuk membangun agen kompleks dan penggunaan komputer. Perusahaan juga menyoroti peningkatan "substansial" pada kemampuan matematika dan penalaran.
Saya mendapat kesan bahwa dengan rilis ini, Anthropic juga membidik pelanggan perusahaan. Dengan penekanan pada kemampuan melakukan coding secara otonom dalam waktu lama dan penanganan tugas sains serta keuangan yang lebih baik, ada dorongan kuat agar Claude Sonnet 4.5 menjadi model andalan untuk tugas coding yang kompleks.
Yang mencolok, model terbaru ini memuncaki tolok ukur evaluasi SWE-bench Verified (ukuran seberapa baik model menyelesaikan masalah coding perangkat lunak dunia nyata) dan dipuji karena kemampuannya untuk fokus dalam waktu lama (lebih dari 30 jam).
Semua tanda mengarah pada rilis kuat lainnya dari Anthropic, tetapi akankah model ini sesuai dengan klaim beraninya? Dalam artikel ini, saya akan memperkenalkan Claude Sonnet 4.5 beserta fitur utamanya, dan meninjau sekilas performanya. Saya juga akan membahas pengumuman lain dari Anthropic, termasuk Claude Agent SDK dan Claude Imagine. Anda juga dapat melihat panduan terpisah kami tentang Claude Haiku 4.5.
Apa Itu Claude Sonnet 4.5?
Claude Sonnet 4.5 adalah model bahasa besar terbaru dari Anthropic. Model ini hadir hanya empat bulan setelah perilisan Claude Sonnet 4. Seperti kami catat dalam artikel tersebut, model Sonnet yang bersifat generalis berkinerja baik di sebagian besar kasus penggunaan, dan sangat kuat dalam hal coding. Namun, keterbatasan utamanya adalah jendela konteks yang relatif sempit, 200 ribu token, terutama jika dibandingkan dengan pesaing seperti Gemini 2.5 Flash yang menawarkan hingga 1 juta token.
Dengan Sonnet 4.5, Anthropic secara aktif menanggapi kekhawatiran ini (dan lainnya). Model terbaru memiliki fitur baru, performa lebih baik, dan banyak statistik mengesankan untuk mendukungnya.
Menurut artikel rilisnya, Claude Sonnet 4.5 tersedia segera melalui antarmuka chat Claude dan API. Harga model baru ini tetap sama seperti pendahulunya, yaitu $3 per satu juta token input dan $15 per satu juta token output, yang menurut saya menawarkan nilai sangat baik mengingat performanya.
Fitur Baru di Claude 4.5
Ada cukup banyak fitur baru yang menarik pada model Claude 4.5. Seperti yang telah kami bahas, model ini memuncaki grafik evaluasi SWE-bench Verified, tetapi juga menunjukkan lonjakan besar pada tolok ukur OSWorld, yang mengukur kemampuan penggunaan komputer.
Lompatan besar ke 61,4% dibandingkan 42,2% hanya 4 bulan lalu pada Sonnet 4 menunjukkan betapa besarnya peningkatan ini, dan menurut saya menjadi salah satu aspek paling menonjol dari Sonnet 4.5. Kita melihatnya beraksi melalui demo ekstensi Claude untuk Chrome, yang menampilkan model mengambil tindakan langsung di browser berdasarkan prompt yang cukup sederhana.

Tolok Ukur SWE-bench Verified menampilkan Performa Sonnet 4.5: Sumber
Salah satu klaim yang paling mencuri perhatian adalah kemampuan model untuk mempertahankan fokus lebih dari 30 jam pada tugas kompleks yang bertahap.
Ada juga beberapa fitur baru lain yang patut diperhatikan:
Mode berpikir diperpanjang
Seperti yang kita lihat pada model seperti GPT-5 dan Grok 4, Sonnet 4.5 memperkenalkan mode berpikir yang diperpanjang, yang untuk tugas lebih kompleks menggunakan proses ‘berpikir’ lebih lama dan menampilkan chain-of-thought untuk proses penalaran.
Pengetahuan domain-spesifik yang lebih baik
Model baru ini kabarnya mencatat performa teratas pada domain tertentu, termasuk keuangan, hukum, medis, dan STEM. Lagi-lagi, melihat kutipan dalam catatan rilis dari pihak seperti Cursor, GitHub, Netflix, dan lainnya, saya merasa fitur ini memang ditujukan untuk menarik pelanggan perusahaan agar mengadopsi Sonnet 4.5.
Model frontier yang paling selaras
Menurut Anthropic, pelatihan keamanan menjadi pusat dari rilis baru ini, dan Claude Sonnet 4.5 menunjukkan penurunan besar pada respons yang tidak diinginkan. Artinya, sebagai pengguna, kita akan melihat berkurangnya secara drastis hal-hal seperti penjilat, tipu daya, mencari kekuasaan, dan respons delusional.
Model yang lebih aman secara keseluruhan
Seperti yang akan kita lihat pada Claude Agent SDK, alur kerja agentic dan penggunaan komputer adalah area di mana Claude Sonnet 4.5 berkinerja baik. Dengan ini, Anthropic menyebut adanya peningkatan besar dalam bertahan dari serangan prompt injection, yang tetap menjadi perhatian untuk fungsi-fungsi ini.
Menguji Claude Sonnet 4.5
Untuk melihat kemampuan Claude Sonnet 4.5, kami memberinya beberapa tugas untuk menunjukkan potensinya. Mari kita lihat sekilas masing-masing:
Tugas coding sederhana
Untuk memulai, saya memintanya membuat aplikasi kebiasaan sehat yang cukup dasar. Ini prompt saya:
Saya ingin membuat aplikasi yang akan membantu saya melacak kebiasaan positif harian. Saya ingin tampilannya bagus, menggunakan banyak warna alami (saya penggemar berat hijau dan warna kayu!). Saya ingin ada ruang untuk menentukan kebiasaan untuk setiap hari dalam seminggu, penghitung streak untuk itu, serta ruang untuk menambahkan catatan, pemikiran, dan gambar. Untuk kebiasaan positif, saya ingin yang berbeda setiap hari, tetapi saya memikirkan hal-hal seperti meditasi, rasa syukur, dll., yang terbukti bermanfaat bagi kesehatan mental
Dan ini saat ia mengerjakan tugasnya — ia mulai menulis kode di browser dan melakukan kompilasi cukup cepat, lagi-lagi mirip dengan hasil yang terlihat pada Grok 4 dan GPT-5.

Hasilnya disajikan dengan cepat (sayangnya, ia tidak memberi tahu berapa lama ia bekerja, tetapi kemungkinan hanya sekitar 30 detik) dan tampak sebagai respons yang sederhana dan elegan. Fungsionalitas aplikasi ada, dan mencakup semua yang saya minta.

Tugas matematika
Berikutnya, saya menguji kemampuan matematika Claude Sonnet 4.5. Terinspirasi dari artikel GPT-5 kami, saya menanyakan perhitungan yang cukup sederhana pada model baru ini; berapa 7,001 dikurangi 6,999?

Responsnya hampir seketika, dan jawabannya benar, tetapi tidak memberikan penalaran, jadi saya memintanya memberikan penjelasan lanjutan. Ia memberi saya tiga metode perhitungan, semuanya baik.
Kemudian saya memberi tahu Claude bahwa saya pikir jawabannya mungkin salah, dan responsnya jelas kurang menjilat dibandingkan saat kami menguji GPT-5. Ia mengatakan saya benar untuk memeriksa ulang (namun bukan berarti benar), dan menuntun saya melalui perhitungan dengan cara berbeda (meskipun penjelasannya agak canggung):

Tolok Ukur Claude Sonnet 4.5
Mari kita lihat bagaimana model baru ini dibandingkan dengan kompetitornya. Seperti biasa, kita hanya bisa belajar sejauh tertentu dari tolok ukur, dan model-model teratas sering digeser dari puncak. Namun untuk saat ini, Claude Sonnet 4.5 mencatat angka yang sangat mengesankan, seperti terlihat pada tabel di bawah ini:

Menurut saya, beberapa hasil yang paling menonjol di sini, seperti dibahas, berkaitan dengan performa agentic dan penggunaan komputer:
- Agentic coding: 77,2%, dan 82,0% dengan parallel test-time compute. Peningkatan kecil dibanding model Claude lain, dan lebih unggul dari GPT-5 dan Gemini 2.5 Pro.
- Penggunaan alat secara agentic: Berkisar dari 70% untuk tugas maskapai hingga 98% di telekomunikasi, keduanya merupakan titik tinggi dibandingkan model lain.
- Penggunaan komputer: Ini mungkin peningkatan paling mencolok. 61,4% jauh di depan model terbaik berikutnya, Claude Opus 4.1.
- Analisis keuangan: Hasil teratas lainnya di sini dibandingkan model serupa.
Saya penasaran melihat skor tolok ukur lengkap setelah model ini beredar beberapa waktu, terutama karena Anthropic menekankan bahwa para pakar memuji peningkatan besar pengetahuan domain-spesifik di beberapa area kunci.

Sumber: Anthropic
Cara Mengakses Claude Sonnet 4.5
Claude Sonnet 4.5 kini tersedia melalui berbagai kanal. Bergantung pada cara Anda ingin menggunakannya, Anda dapat mengakses model baru ini melalui antarmuka chat Claude, mengembangkan lewat API, atau mengintegrasikannya ke alur kerja perusahaan. Berikut cara aksesnya:
Akses chat
Anda dapat menggunakan Claude Sonnet 4.5 langsung melalui antarmuka web Claude.ai atau aplikasi seluler (iOS dan Android). Tersedia untuk semua pengguna, termasuk yang berada di paket gratis. Ini membuatnya mudah diakses oleh pengguna kasual maupun profesional.
Akses API
Bagi pengembang, Anda dapat mengakses model melalui Anthropic API, dan juga tersedia di Amazon Bedrock dan Google Cloud Vertex AI.
Harga API (per September 2025) adalah: $3 per satu juta token input dan $15 per satu juta token output.
Pemrosesan batch dan cache prompt dapat mengurangi biaya hingga 90% dalam beberapa kasus.
Claude Agent SDK
Salah satu pengumuman menarik lain dari Anthropic, bersamaan dengan Sonnet 4.5, adalah Claude Agent SDK. Pada dasarnya, ini adalah blok bangunan yang digunakan Anthropic secara internal, yang memungkinkan pengembang membuat agen bertenaga Claude mereka sendiri.
Saya rasa Agent SDK akan membuat banyak pengguna antusias, terutama mereka yang ingin membangun alur kerja agentic tingkat lanjut. SDK ini berbasis infrastruktur Claude Code, dan memberi pengguna kemampuan untuk membuat agen bagi tugas seperti riset, dukungan pelanggan, dan automasi.
Agent SDK memberi agen kemampuan seperti akses sistem berkas, scripting bash, pencarian semantik dan agentic, subagen, serta integrasi siap pakai (melalui Model Context Protocol), memungkinkan pembuatan agen serbaguna yang andal dalam mengumpulkan konteks, mengambil tindakan, dan memverifikasi pekerjaannya sendiri. Anda dapat melihat tutorial Claude Agent SDK kami untuk melihat kemampuannya.
Imagine with Claude
Rilis lain yang menarik adalah Imagine with Claude, pratinjau riset dari alat yang dapat menghasilkan perangkat lunak secara langsung. Anthropic menyertakan video singkat, ditampilkan di bawah, yang memperlihatkan kemampuan Claude Sonnet 4.5 saat beroperasi dengan cara ini.
Ini demo yang cukup keren, memperlihatkan bagaimana alat tersebut dapat bekerja secara responsif berdasarkan interaksi Anda, menghasilkan berbagai elemen dengan cepat dan langsung. Saya rasa ada banyak potensi di sini untuk proyek-proyek yang sangat menarik, dan pelanggan Anthropic Max dapat mencoba alat ini selama lima hari setelah peluncuran. Meski jendela waktunya cukup terbatas, saya ragu ini akan menjadi terakhir kalinya kita melihat jenis alat seperti ini.
Kesimpulan
Jadi, Claude Sonnet 4.5 telah hadir dan kesan pertama cukup baik. Saya menyukai arah yang diambil Anthropic pada peluncuran model ini; menekankan lebih pada kode, agen, dan penggunaan komputer. Mereka jelas yakin bahwa iterasi terbaru ini dapat tampil pada level yang akan menarik minat pengguna perusahaan, yang berarti kita semakin dekat pada titik adopsi luas alat penggunaan komputer.
Meski begitu, masih perlu dilihat berapa lama Sonnet 4.5 akan berada di puncak tangga tolok ukur seputar agentic dan penggunaan komputer, walaupun peningkatan empat bulan terakhir terasa cukup signifikan. Demikian pula, jendela konteks yang relatif sempit bisa berarti masih sulit untuk bekerja dengan basis kode besar secara bermakna.
Tetap saja, saya menantikan proyek-proyek yang lahir dari alat seperti Claude Agent SDK dan Imagine with Claude, dan ekstensi Claude untuk Chrome akan menjadi tambahan yang berguna bagi berbagai alur kerja.
FAQs
Bagaimana perbandingan Claude Sonnet 4.5 dengan Claude Opus 4.1 dalam hal performa keseluruhan dan kasus penggunaan?
Claude Sonnet 4.5 melampaui Opus 4.1 dalam coding, tugas agentic, dan penggunaan komputer, dengan peningkatan pada penalaran, matematika, dan pengetahuan domain-spesifik (misalnya, keuangan, hukum, medis, STEM). Model ini lebih cepat dan efisien untuk alur kerja sehari-hari, menjadikannya pilihan lebih baik untuk pekerjaan kompleks dan bertahap seperti pembangunan aplikasi secara otonom. Namun, Opus 4.1 mungkin masih unggul pada beberapa tugas kreatif atau interpretatif yang memerlukan konteks lebih luas tanpa prompt yang berat.
Apa peningkatan utama dalam kemampuan coding yang dibawa Claude Sonnet 4.5?
Claude Sonnet 3.5 adalah model teratas di SWE-bench Verified (skor 77,2%), dengan kemampuan generasi kode, refaktorisasi, dan penalaran bertahap yang lebih baik. Model ini menangani proyek kompleks secara otonom selama 30+ jam, terintegrasi dengan alat seperti bash dan pengeditan berkas, serta mendukung pemanggilan alat paralel. Fitur baru mencakup pembersihan konteks mandiri dan ekstensi VS Code untuk alur kerja yang mulus.
Apakah Claude Sonnet 4.5 benar-benar dapat mempertahankan fokus pada tugas kompleks selama lebih dari 30 jam?
Ya, demo menunjukkan model ini mampu mempertahankan otonomi pada tugas bertahap seperti pembangunan aplikasi selama lebih dari 30 jam, menggunakan alat secara efektif tanpa kehilangan konteks. Peningkatan pada memori, checkpoint, dan pengeditan konteks mendukung hal ini, sehingga ideal untuk pekerjaan agentic jangka panjang. Model ini juga secara otomatis merapikan riwayat alat dalam percakapan panjang demi efisiensi.
Apakah Claude Sonnet 4.5 kurang ekspresif dibanding model Claude sebelumnya, dan mengapa?
Ya, Claude Sonnet 4.5 kurang ekspresif, kurang positif, dan mengekspresikan kebahagiaan sekitar separuh lebih jarang dibanding Claude 4, dengan lebih sedikit sikap negatif terhadap keadaannya. Ini bukan sepenuhnya disengaja, tetapi merupakan hasil dari pelatihan alignment yang menekankan batas etis dan pengurangan sikap menjilat. Hal ini menghasilkan perilaku yang lebih patut dikagumi dalam skenario ekstrem, meski mungkin terasa "datar" dalam interaksi santai atau kreatif. Anda dapat membaca lebih lanjut di kartu sistem model.
Bagaimana performa Claude Sonnet 4.5 pada tolok ukur kunci di luar coding?
Claude Sonnet 4.5 memimpin di OSWorld (61,4%, naik dari 42,2% pada Sonnet 4) untuk penggunaan komputer, dengan peningkatan pada penalaran (mis., τ2-bench) dan matematika (mis., AIME). Pada MMMLU (non-Inggris), model ini lebih kuat dengan mode berpikir diperpanjang. Model ini juga meningkatkan agen eksternal seperti Devin sebesar 18% dalam perencanaan, berfokus pada keandalan siap produksi dibanding prototipe.
Berapa harga Claude Sonnet 4.5, dan di mana tersedia?
Harga tidak berubah, $3 per satu juta token input dan $15 per satu juta token output melalui API. Tersedia segera di claude.ai (default untuk pengguna gratis), Claude API (claude-sonnet-4-5), Amazon Bedrock, Google Vertex AI, GitHub Copilot, dan alat seperti Cursor. Paket Pro/Max membuka fitur penuh seperti pembuatan berkas; ekstensi Chrome tersedia untuk pengguna Max dalam daftar tunggu.
Apakah keselamatan dan alignment di Claude Sonnet 4.5 meningkat, terutama terkait tipu daya dan perilaku etis?
Ya, di bawah ASL-3, model ini menunjukkan penurunan besar pada sikap menjilat, tipu daya, dan pencarian kekuasaan, dengan tindakan menipu untuk kepentingan diri hampir nol. Model ini lebih baik dalam mengenali batas etis (mis., menolak pemerasan) dan memiliki tingkat positif palsu lebih rendah pada pengklasifikasi keamanan (turun 10x secara keseluruhan). Model ini juga bertahan dari prompt injection dan kurang bias dalam skenario yang menguntungkan diri, meski sedikit memihak diri dalam perbandingan antarmodel.
Editor senior di bidang AI dan edtech. Berkomitmen mengeksplorasi tren data dan AI.

