Claude 4: Tests, Funktionen, Zugang, Benchmarks und mehr

Erfahre mehr über Claude Sonnet 4 und Claude Opus 4, ihre Funktionen, Anwendungsfälle, Benchmarks und Testergebnisse.

Aktualisiert 23. Mai 2025 · 8 Min. lesen

Anthropic hat gerade Claude 4veröffentlicht , das es in zwei Versionen gibt: Claude 4 Sonnet und Claude 4 Opus.

Claude Sonnet 4 ist ein generalistisches Modell, das für die meisten KI-Anwendungsfälle geeignet ist und besonders gut programmieren kann. Ich finde, es ist eines der besten Modelle, die du kostenlos nutzen kannst.

Claude Opus 4 ist für schlussfolgernde Aufgaben wie die agenturische Suche und langwierige Code-Workflows konzipiert. Anthropic nennt Opus 4 "das beste Codierungsmodell der Welt", aber ich finde diese Behauptung ein bisschen leer.

Ja, es ist derzeit der Spitzenreiter im SWE-bench Verified Benchmark. Aber mit einem Kontextfenster von nur 200K kann ich mir nicht vorstellen, dass es sehr große Codebasen sauber verarbeiten kann. Und seien wir ehrlich: Jeden Monat oder so kommt ein anderes, stärkeres Modell auf den Markt. Die Krone für ein paar Wochen zu beanspruchen, macht nicht viel Sinn.

Trotzdem ist Claude 4 immer noch eine sehr starke Veröffentlichung. Ich gehe mit dir die wichtigsten Details durch - Funktionen, Anwendungsfälle, Benchmarks -und führe auch ein paar eigene Tests durch.

Wir halten unsere Leserinnen und Leser mit The Median auf dem Laufenden, unserem kostenlosen Freitags-Newsletter, der die wichtigsten Meldungen der Woche aufschlüsselt. Melde dich an und bleibe in nur ein paar Minuten pro Woche auf dem Laufenden:

Claude Sonnet 4

Claude Sonnet 4 ist das kleinere Modell der Claude 4 Familie. Sie wurde für den allgemeinen Gebrauch entwickelt und ist für die meisten gängigen KI-Aufgaben gut geeignet - Programmieren, Schreiben, Beantworten von Fragen, Datenanalyse. Es ist auch für kostenlose Nutzer/innen verfügbar, was es für ein Modell dieser Qualität ungewöhnlich zugänglich macht.

Das Modell unterstützt ein 200K-Kontextfenster, das es ermöglicht, große Aufforderungen zu verarbeiten und die Kontinuität über lange Interaktionen aufrechtzuerhalten. Das ist nützlich für Anwendungsfälle wie die Analyse langer Dokumente, die Überprüfung von Codebases oder die Erstellung mehrteiliger Antworten mit einheitlicher Struktur. Allerdings könnte Sonnet 4 mit großen Codebasen Probleme haben. Zum Vergleich: Gemini 2.5 Flash hat ein Kontextfenster von 1 Mio. Token.

Verglichen mit Claude Sonnet 3.7ist diese Version schneller, kann Anweisungen besser befolgen und ist zuverlässiger in Code-lastigen Arbeitsabläufen. Es unterstützt bis zu 64K Ausgabe-Token, was bei etwas längeren Ausgaben wie strukturierten Plänen, mehrteiligen Antworten oder großen Codevervollständigungen hilfreich ist.

Erste Berichte zeigen weniger Navigationsfehler und eine bessere Leistung bei der App-Entwicklung. Es ist nicht so stark wie Opus 4, wenn es um komplexe Schlussfolgerungen oder langfristige Aufgabenplanung geht, aber für die meisten Arbeitsabläufe ist es mehr als ausreichend.

Claude Opus 4

Claude Opus 4 ist das Flaggschiff der Claude 4-Serie. Sie wurde für Aufgaben entwickelt, die ein tiefergehendes Denken, ein Langzeitgedächtnis und strukturierte Ergebnisse erfordern - wie z. B. die agentenbasierte Suche, das Refactoring von umfangreichem Code, das Lösen von Problemen in mehreren Schritten und erweiterte Forschungsworkflows.

Wie Sonnet 4 unterstützt es ein 200K-Kontextfenster, was ein Nachteil sein kann, wenn du es mit einer großen Codebasis verwenden willst. Zum Vergleich, Gemini 2.5 Pro (das Flaggschiff von Google) hat ein Kontextfenster von 1 Mio. Token.

Er kann auch im Modus "Erweitertes Denken" arbeiten, in dem er von schnellen Reaktionen zu langsamerem, überlegtem Denken übergeht. In diesem Modus kann er den Lernpfad über alle Schritte hinweg verfolgen und bei Bedarf Zusammenfassungen seines eigenen Denkprozesses erstellen.

Anthropic hat es als High-End-Modell für Entwickler, Forscher und Teams, die KI-Agenten entwickeln, positioniert. Sie ist führend bei SWE-bench Verified und Terminal-bench, und erste Nutzer berichten von starker Leistung bei Coding Agents, Such-Workflows und mehrstündigen Aufgaben wie dem Refactoring von Open-Source-Projekten oder der Simulation langfristiger Planung.

Im Gegensatz zu Sonnet ist Opus 4 nur in kostenpflichtigen Tarifen verfügbar. Es ist teurer im Betrieb und wahrscheinlich zu viel für einen einfachen Chatbot. Aber für Anwendungen, die eine konsistente Argumentation über viele bewegliche Teile hinweg benötigen, ist es die bessere Wahl.

Prüfung Claude 4

Wenn ich ein neues Modell teste, verwende ich normalerweise dieselben Aufgaben - so kann ich sehen, wie es im Vergleich zu anderen Modellen abschneidet, die ich bereits getestet habe. Dies soll keine umfassende Bewertung sein. Das Ziel ist es, ein Gefühl dafür zu bekommen, wie sich diese Modelle im Chat-Interface verhalten.

Versuchen wir es mit Claude 4 in zwei Bereichen: Mathe und Codierung.

Mathe

Ich beginne gerne mit einer einfachen Berechnung, die Sprachmodelle oft verwirrt. Hier geht es nicht darum, die Grundrechenarten zu überprüfen - dafür kannst du einfach einen Taschenrechner benutzen. Es geht darum zu sehen, wie das Modell an ein etwas kniffliges Problem herangeht und ob es bei Bedarf auf Hilfsmittel zurückgreifen oder seine Überlegungen deutlich machen kann.

Mal sehen, wie gut Claude Sonnet 4 damit zurechtkommt:

Wie du sehen kannst, war die Antwort schon beim ersten Versuch falsch. Aber als ich ihn bat, ein Werkzeug zu benutzen - einen Taschenrechner - antwortete er mit einem einzeiligen Skript in JavaScript und löste das Problem korrekt.

Claude Opus 4 wurde beim ersten Versuch richtig beantwortet.

Als Nächstes wollte ich sehen, wie gut Claude Sonnet 4 mit einem komplexeren Problem zurechtkommt: Verwende alle Ziffern von 0 bis 9 genau einmal, um drei Zahlen zu bilden x, y, z so dass x + y = z.

Nach etwa fünf Minuten willkürlicher Brute-Force-Versuche erhielt ich die Meldung, dass das Ausgabelimit erreicht wurde und ich auf "Weiter" klicken sollte, um fortzufahren. Ich tat es und Claude versuchte es noch einmal - aber dann stieß er wieder an seine Grenzen. Was ich jedoch schätzte, war, dass er sich keine Antwort ausgedacht hat. Er hat sich einfach geweigert zu antworten, wenn er keinen finden konnte. Das ist meiner Meinung nach ein großer Gewinn - es ist problematischer, zu halluzinieren eine Lösung zu halluzinieren.

Dann habe ich Claude Opus 4 für dieselbe Aufgabe ausprobiert. Die Antwort kam fast augenblicklich zurück und sie war richtig: 246 + 789 = 1035. Opus 4 ist beeindruckend!!

Codierung

Für die Codieraufgabe habe ich mich direkt für Claude Opus 4 entschieden. Diese Art des kreativen Schaffens passt besser zu seinen Fähigkeiten. Ich teste es hier nicht an großen Codebasen, sondern nur an einer relativ trivialen Programmieraufgabe.

Ich habe es gebeten, ein schnelles p5.js-Spiel zu erstellen, indem ich diese Eingabeaufforderung benutze, die ich für Gemini 2.5 Pro und o4-mini:

Aufforderung: Mach mir ein fesselndes Endlos-Runner-Spiel. Tastenanweisungen auf dem Bildschirm. p5.js-Szene, kein HTML. Ich mag pixelige Dinosaurier und interessante Hintergründe.

Normalerweise würde ich den Code in einen Online-Editor für p5.js kopieren, um ihn zu testen. Aber eine der schönen Funktionen in Claude 4 ist Artifacts, mit der ich die Codeausgabe direkt im Chat ansehen und ausführen kann.

Lass uns das Ergebnis sehen:

Keines der bisherigen Modelle, die ich getestet habe, hat den Startbildschirm auf Anhieb richtig hinbekommen - die meisten haben sich direkt ins Spiel gestürzt. Claude Opus 4 hat tatsächlich einen richtigen Startbildschirm mit Anweisungen angezeigt, was eine schöne Überraschung war.

Allerdings gab es einen optischen Fehler: Der verpixelte Dinosaurier hinterließ eine verwirrende Spur, als er sich über den Bildschirm bewegte. Die Pixel wurden zwischen den Bildern nicht richtig gelöscht, was das Gameplay ruinierte. Ich habe darauf hingewiesen und Opus 4 gebeten, dies zu korrigieren.

Perfekt! Ich habe noch nie eine so saubere und spielbare Version dieses Spiels von einem anderen Modell bekommen.

Claude 4 Benchmarks

Claude 4 Modelle wurden an einer Reihe von Standard-Benchmarks getestet, die sowohl Codierungs-, Denk- als auch Agentenaufgaben umfassten. Diese Werte sagen zwar nicht alles über die Qualität des Modells aus, aber sie sind als Vergleichspunkt dennoch nützlich. Im Folgenden findest du die wichtigsten Ergebnisse für Claude Sonnet 4 und Claude Opus 4.

Quelle: Anthropisch

Claude Sonnet 4

Claude Sonnet 4 ist überraschend gut für ein Modell, das kostenlos erhältlich ist. Im SWE-Bench Verified, der reale Codieraufgaben testet, liegt er mit 72,7 % knapp vor Opus 4 (72,5 %) und deutlich vor Claude 3.7 Sonnet (62,3 %). Er übertrifft auch OpenAIs GPT-4.1 (54,6%) und Gemini 2.5 Pro (63,2%).

Bei anderen Benchmarks:

TerminalBench (CLI-basiertes Coding): 35,5% - vor GPT-4.1 (30,3%) und Gemini (25,3%)
GPQA Diamond (graduate-level reasoning): 75,4% - stark, wenn auch leicht unter OpenAI o3 und Gemini
TAU-bench (agentic tool use): 80,5% Einzelhandel / 60,0% Fluggesellschaft - vergleichbar mit Opus 4 und vor GPT-4.1 und o3
MMLU (mehrsprachige QA): 86,5% - knapp hinter Opus und o3, aber immer noch solide
MMMU (Visual Reasoning): 74,4% - das letzte Ergebnis der gesamten Modellpalette
AIME (Mathematikwettbewerb): 70,5% - besser als Sonnet 3.7, aber nicht konkurrenzfähig genug

Sonnet 4 ist wohl eines der leistungsstärksten Free-Tier-Modelle, die es derzeit gibt, und konkurrenzfähig mit Modellen, die eine Bezahlung oder einen kommerziellen Zugang erfordern.

Claude Opus 4

Das Opus 4 ist das Flaggschiff von Anthropic und schneidet in den meisten Benchmarks gut oder sehr gut ab. Im SWE-Bench Verified erreicht er 72,5 % und in rechenintensiven Einstellungen sogar 79,4 % - der höchste Wert aller verglichenen Modelle.

Sie ist auch führend oder rangiert nahe der Spitze bei:

TerminalBench (agentische CLI-Codierung): 43,2% (50,0% im High-Compute-Modus) - der stärkste Wert in der Tabelle
GPQA Diamond (graduate-level reasoning): 79,6% (83,3%) - solide, leicht hinter OpenAI o3 und Gemini 2.5 Pro
TAU-bench (agentic tool use): 81,4% Einzelhandel / 59,6% Fluggesellschaft - gleichauf mit Sonnet 4 und 3,7
MMLU (mehrsprachige QA): 88,8% - gleichauf mit OpenAI o3
MMMU (Visual Reasoning): 76,5% - hinter o3 und Gemini 2.5 Pro
AIME (Mathematikwettbewerb): 75,5% (90,0% High-Compute) - deutlich über Claude Sonnet 4

Wie man auf Claude 4 zugreift

Claude 4 ist über verschiedene Kanäle verfügbar, je nachdem, wie du es nutzen möchtest - ob als lockerer Chat, für die Entwicklung über eine API oder zur Integration in Unternehmensabläufe. So funktioniert der Zugang:

Chat-Zugang

Du kannst Claude 4 direkt über die Claude.ai Webinterface oder mobile Apps (iOS und Android) nutzen.

Claude Sonnet 4 ist für alle Nutzerinnen und Nutzer verfügbar , auch für diejenigen, die die kostenlose Version nutzen. Das macht es zu einem der leistungsfähigsten Modelle, die du ohne Bezahlung ausprobieren kannst.
Claude Opus 4 ist nur für zahlende Nutzer der Tarife Pro, Max, Team oder Enterprise verfügbar.

API-Zugang

Entwickler können auf beide Modelle über die Anthropic APIzugreifen und sind auch auf Amazon Bedrock und Google Cloud Vertex AI verfügbar.

API-Preise (Stand: Mai 2025):

Claude Opus 4$15 pro Million Input-Token, $75 pro Million Output-Token
Claude Sonnet 4$3 pro Million Input-Token, $15 pro Million Output-Token

Stapelverarbeitung und zeitnahes Zwischenspeichern können die Kosten in manchen Fällen um bis zu 90 % senken.

Fazit

Claude Sonnet 4 ist ein schnelles, leistungsfähiges Modell, das kostenlos genutzt werden kann und in den Bereichen Codierung, logisches Denken und allgemeine Assistenzaufgaben gute Leistungen erbringt. Für die meisten alltäglichen Bedürfnisse ist das mehr als genug.

Opus 4 hingegen ist für tiefergehende Überlegungen und komplexe Arbeitsabläufe konzipiert. Die Ergebnisse der Codierung - vor allem bei der kreativen Gestaltung und Problemlösung - gehören zu den besten, die ich bisher bei einem Modell gesehen habe.

Author

Alex Olteanu

Themen

Künstliche Intelligenz

Große Sprachmodelle

Lerne KI mit diesen Kursen!

Lernpfad

Grundlagen der KI

10 Std.

Lerne die Grundlagen der KI kennen, finde heraus, wie du KI effektiv bei der Arbeit nutzen kannst, und tauche in Modelle wie chatGPT ein, um dich in der dynamischen KI-Landschaft zurechtzufinden.

Details anzeigen

Kurs starten

Lernpfad

Entwicklung von KI-Anwendungen

21 Std.

Lerne, KI-gestützte Anwendungen mit den neuesten KI-Entwicklungstools zu erstellen, darunter die OpenAI API, Hugging Face und LangChain.

Details anzeigen

Kurs starten

Kurs

Arbeiten mit DeepSeek in Python

3 Std.

1.2K

Finde heraus, was es mit dem ganzen Hype um DeepSeek wirklich auf sich hat! Entwickle Anwendungen mit den Modellen R1 und V3 von DeepSeek.

Details anzeigen

Kurs starten

Verwandt

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.

Nathaniel Taylor-Leach

Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigen Mehr anzeigen

Claude Sonnet 4

Claude Opus 4

Prüfung Claude 4

Mathe

Codierung

Claude 4 Benchmarks

Claude Sonnet 4

Claude Opus 4

Wie man auf Claude 4 zugreift

Chat-Zugang

API-Zugang

Fazit

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Grundlagen der KI

Entwicklung von KI-Anwendungen

Arbeiten mit DeepSeek in Python

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Q2 2023 DataCamp Donates Digest

2022-2023 DataCamp Classrooms Jahresbericht

Grundlagen der KI