Lernpfad
Anthropic hat gerade mit der Veröffentlichung von Claude 3.7 Sonnetdie größte Ankündigung seit langem gemacht . Auch wenn die Versionsnummer nur einen inkrementellen Fortschritt suggeriert, halten wir dies für ein bedeutendes Upgrade gegenüber Claude 3.5 Sonnet.
Zunächst führt Claude 3.7 Sonnet den Denkmodus ein, mit dem wir den Denkprozess des Modells sehen können. Damit betritt Anthropic endlich die Arena der Argumentationsmodelle, und den Benchmarks zufolge ist es ein würdiger Konkurrent für OpenAIs o3-mini, DeepSeek-R1und Grok 3.
Zweitens kann Claude 3.7 Sonnet mit einem Tastendruck zwischen dem Denkmodus und dem Generalistenmodus wechseln (mehr dazu später). Anthropic behauptet zwar, sie hätten "eine andere Philosophie", aber diese Veränderung spiegelt einen wachsenden Trend zur Vereinheitlichung der Benutzererfahrung bei chatbasierten LLMs wider. Grok 3 funktioniert bereits auf diese Weise, und Sam Altman hat kürzlich angekündigt, dass ChatGPT einen ähnlichen Weg einschlagen wird.
Was wir enttäuschend finden, ist, dass Thinking Mode hinter einer Paywall verschlossen ist. In Anbetracht der Tatsache, dass Argumentationsmodelle immer üblicher werden, ist es schwer, diese Entscheidung zu rechtfertigen, wenn du bereits kostenlose, wenn auch manchmal eingeschränkte Versionen über Grok, DeepSeek, Qwen und sogar ChatGPT nutzen kannst.
Lass uns das Wesentliche von Claude 3.7 Sonnet herausfinden.
KI-Upskilling für Einsteiger
Was ist Claude 3.7 Sonnet?
Claude 3.7 Sonnet ist Anthropics neuestes KI-Modell, das einen großen Schritt vorwärts in Sachen Denken, Programmieren und Lösen von Problemen in der realen Welt darstellt. Die größte Änderung ist, dass Claude 3.7 Sonnet jetzt den Denkmodus unterstützt, der es uns ermöglicht, den Schritt-für-Schritt-Überlegungsprozess des Modells zu sehen. Schauen wir mal, wie das funktioniert:
Reasoning-Modelle werden immer wichtiger und verbreiteter, und wir können sehen, warum. Wenn du dir die Grafik unten ansiehst, wirst du feststellen, dass 37,2 % der Nutzerinnen und Nutzer Claude für Programmier- und Mathefragen nutzen, wie der Anthropischen Wirtschaftsindex. Das sagt mir eines: Starke Argumentationsmodelle können einen echten geschäftlichen Nutzen bringen, vor allem, da KI in Unternehmen noch wenig verbreitet ist.
Quelle: Antrophic Economic Index
Gleichzeitig ist der Claude 3.7 nicht nur ein Argumentationsmodell, sondern ein Hybrid. Wir können zwischen dem Denkmodus (für strukturierte Denkaufgaben) und einem Standard-Chatmodus für allgemeine Konversation, Schreiben und Zusammenfassungen wechseln.
Claude 3.7 Sonett vs. Claude 3.5 Sonett
Claude 3.7 Sonnet ist ein viel größeres Upgrade, als die Versionsnummer vermuten lässt. Die Benchmark-Daten bestätigen, dass es Claude 3.5 Sonnet beim Denken, Codieren und bei der Ausführung von Aufgaben in der realen Welt übertrifft.
Leistung in der Softwareentwicklung
Claude 3.7 Sonnet zeigt einen klaren Vorteil in der Softwareentwicklung, mit einer Genauigkeit von 62,3 % im SWE-Bench Verified, ein deutlicher Sprung gegenüber den 49,0 % von Claude 3.5 Sonnet. Bei Verwendung eines benutzerdefinierten Gerüsts (eine strukturierte Aufforderung oder ein zusätzlicher Kontext, der die Antwort des Modells auf eine genauere Lösung lenkt) erhöht sich die Genauigkeit auf 70,3 %, womit es das beste Modell in dieser Kategorie ist.
Quelle: Anthropisch
Eine Verbesserung der Genauigkeit um fast 13% zwischen den Modellversionen ist nicht nur eine kleine Verbesserung. Das deutet darauf hin, dass Claude 3.7 Sonnet für ein besseres Verständnis und eine bessere Ausführung von programmierbezogenen Aufgaben optimiert wurde. Für Benutzer, die Claude für die Softwareentwicklung, das Debugging oder die Automatisierung nutzen, macht das Upgrade einen spürbaren Unterschied.
Einsatz von Agententools
Die Leistung bei der Verwendung von Agententools ist ein weiterer Bereich, in dem Claude 3.7 Sonnet seinen Vorgänger übertrifft. Bei einzelhandelsbezogenen Aufgaben erreicht er eine Genauigkeit von 81,2 %, gegenüber 71,5 % bei Claude 3.5 Sonnet. Bei den flugzeugbezogenen Aufgaben erreicht sie 58,4 %, was eine Verbesserung von fast zehn Punkten gegenüber der Vorgängerversion bedeutet.
Quelle: Anthropisch
Allgemeine Benchmarks
Bei allen Benchmarks sind die größten Zuwächse im erweiterten Denkmodus zu verzeichnen, mit dem Claude 3.7 bei komplexen Denkaufgaben ein viel höheres Niveau erreicht. Nutzer, die sich bei strukturierten Arbeitsabläufen, beim Codieren oder bei der Problemlösung auf KI verlassen, werden einen deutlichen Unterschied zwischen Claude 3.5 und Claude 3.7 feststellen, vor allem wenn es um erweitertes Denken geht.
Quelle: Anthropisch
Der größte Teil dieses Fortschritts kommt von Claudes erweitertem Denken, also lass uns mehr darüber herausfinden.
Claude's Extended Thinking
Wenn er aktiviert ist, erhöht der erweiterte Denkmodus die Anzahl der Denkschritte, die Claude benötigt, um eine Antwort zu finden. Die Entwickler/innen können diesen Prozess feinabstimmen, indem sie ein Denkbudget festlegen, das bestimmt, wie viele Token das Modell bei der Bearbeitung eines Problems verwenden kann. Wie in der AIME 2024-Leistungsgrafik unten zu sehen ist, verbessert sich die Genauigkeit, je mehr Token zugewiesen werden, und folgt einem logarithmischen Trend.
Quelle: Anthropisch
Dieser Ansatz spiegelt die kognitive Anstrengung des Menschen wider: Bei einfachen Aufgaben reichen schnelle Antworten aus, aber bei komplexen Aufgaben führt eine tiefere Analyse zu besseren Ergebnissen. Claude kann jetzt entscheiden, wann er innehalten, neu bewerten und seine Überlegungen verfeinern muss, anstatt sofort zu reagieren.
Einer der interessantesten Aspekte des erweiterten Denkmodus ist, dass der Denkprozess von Claude für den Benutzer sichtbar ist. Diese Funktion bringt jedoch einige Herausforderungen mit sich. Obwohl es einen Einblick in die Denkweise der KI gibt, stimmt der dargestellte Denkprozess nicht immer perfekt mit der tatsächlichen Entscheidungsfindung des Modells überein. Das "Treueproblem" - ob die selbstberichteten Gedanken einer KI ihre internen Mechanismen richtig wiedergeben - ist immer noch eine offene Forschungsfrage.
Claude 3.7 Sonnets Fähigkeit zu langfristigem, iterativem Denken wird in Bewertungen wie OSWorld und Pokémon Red Gameplay getestet. In Pokémon Rot zum Beispiel erreicht Claude 3.7 Sonnet einen viel größeren Spielfortschritt als frühere Versionen und schafft es durch mehrere Meilensteine, während frühere Modelle früh im Spiel stecken bleiben.
Quelle: Anthropisch
Claude 3.7 Sonett-Benchmarks
Wir haben gesehen, wie Claude 3.7 Sonnet im Vergleich zu seiner Vorgängerversion abschneidet. Aber wie schneidet es im Vergleich zu OpenAIs o3-mini, DeepSeek-R1 oder Grok 3 ab?
In den aktualisierten Benchmarks hat sich Claude 3.7 Sonnet als eines der leistungsstärksten Modelle positioniert, vor allem bei schlussfolgernden Aufgaben, beim Codieren und bei der Nutzung von Agententools.
Logisches Denken und Mathe
Beim logischen Denken auf Graduiertenebene (GPQA Diamond) erreicht Claude 3.7 Sonnet 68,0 % im Standardmodus und 84,8 % im erweiterten Denkmodus und ist damit eines der stärksten Modelle in dieser Kategorie. Es übertrifft OpenAIs o1 (78,0 %) und DeepSeek-R1 (71,5 %) um einiges und Grok 3 Beta (84,6 %) nur um einen kleinen Abstand.
Benchmark |
Claude 3.7 Sonett (Standard) |
Claude 3.7 Sonett (Erweitertes Denken) |
OpenAI o1 |
OpenAI o3-mini (hoch) |
DeepSeek R1 |
Grok 3 Beta |
GPQA Diamond (Argumentation auf Graduiertenebene) |
68.0% |
84.8% |
78.0% |
79.7% |
71.5% |
84.6% |
AIME 2024 (Mathematikwettbewerb für Gymnasien) |
23.3% |
80.0% |
83.3% |
87.3% |
79.8% |
93.3% |
Mathematisches Problemlösen (MATH 500) |
82.2% |
96.2% |
96.4% |
97.9% |
97.3% |
- |
Der AIME 2024 Benchmark, der Mathematik-Wettbewerbsaufgaben der Oberstufe testet, zeigt einen ähnlichen Trend. Claude 3.7 Sonnet macht einen riesigen Sprung im Vergleich zu früheren Versionen und erreicht 80,0 %, wenn das erweiterte Denken aktiviert ist. Er übertrifft DeepSeek-R1 (79,8 %) zwar knapp, liegt aber immer noch hinter OpenAIs o3-mini (87,3 %) und Grok 3 Beta (93,3 %) zurück.
Beim Lösen von Mathematikaufgaben (MATH 500) erreicht Claude 3.7 Sonnet 96,2 % und liegt damit dicht hinter OpenAIs o3-mini (97,9 %) und DeepSeek R1 (97,3 %).
Codierung und Einsatz von Agententools
Claude 3.7 Sonnet macht seine größten Fortschritte bei den Coding-Benchmarks. Im SWE-Bench Verified (der KI-Modelle für Software-Engineering-Aufgaben bewertet) erreicht Claude 3.7 Sonnet 62,3 % und steigt mit einem benutzerdefinierten Gerüst auf 70,3 %. Damit liegt er weit vor dem o1 (48,9 %) und dem o3-mini (49,3 %) von OpenAI sowie dem DeepSeek R1 (49,2 %), der speziell für das Codieren entwickelt wurde. Das bestätigt, dass Claude 3.7 jetzt eines der besten KI-Modelle für programmierbezogene Aufgaben ist.
Benchmark |
Claude 3.7 Sonett (Standard) |
Claude 3.7 Sonett (Custom Scaffold) |
OpenAI o1 |
OpenAI o3-mini (hoch) |
DeepSeek R1 |
SWE-Bench Verified (Kodierung) |
62.3% |
70.3% |
48.9% |
49.3% |
49.2% |
TAU-bench Einzelhandel (Werkzeuggebrauch) |
81.2% |
- |
73.5% |
- |
- |
TAU-bench Airline (Tool Use) |
58.4% |
- |
54.2% |
- |
- |
Neben der Programmierung ist Claude 3.7 Sonnet führend bei der Nutzung von Agententools, was es zu einer guten Wahl für die Automatisierung und Ausführung von Arbeitsabläufen macht. Im TAU-Bench (der die Fähigkeit der KI testet, mit externen Tools in strukturierten Umgebungen zu interagieren) erreicht Claude 3.7 81,2 % bei Aufgaben im Einzelhandel und übertrifft damit OpenAI o1 (73,5 %). Bei flugzeugbezogenen Aufgaben erreicht Claude 3.7 58,4 % und übertrifft damit erneut OpenAI o1 (54,2 %).
Das deutet darauf hin, dass Claude 3.7 gut für Geschäftsanwendungen und strukturierte Arbeitsabläufe geeignet ist, was es zu einer guten Wahl für Unternehmensanwender macht, die KI in ihre Entscheidungs- und Betriebsprozesse integrieren wollen.
Wie man auf Claude 3.7 Sonnet zugreift
Claude 3.7 Sonnet ist über verschiedene Kanäle verfügbar, darunter das Webinterface von Anthropic, die Integration von Claude in verschiedene Apps und der API-Zugang für Entwickler. Das Modell ist zwar ein bedeutendes Upgrade, aber seine Verfügbarkeit ist mit einigen Einschränkungen verbunden - vor allem, wenn du den Thinking Mode nutzen willst, der derzeit noch hinter einer kostenpflichtigen Stufe versteckt ist.
Web- und App-Zugang
Für allgemeine Benutzer ist Claude 3.7 Sonnet über die offizielle Website von Anthropic zugänglich (claude.ai) und die Claude-App. Sie ist in der kostenlosen Version verfügbar, allerdings mit Einschränkungen:
- Kostenlose Nutzer können Claude 3.7 Sonnet für grundlegende Aufgaben wie Schreiben, Zusammenfassen und allgemeine Fragen nutzen, aber der Denkmodus ist deaktiviert.
- Claude Pro-Benutzer (der kostenpflichtige Plan für $20/Monat) erhalten vollen Zugang zum Thinking Mode, zusammen mit höheren Nachrichtenlimits und vorrangigem Zugang während der Hauptnutzungszeiten.
Um den Thinking Mode zu aktivieren, musst du auf Erweitert aus dem Dropdown-Menü des Modells klicken:
Claude 3.7 Zugang zur Sonnet API
Entwickler können Claude 3.7 Sonnet in ihre Anwendungen integrieren, indem sie die API von Anthropic nutzen, die über das Anthropic's Entwicklerportal. Die API unterstützt ein Pay-as-you-go-Preismodell, das auf der Nutzung von Token basiert.
Hier findest du einen Überblick über die API-Angebote von Anthropic:
Feature |
Claude 3.7 Sonett |
Claude 3.5 Sonett |
Claude 3.5 Haiku |
Claude 3 Opus |
Claude 3 Haiku |
Beschreibung |
Unser intelligentestes Modell |
Unser bisher intelligentestes Modell |
Unser schnellstes Modell |
Leistungsstarkes Modell für komplexe Aufgaben |
Schnellstes und kompaktestes Modell für nahezu sofortige Reaktionsfähigkeit |
Stärken |
Höchste Intelligenz und Fähigkeit mit zuschaltbarem erweiterten Denken |
Hohes Maß an Intelligenz und Fähigkeiten |
Intelligenz in rasender Geschwindigkeit |
Intelligenz, Sprachgewandtheit und Verständnis auf höchstem Niveau |
Schnelle und genaue Zielerreichung |
Mehrsprachig |
Ja |
Ja |
Ja |
Ja |
Ja |
Vision |
Ja |
Ja |
Ja |
Ja |
Ja |
Ja |
Nein |
Nein |
Nein |
Nein |
|
API-Modellname |
claude-3-7-sonnet-20250219 |
Aktualisierte Version: claude-3-5-sonnet-20241022 Vorherige Version: claude-3-5-sonnet-20240620 |
claude-3-5-haiku-20241022 |
claude-3-opus-20240229 |
claude-3-haiku-20240307 |
Latenzzeit im Vergleich |
Schnell |
Schnell |
Schnellste |
Mäßig schnell |
Schnellste |
Kontextfenster |
200K |
200K |
200K |
200K |
200K |
Maximale Leistung |
Normal: 8192 Token Erweitertes Denken:64000 Token |
8192 Token |
8192 Token |
4096 Token |
4096 Token |
Kosten (Input / Output pro MTok) |
$3.00 / $15.00 |
$3.00 / $15.00 |
$0.80 / $4.00 |
$15.00 / $75.00 |
$0.25 / $1.25 |
Abschneiden der Trainingsdaten |
Okt 2024 |
Apr 2024 |
Juli 2024 |
Aug 2023 |
Aug 2023 |
Quelle: Anthropisch
Achte darauf, immer die neuesten API-Preise zu prüfen.
Fazit
Anthropic hat gerade mit Claude 3.7 Sonnet seinen größten Schritt seit langem gemacht, ein Modell, das es endlich in den Bereich der KI bringt. Anhand der Benchmarks können wir sehen, dass er ein legitimer Konkurrent von OpenAIs o3-mini, DeepSeek-R1 und Grok 3 ist, mit einer starken Leistung bei der Programmierung, dem strukturierten Lösen von Problemen und der Nutzung von Agententools.
Die Möglichkeit, zwischen dem Generalisten- und dem Denkmodus zu wechseln, macht ihn vielseitiger, aber den Denkmodus hinter eine Bezahlschranke zu sperren, ist ein Fehler, vor allem weil es kostenlose Alternativen gibt. Trotzdem ist Claude 3.7 ein großer Schritt nach vorne.

FAQs
Was ist der Claude Code und wie lässt er sich mit dem Sonett Claude 3.7 vergleichen?
Claude Code ist ein separates, für die Softwareentwicklung optimiertes Modell, das sich von Claude 3.7 Sonnet unterscheidet. Während Claude 3.7 ein Allzweck-LLM mit starken Codierfähigkeiten ist, ist Claude Code speziell auf Programmieraufgaben, Debugging und den Einsatz von Agententools abgestimmt.
Wie verhält sich Claude 3.7 Sonnet im Vergleich zu früheren Modellen bei längeren Kontexten?
Claude 3.7 Sonnet behält ein Kontextfenster von 200K Token bei, kann aber durch erweitertes Denken effektiver über lange Dokumente denken. Während andere Modelle (wie Gemini 2.0) mit längeren Kontextfähigkeiten werben, legt Anthropic mehr Wert auf strukturiertes Denken als auf die reine Speicherlänge.
Unterstützt Claude 3.7 Sonnet multimodale Eingaben?
Ja, Claude 3.7 Sonnet verfügt über multimodale Fähigkeiten, das heißt, es kann Bilder verarbeiten und analysieren.
Welche Sicherheitsverbesserungen wurden in Claude 3.7 Sonnet vorgenommen?
Anthropic hat die Stresstests für die Anpassung erweitert und die verfassungsrechtlichen KI-Grundsätze verfeinert, um einen besseren Schutz vor Verzerrungen, Fehlinformationen und Missbrauch zu gewährleisten. Dennoch sind Jailbreaking-Versuche immer noch ein Problem, da der sichtbare Denkmodus Schwachstellen aufdecken könnte.
Gibt es eine Claude Mobile App?
Ja, du kannst sowohl auf iOS als auch auf Android auf Claude zugreifen.