Kurs
Agentische Workflows haben die erste Hälfte von 2026 geprägt, vor allem im Coding: Modelle, die mit einem einzigen Prompt eine Aufgabe bis zum Abschluss durcharbeiten. Der Wettbewerb läuft inzwischen auf drei Achsen gleichzeitig: Leistungsfähigkeit, Geschwindigkeit und Preis. Anthropic und Google setzen hier klar unterschiedliche Schwerpunkte.
In diesem Artikel vergleiche ich zwei aktuelle Releases: Googles Gemini 3.5 Flash, angekündigt auf der Google I/O, und Anthropics Claude Opus 4.8 vom 28. Mai. Sie spielen nicht in derselben Liga. Das eine ist ein schneller, günstiger Arbeitseinsatz; das andere ein Premium-Flaggschiff. Genau dieser Abstand macht den Vergleich spannend, weil er die Frage aufwirft, wann sich reine Leistungsfähigkeit den Aufpreis wirklich lohnt.
Ich vergleiche beide Modelle bei Benchmarks, Kosten und Geschwindigkeit und zeige, welches Modell für welche Aufgaben passt. Tiefergehende Analysen findest du in unserer Übersicht zu Gemini 3.5 Flash und in unserem Beitrag zu Claude Opus 4.8.
Kurzfassung
- Opus 4.8 ist insgesamt das leistungsfähigere Modell. Es führt den Artificial Analysis Intelligence Index (61,4), GDPval-AA (1.890 Elo) und Humanity's Last Exam an.
- Gemini 3.5 Flash ist deutlich günstiger und schneller: 1,50/9 US-Dollar pro Million Tokens gegenüber 5/25 US-Dollar bei Opus 4.8 und 192,2 Ausgabetokens pro Sekunde gegenüber 66,8.
- Gemini 3.5 Flash nimmt multimodale Eingaben (Video, Audio, PDF), während Opus 4.8 nur Text und Bild verarbeitet.
- Nimm Opus 4.8, wenn Ergebnisqualität und Halluzinationsrisiko echte Kosten verursachen. Nimm Gemini 3.5 Flash für hochvolumige, multimodale, kostenkritische Pipelines.
KI-Upskilling für Einsteiger
Was ist Claude Opus 4.8?
Claude Opus 4.8 ist Anthropics Flaggschiff und der Nachfolger von Opus 4.7, entwickelt für komplexes Reasoning und langlaufendes agentisches Coding. Es führt derzeit den Artificial Analysis Intelligence Index mit 61,4 Punkten an.
Es liegt außerdem auf dem GDPval-AA-Leaderboard vorn, das Modelle anhand realer Aufgaben aus verschiedenen Berufen bewertet, sowie beim neuen ITBench-AA, der prüft, wie gut Agenten die Ursachen von Kubernetes-Incidents anhand gespeicherter Incident-Snapshots diagnostizieren.
Wichtigste Features und Fähigkeiten
Die Eckdaten:
- Ein Kontextfenster mit 1 Mio. Tokens und bis zu 128K Ausgabetokens
- Adaptive Thinking als einziger unterstützter Thinking-Mode
- Ein Effort-Parameter, der jetzt überall standardmäßig auf hoch steht, auch in Claude Code
Opus 4.8 bringt außerdem einen Fast Mode (aktuell Research Preview), der bis zu 2,5× mehr Ausgabetokens pro Sekunde liefert und 10/50 US-Dollar pro Million Eingabe-/Ausgabetokens kostet. Das ist doppelt so teuer wie der Standardpreis von Opus 4.8, aber nur ein Drittel der Fast-Mode-Kosten von Opus 4.7.
Die Messages-API akzeptiert jetzt Systemeinträge innerhalb des Nachrichten-Arrays. So kannst du Claudes Instruktionen mitten in der Aufgabe aktualisieren, ohne das Gespräch neu zu starten. Du kannst Berechtigungen, Token-Budgets oder Kontext zur Umgebung pushen, ohne den Prompt-Cache zu verlieren.
Die minimal cachebare Prompt-Länge sinkt auf 1.024 Tokens, vorher 4.096 bei Opus 4.7. Kürzere Prompts können damit gecacht werden.
Gegenüber Opus 4.7 zeigen sich die Gewinne laut Artificial Analysis in mehreren Benchmarks:
- Terminal-Bench Hard: +6,6 Punkte
- τ²-Bench Telecom, simuliert technischen Support: +5,8 Punkte
- IFBench, präzises Befolgen von Anweisungen: +3,6 Punkte
Auch bei Humanity's Last Exam liegt es vorn: 49,8% ohne Tools und 57,9% mit Tools.
Stärken und Schwächen
Bei agentischer Arbeit ist Opus 4.8 in diesem Vergleich die stärkste Option. Es belegt Platz 1 im Artificial Analysis Agentic Index, der Aufgaben wie Programmierung abdeckt.
Der Haken ist der Preis. Die Konditionen sind unverändert zu Opus 4.7: 5/25 US-Dollar pro Million Eingabe-/Ausgabetokens – für große Volumina happig. Sampling-Parameter sind weiterhin nicht verfügbar: temperature, top_p und top_k lösen einen Fehler aus, wenn du sie setzt.
Einführung in Claude-Modelle
Was ist Gemini 3.5 Flash?
Gemini 3.5 Flash ist Googles jüngstes Modell, gebaut auf Geschwindigkeit bei nahezu Frontier-Qualität, wie wir in unserer Übersicht zu Gemini 3.5 Flash beleuchten. Es erzielte 76,2% auf Terminal-Bench 2.1 und erreichte 1.656 Elo bei GDPval-AA.
Wichtigste Features und Fähigkeiten
Flash nimmt Text, Bilder, Video, Audio und PDFs als Eingabe – mit voller Thinking-Level-Unterstützung. Der Kernumfang:
- Ein rund 1 Mio. Tokens großes Eingabefenster (1.048.576 Tokens) mit einem Ausgabelimit von 65.536 Tokens
- Batch-API und Prompt-Caching
- Codeausführung und Function Calling
- Search Grounding und strukturierte Outputs
Bei Benchmarks erreicht es 83,6% auf MCP Atlas für die Koordination mehrerer Tools und 84,2% auf CharXiv Reasoning für multimodales Verständnis. Auf dem Artificial Analysis Intelligence Index liegt es auf Platz 7 – stark für ein Flash-Modell – und auf dem Agentic Index auf Platz 6, nahe bei Opus 4.7.
Gemini 3.5 Flash unterstützt außerdem nativ das Multi-Agent-Framework Antigravity. Dessen Oberfläche wurde in diesem Release so überarbeitet, dass sie den OpenAI-Codex- und Cursor-Apps ähnelt.
Stärken und Schwächen
Der Pitch von Flash ist Intelligenz pro Dollar: ein Score von 55 im Artificial Analysis Intelligence Index bei 1,50 US-Dollar pro Million Eingabetokens und 9 US-Dollar pro Million Ausgabetokens – ungewöhnlich viel Leistung fürs Geld.
Ein weiterer Pluspunkt ist native Multimodalität inklusive Video und Audio. Das vierstufige Thinking-System (minimal, niedrig, mittel, hoch) gibt dir zudem feinere Kosten- und Performancekontrolle als die einzelne Effort-Einstellung von Opus 4.8.
Heraus sticht jedoch die agentische Tool-Nutzung. Flash erreicht 83,6% auf MCP Atlas – das beste Ergebnis für Multitool-Koordination in diesem Vergleich und sogar vor Opus 4.8 mit 82,2%. Dass ein Flash-Modell Anthropics neuestes Flaggschiff auf diesem Benchmark übertrifft, sieht man selten entlang der Tiers.
Zwei Einschränkungen fallen auf. Beim Intelligence Index erzeugte Flash 73 Mio. Tokens gegenüber einem Schnitt von 35 Mio. – es ist also geschwätzig, und diese Geschwätzigkeit kostet bei der Ausgabefakturierung. Die Time-to-First-Token liegt bei 18,88 Sekunden, hoch für diese Klasse, in der vergleichbare Modelle um die zwei Sekunden liegen.
Wie sich Flash gegen OpenAIs Flaggschiff schlägt, vergleichen wir im Artikel Gemini 3.5 Flash vs. GPT-5.5.
Claude Opus 4.8 vs. Gemini 3.5 Flash: Direktvergleich
Hier eine schnelle Übersicht, bevor wir Kategorie für Kategorie durchgehen.
| Eigenschaft | Claude Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|
| Veröffentlichung | 28. Mai 2026 | 19. Mai 2026 |
| Kontextfenster | 1 Mio. Tokens | 1 Mio. Tokens |
| Max. Ausgabetokens | 128K | 65.536 |
| Intelligence Index (AA) | 61,4 | 55 |
| GDPval-AA Elo | 1.890 | 1.656 |
| Ausgabegeschwindigkeit | 66,8 Tokens/Sek. | 192,2 Tokens/Sek. |
| Eingabemodalitäten | Text, Bild | Text, Bild, Video, Audio, PDF |
| Eingabepreis | $5 / 1 Mio. Tokens | $1,50 / 1 Mio. Tokens |
| Ausgabepreis | $25 / 1 Mio. Tokens | $9 / 1 Mio. Tokens |
| Thinking-Modi | Nur adaptiv | Minimal / niedrig / mittel / hoch |
Agentik und Coding-Performance
Opus 4.8 ist der stärkere Agent, aber Flash ist näher dran, als sein Tier vermuten lässt. Opus 4.8 führt GDPval-AA mit 1.890 Elo zu Flashs 1.656 an – besser für Knowledge-Work.
MCP Atlas ist die Überraschung. Flash erreicht 83,6% auf diesem Multitool-Koordinationsbenchmark und liegt knapp vor Opus 4.8 mit 82,2%. Dass ein Flash-Modell Anthropics neuestes Flaggschiff bei agentischer Tool-Nutzung überholt, ist wirklich bemerkenswert – und das klarste Argument für Flash in diesem Vergleich.
SWE-bench Pro läuft andersherum. Der Benchmark prüft die Lösung realer Softwaretickets. Opus 4.8 erzielt 69,2% – nur übertroffen von Anthropics internem Mythos Preview. Flash kommt auf 55,0% – hinter Opus in der erwartbaren Tier-Spanne, aber dennoch beachtlich: Es schlägt Gemini 3.1 Pro mit 54,2%, Flash hat damit die letzte Pro-Generation eingeholt.
Auf Terminal-Bench Hard erzielt Opus 4.8 58,3% zu Flashs 40,9% – damit erste Wahl für terminalbasierte Software-Engineering-, Systemadministrations- und Datenverarbeitungsaufgaben. Flash punktet, wenn du parallele Coding-Loops fährst und Geschwindigkeit und Kosten wichtiger sind als maximale Genauigkeit.
Reasoning und wissenschaftliche Aufgaben
Opus 4.8 liegt bei akademischem Reasoning klar vorn. Es erreicht 57,9% bei Humanity's Last Exam gegenüber 40,25% von Flash – vorteilhaft für Mathematik, Natur- und Geisteswissenschaften.
Unterstützung multimodaler Eingaben
Hier gewinnt Flash eindeutig. Opus 4.8 liest Text und Bilder; Flash zusätzlich Video, Audio und PDFs. Wenn deine Pipeline diese Formate berührt, ist Flash von beiden die einzige Option, die sie nativ handhabt.
Geschwindigkeit und Latenz
Flash ist bei der Ausgabe etwa dreimal so schnell. Artificial Analysis misst 192,2 Ausgabetokens pro Sekunde gegenüber 66,8 bei Opus 4.8.
Kosten und Tokeneffizienz
Bei Ausgabetokens wird die Lücke teuer: 25 US-Dollar pro Million bei Opus 4.8 gegenüber 9 US-Dollar bei Flash – Opus ist also etwa 2,8-mal kostspieliger. In Hochvolumen-Pipelines summiert sich das schnell.
Kontextfenster und Output-Kapazität
Beide nehmen 1 Mio. Eingabetokens, der Unterschied liegt bei der Ausgabe. Opus 4.8 schreibt bis zu 128K Tokens in einem Durchlauf, Flash 65.536 – fast doppelt so viel bei Opus. Für Longform-Code, Dokumentengenerierung oder agentische Loops mit großen Single-Pass-Outputs ist dieser Spielraum wichtig.
Welches Modell solltest du wählen?
Am Ende zählt, ob du für Leistungsfähigkeit oder Durchsatz bezahlst. So würde ich es aufteilen:
Wähle Claude Opus 4.8, wenn …
- Die Qualität der Aufgabenerledigung direkte Folgen hat. Mit 1.890 Elo bei GDPval-AA und einer geringeren Halluzinationsrate als Googles und OpenAIs Modelle auf AA-Omniscience ist es die sichere Wahl für hochpräzise Knowledge-Work.
- Du 128K Ausgabetokens für große Single-Pass-Generierung brauchst – fast doppelt so viel wie Flash mit 65.536.
- Du bereits im Anthropic-Ökosystem mit Claude Code oder der API baust und ein Wechsel Aufwand bedeutet.
- Deine agentischen Loops so lang laufen, dass Systemnachrichten mitten im Gespräch zählen – die Messages-API aktualisiert nun Berechtigungen, Token-Budgets oder Kontext während der Aufgabe, ohne den Prompt-Cache zu brechen.
Wähle Gemini 3.5 Flash, wenn …
- Deine Pipeline Video, Audio oder PDFs aufnimmt.
- Du Output-Volumen brauchst – 9 gegenüber 25 US-Dollar pro Million Tokens macht den Unterschied in der Kalkulation.
- Du den stärksten Score bei Multitool-Koordination willst – Flash führt MCP Atlas mit 83,6% an, sogar vor Opus 4.8 mit 82,2%.
- Du auf Google-Infrastruktur mit Antigravity oder Vertex AI baust und einen Single-Vendor bevorzugst.
- Feingranulare Kostenkontrolle wichtig ist – Flashs vier Thinking-Stufen sind flexibler als Opus 4.8s einzelne Effort-Einstellung.
Wie geht es weiter für Flash und Flaggschiff-Modelle?
Dieses Flash-Modell ist deutlich teurer als frühere Flash-Releases – dafür gab es Kritik. Die Lücke in der Intelligenz zwischen Flash- und Opus-Tier ist weiterhin spürbar und schwächt das Argument, für ein Flash-Modell nahezu Flaggschiffpreise zu zahlen. Spannender ist das Rennen um ein kleines Modell, das beim Coding und bei agentischer Arbeit wirklich stark ist – und preislich auf dem Niveau von Cursors Composer 2.5 bleibt.
Anthropics Fast Mode ist für agentisches Coding das Feature to watch – aber der Preis bremst. Mit 10/50 US-Dollar ist das für Entwickler mit langen Loops schwer zu verkaufen. Die Adoption hängt davon ab, ob Anthropic diese Zahl überdenkt.
Anthropic bleibt klar auf Coding fokussiert und wird Google wohl nicht so schnell in Video- und Audioeingaben folgen. Das öffnet Google eine Tür – aber nur, wenn ein Flash- oder Flaggschiff-Modell erscheint, das Opus bei agentischen Aufgaben schlägt. Bislang nicht der Fall.
Fazit
Wenn Ergebnisqualität und Halluzinationsrisiko echte Kosten verursachen – etwa in Finanzen oder Medizin – ist Opus 4.8 die richtige Wahl. Wenn du auf Durchsatz, Kosten oder Multimodalität optimierst, passt Gemini 3.5 Flash besser.
Mein Eindruck: Die beiden konkurrieren nicht wirklich um denselben Job. Die meisten Teams wissen nach einem Satz zur eigenen Workload, auf welcher Seite sie stehen. Die schwierigere Frage ist, ob Google die Fähigkeitslücke schließen kann, ohne den Preisvorteil zu verlieren, der Flash attraktiv macht. Google nutzt intern bereits Gemini 3.5 Pro – dieses Release, nicht Flash, dürfte den größten Druck auf Opus 4.8 ausüben.
Wenn du die Kompetenzen schärfen willst, die KI-Assistenten in deinem Workflow verlässlicher machen, starte mit unserem Kurs AI-Assisted Coding for Developers. Und wenn du LLM-Anwendungen mit Prompts, Chains und Agents bauen willst, ist unser Kurs Developing LLM Applications with LangChain der nächste sinnvolle Schritt.
Claude Opus 4.8 vs. Gemini 3.5 Flash: Häufige Fragen
Ist Claude Opus 4.8 insgesamt besser als Gemini 3.5 Flash?
Auf allgemeinen Intelligenzbenchmarks: ja. Opus 4.8 erzielt 61,4 im Artificial Analysis Intelligence Index, Flash 55. Aber besser hängt vom Anwendungsfall ab. Flash ist schneller, günstiger und unterstützt Video-, Audio- und PDF-Eingaben, die Opus 4.8 nicht kann.
Welche Eingabeformate unterstützt Gemini 3.5 Flash?
Gemini 3.5 Flash unterstützt Text-, Bild-, Video-, Audio- und PDF-Eingaben. Claude Opus 4.8 unterstützt nur Text und Bild.
Wie unterscheiden sich die Preise der beiden Modelle?
Claude Opus 4.8 kostet 5 US-Dollar pro Million Eingabetokens und 25 US-Dollar pro Million Ausgabetokens. Gemini 3.5 Flash liegt bei 1,50 US-Dollar pro Million Eingabetokens und 9 US-Dollar pro Million Ausgabetokens. Cache-Hit-Preise: 0,50 US-Dollar pro Million bei Opus 4.8 und 0,15 US-Dollar pro Million bei Flash.
Was ist GDPval-AA, und warum ist es im Kontext von Opus 4.8 und Gemini 3.5 Flash wichtig?
GDPval-AA ist der primäre Benchmark von Artificial Analysis für agentische Performance bei realen Knowledge-Work-Aufgaben, gemessen in Elo. Opus 4.8 führt mit 1.890 Elo vor Flash mit 1.656. Für die Bewertung von Modellen im produktiven Agentik-Einsatz ist er aussagekräftiger als klassische Benchmarks.
Welches Modell hat das größere Output-Fenster?
Claude Opus 4.8 unterstützt maximal 128K Ausgabetokens – doppelt so viel wie das 65.536-Token-Fenster von Gemini 3.5 Flash. Für Workflows mit langen Dokumenten, großen Code-Dateien oder großen Single-Pass-Outputs ist Opus 4.8 die bessere Wahl.
Unterstützt Gemini 3.5 Flash Thinking?
Ja. Flash bietet vier Thinking-Level: minimal, niedrig, mittel und hoch. Standard ist mittel. Claude Opus 4.8 nutzt ausschließlich adaptives Thinking und unterstützt kein erweitertes Thinking-Budget.
