Was ist die letzte Prüfung der Menschheit? Der KI-Benchmark für Expertenniveau-Argumentation

Finde heraus, was die „Humanity's Last Exam“ ist und wie sie in die KI-Benchmark-Landschaft passt.

Aktualisiert 18. Dez. 2025 · 7 Min. lesen

Ich hab gerade einen Auftrag für eine KI-Firma gemacht. Unter anderem helfen sie Forschern dabei, LLMs nachzutrainieren. Als promovierter Mathematiker habe ich Matheaufgaben entwickelt, die selbst die modernsten KI-Modelle überfordert haben. Trickfragen zählten nicht; die Fragen mussten Denkfehler aufdecken.

Während dieser Arbeit hab ich immer wieder von der „letzten Prüfung der Menschheit“ gehört. Ich hab erfahren, dass es sich um einen KI-Benchmark handelt, der entwickelt wurde, um das logische Denken in vielen akademischen Bereichen zu testen. Meine Neugier hat mich dazu gebracht, genauer zu schauen, was HLE ist und was es uns über die aktuellen Grenzen des KI-Denkens verrät.

Wenn du dich noch nicht so gut mit KI und Benchmarking auskennst, empfehle ich dir den Lernpfad „Grundlagen der KI”.

Was ist „die letzte Prüfung der Menschheit“?

Da sich LLMs weiterentwickelt haben, nutzen Forscher Sammlungen von Bewertungsfragen, die als Benchmarksbekannt sind , um die Leistung zu vergleichen und den Fortschritt zu verfolgen. Die letzte Prüfung der Menschheit (HLE ) ist ein Test, der entwickelt wurde, um die Fähigkeiten eines LLM zum logischen Denken und zur Schlussfolgerung zu messen , nicht nur seine Fähigkeit zum Musterabgleich. Es geht darum, zu checken, wie gut ein Modell mit kniffligen Problemen aus vielen akademischen Bereichen klarkommt.

Warum brauchen wir eine „letzte Prüfung“?

Warum noch ein weiterer Benchmark, wenn es doch schon so viele gibt? Benchmarks, die früher für LLMs echt eine Herausforderung waren, wie zum Beispiel MMLU, sind jetzt voll ausgereizt, und die Modelle erreichen oft über 90 Prozent. An diesem Punkt messen diese Benchmarks keine sinnvollen Unterschiede zwischen den Modellen mehr.

HLE ist ein Benchmark der nächsten Generation, der den Schwierigkeitsgrad erhöht, indem er von Experten entwickelte Fragen zusammenstellt, die mehrstufiges logisches Denken erfordern und nicht nur das Abrufen oberflächlicher Muster.

Wie wurde HLE entwickelt?

Ende 2024 hat sich das Centre for AI Safety, eine gemeinnützige Organisation, die sich mit KI-Sicherheit beschäftigt, mit Scale AI, einem Datenunternehmen, zusammengetan, um einen anspruchsvolleren KI-Benchmark zu entwickeln. Dan Hendrycks hat das Projekt geleitet.

Das Team hat Fragen auf Hochschulniveau aus verschiedenen akademischen Fachbereichen gesammelt und coole Preise angeboten: Die besten 50 Mitwirkenden haben jeweils 5000 Dollar gewonnen, und die nächsten 500 haben 500 Dollar bekommen.

Das Ergebnis war ein riesiger Pool an Fragen auf Expertenniveau zu vielen Themen, wie Mathe, Informatik, Literatur, Musikanalyse und Geschichte.

Was kommt in der letzten Prüfung der Menschheit dran?

Das HLE-Papier beschreibt den Benchmark als „...den endgültigen geschlossenen Benchmark für allgemeine akademische Fähigkeiten.“ Die Fragen erfordern mehrstufiges Denken, was verhindert, dass Modelle Antworten raten oder auswendig lernen.

HLE hat 2.500 öffentliche Fragen und etwa 500 weitere Fragen in einem privaten Holdout-Set.

Jede Frage muss originell sein, eine einzige richtige Antwort haben und darf nicht einfach durch eine Websuche oder Datenbankabfrage gefunden werden können. Ungefähr 76 % der Fragen haben das Antwortformat „genaue Übereinstimmung” und die restlichen 24 % sind Multiple-Choice-Fragen. Ungefähr 14 % der Fragen sind multimodal, also mit Text und Bildern.

Das HLE-Team hat die Fragen echt streng geprüft.

Um angenommen zu werden, mussten die Fragen einen LLM-Studenten vor eine echte Herausforderung stellen. Ungefähr siebzigtausend Fragen haben dieses Kriterium erfüllt.
Fachkundige Gutachter haben die Fragen überarbeitet und auf dreizehntausend Fragen reduziert.
Die Organisatoren und Fachgutachter haben 6.000 dieser Fragen manuell genehmigt.
Die Forscher haben diesen Fragenpool in einen öffentlichen Satz von 2.500 Fragen und einen Holdout-Satz von etwa 500 Fragen aufgeteilt.

Kritik an der letzten Prüfung der Menschheit

Die ersten Ergebnisse zeigten, dass die Pioniermodelle bei den Fragen anfangs schlecht abschnitten, aber trotzdem viel Zuversicht zeigten. Diese Lücke deutet auf Halluzinationen hin.

Auch unabhängige Gruppen haben Bedenken geäußert. Future House, ein gemeinnütziges Forschungslabor, hat einen Blogbeitrag mit dem Titel „Etwa 30 % der Antworten in den Abschlussprüfungen der Menschheit in Chemie/Biologie sind wahrscheinlich falsch” veröffentlicht.

Ihre Analyse hat sich auf das Überprüfungsprotokoll konzentriert. Die Leute, die die Fragen geschrieben haben, haben die richtigen Antworten angegeben, aber die Prüfer sollten nur fünf Minuten damit verbringen, die Richtigkeit der Antworten zu checken. Sie sagen, dass dieser Prozess zu komplizierte, gekünstelte oder unklare Antworten durchlässt, die oft nicht mit der wissenschaftlichen Literatur übereinstimmen.

Die Leute von HLE haben auf den Beitrag reagiert, indem sie drei Experten gebeten haben, den umstrittenen Teil zu überprüfen. Am 16. September 2025 wollten sie einen fortlaufenden Überprüfungsprozess für HLE ankündigen.

Die Landschaft der KI-Benchmarks

HLE ist Teil eines größeren Ökosystems von Benchmarks, die verschiedene Aspekte der LLM-Fähigkeiten testen.

Wissen und Argumentation

Diese Benchmarks checken akademisches Wissen und logisches Denken.

Massives Multitasking-Sprachverständnis (MMLU). MMLU testet die Zero-Shot-Leistung bei siebenundfünfzig verschiedenen Themen.
MMLU-Pro/MMLU Pro+. Komplexere Fragen und ein Fokus auf höherwertiges Denken.
Google Proof Q&A (GPQA) Ein Google-sicherer STEM-Benchmark auf Graduiertenniveau mit 448 Multiple-Choice-Fragen.
Die letzte Prüfung der Menschheit (HLE). HLE nutzt von Experten zusammengestellte Aufgaben, bei denen es mehr ums logische Denken als ums Auswendiglernen geht.

Multimodales Verständnis

Diese Benchmarks messen das logische Denken, das sowohl Texte als auch Bilder umfasst.

Das Massive Multi-Disziplinäre Multimodale Verständnis- und Schlussfolgerungsfähigkeiten (MMMU). Ungefähr 1.500 multimodale, interdisziplinäre Fragen aus Prüfungen, Quizzen und Lehrbüchern.
Die MMMU-Pro Benchmark streicht Fragen, die man nur mit Textmodellen lösen kann, fügt robustere Antwortoptionen hinzu und führt eine reine Bildverarbeitungseinstellung ein, bei der die ganze Eingabeaufforderung in ein Bild eingebettet ist.

Softwareentwicklung und Einsatz von Tools

Andere Benchmarks konzentrieren sich speziell auf Softwareentwicklung und den Einsatz von Tools.

SWE-bench. Basierend auf echten GitHub-Problemen aus zwölf Python-Repositorys. Das Modell checkt den Code, versteht, was das Problem ist, und schlägt einen Patch vor.
SWE-Bench Verifiziert. Eine verbesserte Version von SWE-bench, die zu spezifische Tests repariert, unklare Problemschilderungen klarer macht und die Einrichtung der Umgebung stabiler macht.
SWE-bench-Live. Eine skalierbare, ständig aktualisierte Version mit 1319 Aufgaben in 93 Repositorys.

Ganzheitliche Bewertungsrahmen mit mehreren Metriken

Das Center for Research on Foundation Models (CRFM) der Stanford University hat ganzheitliche Bewertung von Sprachmodellen (HELM) entwickelt, um eine verantwortungsvolle Bewertung von KI zu unterstützen.

HELM testet Modelle anhand einer Reihe von standardisierten Szenarien, wie zum Beispiel Fragen beantworten, Zusammenfassen, sicherheitskritische Abfragen und soziale/ethische Inhalte. Diese Szenarien werden in mehreren Bereichen bewertet, nicht nur in Bezug auf Genauigkeit, sondern auch in Bezug auf Kalibrierung, Robustheit und Toxizität.

HELM hat sich zu einer ganzen Familie von verwandten Frameworks entwickelt.

HEML-Funktionen. Eine allgemeine Rangliste zur Bewertung von LMs.
Audio. Bewertungen für Aufgaben im Zusammenhang mit Audio und Sprache.
HELM Lite. Eine kleinere, schnellere Teilmenge für schnelle Vergleiche.
HELM Finance. HELM ist genau auf Finanzaufgaben zugeschnitten.
MedHELM. Bewertungen für gesundheitsbezogene Argumentation und Sicherheit.

Sicherheit und Gefährlichkeitsbewertungen

Sicherheitsrahmen messen eher das Risiko als die intellektuelle Kompetenz.

Modellbewertung und Bedrohungsforschung (METR) ist eine gemeinnützige Forschungsorganisation, die potenziell gefährliche Fähigkeiten wie Cyberangriffe, Versuche, Abschaltungen zu vermeiden, oder die Fähigkeit zur Automatisierung von KI-Forschung und -Entwicklung bewertet. Seine Aufgabe ist es, katastrophale Risiken frühzeitig zu erkennen.
Das Frontier Safety Framework von Google DeepMind. Definiert kritische Fähigkeitsniveaus (CCLs), schaut, ob sich die Modelle diesen annähern, und setzt dann Pläne zur Risikominderung um, wenn das passiert.

Wie schneiden aktuelle KI-Modelle bei KI-Benchmarks ab?

Viele öffentliche Ranglisten verfolgen die Leistung von LLM anhand verschiedener Kennzahlen.

Skala LLM-Ranglisten. Enthält Ranglisten für agentenbezogenes Verhalten, Sicherheit und Grenzleistungen anhand standardisierter Benchmarks.
LLM-Statistiken. Umfasst Bildgenerierung, Videogenerierung, Text-to-Speech, Speech-to-Text und Einbettungen.
Vellum LLM-Rangliste. Konzentriert sich auf logisches Denken und Programmieren.
Künstliche Analyse.AI LM-Rangliste. Bewertet Modelle nach Intelligenz, Preis, Geschwindigkeit und Latenz.
Hugging Face Open LLM-Rangliste. Enthält detaillierte Ergebnisse für verschiedene Modelle.

Ranglisten

Hier sind ein paar Ergebnisse, wie sie zum Zeitpunkt des Verfassens dieses Artikels im Dezember 2025 vorlagen.

Die letzte Prüfung der Menschheit. Laut der Vellum-Rangliste ist der aktuelle Spitzenreiter (zum Zeitpunkt der Erstellung dieses Artikels) Gemini 3 Pro, Googles wichtigstes generatives multimodales KI-Modell.
Multimodales Denken. Gemini 3 Pro, das entwickelt wurde, um verschiedene Modalitäten in einem einzigen System zu vereinen, ist laut der Kaggle MMLU-Pro-Rangliste führend im Bereich des multimodalen Denkens.
Codierungs-/Softwareaufgaben (SWE-Bench). Anthopics Claude Sonnet 4.5, das sorgfältiges Denken in den Vordergrund stellt, ist laut der Vellum-Rangliste die Nummer eins bei Programmier- und realen Softwareaufgaben.
Agentische / langfristige Aufgaben. Claude Sonnet 4.5 ist laut der Vellum-Rangliste auch bei agentenbasierten und langfristigen Aufgaben ganz vorne mit dabei.

Sicherheit/Gefahrenpotenzial

Skala LLM-Sicherheitsrangliste, abgerufen am 8. Dezember 2025

Open AI hat am 18.04.2024 in der PropensityBench, die die Wahl zwischen sicherem und schädlichem Verhalten misst.
GPT-oss-120b leitete in der Bewertung von Risiken für die nationale Sicherheit und öffentliche Sicherheit.
Caude Sonett-4 .5 hat dem Druck, zu lügen, am meisten widerstanden.

Wie die letzte Prüfung der Menschheit genutzt wird

Bis jetzt habe ich erklärt, was HLE ist und wie es entstanden ist. Schauen wir uns jetzt mal an, wie der Test in der Praxis genutzt wird.

Für Forschungsteams

HLE bietet eine einheitliche Bewertungsmethode für alle Bereiche. Es zeigt die Stärken und Schwächen eines Modells auf. Es zeigt, wie weit es noch von der Leistung menschlicher Experten entfernt ist. Teams können diese Muster nutzen, um die Modellentwicklung und das gezielte Training nach dem Training zu steuern.

Für politische Entscheidungsträger

HLE bietet eine öffentliche, globale Messgröße für den Fortschritt beim KI-Schlussfolgern. Es schafft einen gemeinsamen Bezugspunkt für alle Länder und Regulierungsbehörden und kann Diskussionen über Schwellenwerte, Aufsicht und Governance in der Realität verankern, ohne dass es zu einem Hype kommt.

Fazit

KI-Benchmarks bestimmen, wie wir den Fortschritt der KI messen. Da frühere Benchmarks nicht mehr weiterentwickelt werden, wurde klar, dass wir einen neuen Benchmark brauchen, der sich auf logisches Denken konzentriert und nicht nur auf das Abrufen von Informationen oder das Erkennen von Mustern.

Humanity's Last Exam versucht, diese Lücke zu schließen, indem es Fragen auf Hochschulniveau von Experten aus der ganzen Welt sammelt, um die Grenzen von LLMs aufzuzeigen. Das ist zwar nicht das letzte Wort, aber es zeigt, wo KI heute im Vergleich zum Denken menschlicher Experten steht.

Für mehr Infos über LLMs und wie sie funktionieren, schau dir mal diese Quellen an:

Was ist die letzte Prüfung der Menschheit (HLE)?

Warum haben die Forscher HLE entwickelt?

Was für Fragen gibt's in HLE?

Wer hat HLE gemacht?

Wie nutzen Forscher HLE?

Author

Mark Pedigo

Mark Pedigo, PhD, ist ein angesehener Datenwissenschaftler mit Fachwissen in den Bereichen Datenwissenschaft im Gesundheitswesen, Programmierung und Bildung. Mit einem Doktortitel in Mathematik, einem B.S. in Informatik und einem Professional Certificate in KI verbindet Mark technisches Wissen mit praktischer Problemlösungskompetenz. In seiner beruflichen Laufbahn war er unter anderem an der Aufdeckung von Betrug, der Vorhersage von Kindersterblichkeit und Finanzprognosen beteiligt und hat an der Kostenschätzungssoftware der NASA mitgearbeitet. Als Pädagoge hat er auf dem DataCamp und an der Washington University in St. Louis unterrichtet und junge Programmierer angeleitet. In seiner Freizeit genießt Mark mit seiner Frau Mandy und seinem Hund Harley die Natur in Minnesota und spielt Jazz-Piano.

Themen

Künstliche Intelligenz

Große Sprachmodelle

Die besten KI-Kurse

Lernpfad

Grundlagen der KI

10 Std.

Lerne die Grundlagen der KI kennen, finde heraus, wie du KI effektiv bei der Arbeit nutzen kannst, und tauche in Modelle wie chatGPT ein, um dich in der dynamischen KI-Landschaft zurechtzufinden.

Details anzeigen

Kurs starten

Kurs

KI-Ethik

1 Std.

131.3K

Dieser Kurs führt dich in die KI-Ethik ein und beleuchtet Aspekte wie Grundprinzipien, Fairness, Verzerrungen und Vertrauen ins KI-Design.

Details anzeigen

Kurs starten

Kurs

Einführung in KI-Agenten

1 Std. 30 Min.

110.3K

Lerne die Grundlagen von KI-Agenten, ihre Bausteine und echte Anwendungen kennen – ganz ohne Programmieren.

Details anzeigen

Kurs starten

Verwandt

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!

Nisha Arya Ahmed

15 Min.

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.

Nathaniel Taylor-Leach

4 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.

Matt Crabtree

Mehr anzeigen Mehr anzeigen

Was ist „die letzte Prüfung der Menschheit“?

Warum brauchen wir eine „letzte Prüfung“?

Wie wurde HLE entwickelt?

Was kommt in der letzten Prüfung der Menschheit dran?

Kritik an der letzten Prüfung der Menschheit

Die Landschaft der KI-Benchmarks

Wissen und Argumentation

Multimodales Verständnis

Softwareentwicklung und Einsatz von Tools

Ganzheitliche Bewertungsrahmen mit mehreren Metriken

Sicherheit und Gefährlichkeitsbewertungen

Wie schneiden aktuelle KI-Modelle bei KI-Benchmarks ab?

Ranglisten

Sicherheit/Gefahrenpotenzial

Wie die letzte Prüfung der Menschheit genutzt wird

Für Forschungsteams

Für politische Entscheidungsträger

Fazit

Die letzte Prüfung der Menschheit – Häufig gestellte Fragen

Was für Fragen gibt's in HLE?

Wer hat HLE gemacht?

Wie nutzen Forscher HLE?

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Python Switch Case Statement: Ein Leitfaden für Anfänger

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Grundlagen der KI

KI-Ethik

Einführung in KI-Agenten

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Python Switch Case Statement: Ein Leitfaden für Anfänger

Grundlagen der KI