Direkt zum Inhalt

Was ist die letzte Prüfung der Menschheit? Der KI-Benchmark für Expertenniveau-Argumentation

Finde heraus, was die „Humanity's Last Exam“ ist und wie sie in die KI-Benchmark-Landschaft passt.
Aktualisiert 18. Dez. 2025  · 7 Min. lesen

Ich hab gerade einen Auftrag für eine KI-Firma gemacht. Unter anderem helfen sie Forschern dabei, LLMs nachzutrainieren. Als promovierter Mathematiker habe ich Matheaufgaben entwickelt, die selbst die modernsten KI-Modelle überfordert haben. Trickfragen zählten nicht; die Fragen mussten Denkfehler aufdecken.

Während dieser Arbeit hab ich immer wieder von der „letzten Prüfung der Menschheit“ gehört. Ich hab erfahren, dass es sich um einen KI-Benchmark handelt, der entwickelt wurde, um das logische Denken in vielen akademischen Bereichen zu testen. Meine Neugier hat mich dazu gebracht, genauer zu schauen, was HLE ist und was es uns über die aktuellen Grenzen des KI-Denkens verrät. 

Wenn du dich noch nicht so gut mit KI und Benchmarking auskennst, empfehle ich dir den Lernpfad „Grundlagen der KI”

Was ist „die letzte Prüfung der Menschheit“?

Da sich LLMs weiterentwickelt haben, nutzen Forscher Sammlungen von Bewertungsfragen, die als Benchmarksbekannt sind , um die Leistung zu vergleichen und den Fortschritt zu verfolgen. Die letzte Prüfung der Menschheit (HLE ) ist ein Test, der entwickelt wurde, um die Fähigkeiten eines LLM zum logischen Denken und zur Schlussfolgerung zu messen , nicht nur seine Fähigkeit zum Musterabgleich. Es geht darum, zu checken, wie gut ein Modell mit kniffligen Problemen aus vielen akademischen Bereichen klarkommt.

Warum brauchen wir eine „letzte Prüfung“?

Warum noch ein weiterer Benchmark, wenn es doch schon so viele gibt? Benchmarks, die früher für LLMs echt eine Herausforderung waren, wie zum Beispiel MMLU, sind jetzt voll ausgereizt, und die Modelle erreichen oft über 90 Prozent. An diesem Punkt messen diese Benchmarks keine sinnvollen Unterschiede zwischen den Modellen mehr. 

HLE ist ein Benchmark der nächsten Generation, der den Schwierigkeitsgrad erhöht, indem er von Experten entwickelte Fragen zusammenstellt, die mehrstufiges logisches Denken erfordern und nicht nur das Abrufen oberflächlicher Muster.

Wie wurde HLE entwickelt?

Ende 2024 hat sich das Centre for AI Safety, eine gemeinnützige Organisation, die sich mit KI-Sicherheit beschäftigt, mit Scale AI, einem Datenunternehmen, zusammengetan, um einen anspruchsvolleren KI-Benchmark zu entwickeln. Dan Hendrycks hat das Projekt geleitet. 

Das Team hat Fragen auf Hochschulniveau aus verschiedenen akademischen Fachbereichen gesammelt und coole Preise angeboten: Die besten 50 Mitwirkenden haben jeweils 5000 Dollar gewonnen, und die nächsten 500 haben 500 Dollar bekommen. 

Das Ergebnis war ein riesiger Pool an Fragen auf Expertenniveau zu vielen Themen, wie Mathe, Informatik, Literatur, Musikanalyse und Geschichte.

Was kommt in der letzten Prüfung der Menschheit dran?

Das HLE-Papier beschreibt den Benchmark als „...den endgültigen geschlossenen Benchmark für allgemeine akademische Fähigkeiten.“ Die Fragen erfordern mehrstufiges Denken, was verhindert, dass Modelle Antworten raten oder auswendig lernen. 

HLE hat 2.500 öffentliche Fragen und etwa 500 weitere Fragen in einem privaten Holdout-Set. 

Jede Frage muss originell sein, eine einzige richtige Antwort haben und darf nicht einfach durch eine Websuche oder Datenbankabfrage gefunden werden können. Ungefähr 76 % der Fragen haben das Antwortformat „genaue Übereinstimmung” und die restlichen 24 % sind Multiple-Choice-Fragen. Ungefähr 14 % der Fragen sind multimodal, also mit Text und Bildern.

Das HLE-Team hat die Fragen echt streng geprüft. 

  1. Um angenommen zu werden, mussten die Fragen einen LLM-Studenten vor eine echte Herausforderung stellen. Ungefähr siebzigtausend Fragen haben dieses Kriterium erfüllt.
  2. Fachkundige Gutachter haben die Fragen überarbeitet und auf dreizehntausend Fragen reduziert.
  3. Die Organisatoren und Fachgutachter haben 6.000 dieser Fragen manuell genehmigt. 
  4. Die Forscher haben diesen Fragenpool in einen öffentlichen Satz von 2.500 Fragen und einen Holdout-Satz von etwa 500 Fragen aufgeteilt.

Kritik an der letzten Prüfung der Menschheit

Die ersten Ergebnisse zeigten, dass die Pioniermodelle bei den Fragen anfangs schlecht abschnitten, aber trotzdem viel Zuversicht zeigten. Diese Lücke deutet auf Halluzinationen hin.

Auch unabhängige Gruppen haben Bedenken geäußert. Future House, ein gemeinnütziges Forschungslabor, hat einen Blogbeitrag mit dem Titel „Etwa 30 % der Antworten in den Abschlussprüfungen der Menschheit in Chemie/Biologie sind wahrscheinlich falsch” veröffentlicht. 

Ihre Analyse hat sich auf das Überprüfungsprotokoll konzentriert. Die Leute, die die Fragen geschrieben haben, haben die richtigen Antworten angegeben, aber die Prüfer sollten nur fünf Minuten damit verbringen, die Richtigkeit der Antworten zu checken. Sie sagen, dass dieser Prozess zu komplizierte, gekünstelte oder unklare Antworten durchlässt, die oft nicht mit der wissenschaftlichen Literatur übereinstimmen. 

Die Leute von HLE haben auf den Beitrag reagiert, indem sie drei Experten gebeten haben, den umstrittenen Teil zu überprüfen. Am 16. September 2025 wollten sie einen fortlaufenden Überprüfungsprozess für HLE ankündigen. 

Die Landschaft der KI-Benchmarks

HLE ist Teil eines größeren Ökosystems von Benchmarks, die verschiedene Aspekte der LLM-Fähigkeiten testen.

Wissen und Argumentation

Diese Benchmarks checken akademisches Wissen und logisches Denken.

  • Massives Multitasking-Sprachverständnis (MMLU).  MMLU testet die Zero-Shot-Leistung bei siebenundfünfzig verschiedenen Themen. 
  • MMLU-Pro/MMLU Pro+. Komplexere Fragen und ein Fokus auf höherwertiges Denken.
  • Google Proof Q&A (GPQA) Ein Google-sicherer STEM-Benchmark auf Graduiertenniveau mit 448 Multiple-Choice-Fragen.
  • Die letzte Prüfung der Menschheit (HLE). HLE nutzt von Experten zusammengestellte Aufgaben, bei denen es mehr ums logische Denken als ums Auswendiglernen geht.

Multimodales Verständnis

Diese Benchmarks messen das logische Denken, das sowohl Texte als auch Bilder umfasst.

Softwareentwicklung und Einsatz von Tools

Andere Benchmarks konzentrieren sich speziell auf Softwareentwicklung und den Einsatz von Tools.

  • SWE-bench. Basierend auf echten GitHub-Problemen aus zwölf Python-Repositorys. Das Modell checkt den Code, versteht, was das Problem ist, und schlägt einen Patch vor.
  • SWE-Bench Verifiziert. Eine verbesserte Version von SWE-bench, die zu spezifische Tests repariert, unklare Problemschilderungen klarer macht und die Einrichtung der Umgebung stabiler macht.
  • SWE-bench-Live. Eine skalierbare, ständig aktualisierte Version mit 1319 Aufgaben in 93 Repositorys. 

Ganzheitliche Bewertungsrahmen mit mehreren Metriken

Das Center for Research on Foundation Models (CRFM) der Stanford University hat ganzheitliche Bewertung von Sprachmodellen (HELM) entwickelt, um eine verantwortungsvolle Bewertung von KI zu unterstützen. 

HELM testet Modelle anhand einer Reihe von standardisierten Szenarien, wie zum Beispiel Fragen beantworten, Zusammenfassen, sicherheitskritische Abfragen und soziale/ethische Inhalte. Diese Szenarien werden in mehreren Bereichen bewertet, nicht nur in Bezug auf Genauigkeit, sondern auch in Bezug auf Kalibrierung, Robustheit und Toxizität. 

HELM hat sich zu einer ganzen Familie von verwandten Frameworks entwickelt. 

  • HEML-Funktionen. Eine allgemeine Rangliste zur Bewertung von LMs.
  • Audio. Bewertungen für Aufgaben im Zusammenhang mit Audio und Sprache.
  • HELM Lite. Eine kleinere, schnellere Teilmenge für schnelle Vergleiche.
  • HELM Finance. HELM ist genau auf Finanzaufgaben zugeschnitten.
  • MedHELM. Bewertungen für gesundheitsbezogene Argumentation und Sicherheit.

Sicherheit und Gefährlichkeitsbewertungen

Sicherheitsrahmen messen eher das Risiko als die intellektuelle Kompetenz.

  • Modellbewertung und Bedrohungsforschung (METR) ist eine gemeinnützige Forschungsorganisation, die potenziell gefährliche Fähigkeiten wie Cyberangriffe, Versuche, Abschaltungen zu vermeiden, oder die Fähigkeit zur Automatisierung von KI-Forschung und -Entwicklung bewertet. Seine Aufgabe ist es, katastrophale Risiken frühzeitig zu erkennen.
  • Das Frontier Safety Framework von Google DeepMind. Definiert kritische Fähigkeitsniveaus (CCLs), schaut, ob sich die Modelle diesen annähern, und setzt dann Pläne zur Risikominderung um, wenn das passiert.

Wie schneiden aktuelle KI-Modelle bei KI-Benchmarks ab?

Viele öffentliche Ranglisten verfolgen die Leistung von LLM anhand verschiedener Kennzahlen.

Ranglisten

Hier sind ein paar Ergebnisse, wie sie zum Zeitpunkt des Verfassens dieses Artikels im Dezember 2025 vorlagen.

  • Die letzte Prüfung der Menschheit. Laut der Vellum-Rangliste ist der aktuelle Spitzenreiter (zum Zeitpunkt der Erstellung dieses Artikels) Gemini 3 Pro, Googles wichtigstes generatives multimodales KI-Modell.
  • Multimodales Denken. Gemini 3 Pro, das entwickelt wurde, um verschiedene Modalitäten in einem einzigen System zu vereinen, ist laut der Kaggle MMLU-Pro-Rangliste führend im Bereich des multimodalen Denkens. 
  • Codierungs-/Softwareaufgaben (SWE-Bench). Anthopics Claude Sonnet 4.5, das sorgfältiges Denken in den Vordergrund stellt, ist laut der Vellum-Rangliste die Nummer eins bei Programmier- und realen Softwareaufgaben.
  • Agentische / langfristige Aufgaben. Claude Sonnet 4.5 ist laut der Vellum-Rangliste auch bei agentenbasierten und langfristigen Aufgaben ganz vorne mit dabei.

Sicherheit/Gefahrenpotenzial

Skala LLM-Sicherheitsrangliste, abgerufen am 8. Dezember 2025

  • Open AI hat am 18.04.2024 in der PropensityBench, die die Wahl zwischen sicherem und schädlichem Verhalten misst.
  • GPT-oss-120b leitete in der Bewertung von Risiken für die nationale Sicherheit und öffentliche Sicherheit.
  • Caude Sonett-4 .5 hat dem Druck, zu lügen, am meisten widerstanden.

Wie die letzte Prüfung der Menschheit genutzt wird

Bis jetzt habe ich erklärt, was HLE ist und wie es entstanden ist. Schauen wir uns jetzt mal an, wie der Test in der Praxis genutzt wird. 

Für Forschungsteams

HLE bietet eine einheitliche Bewertungsmethode für alle Bereiche. Es zeigt die Stärken und Schwächen eines Modells auf. Es zeigt, wie weit es noch von der Leistung menschlicher Experten entfernt ist. Teams können diese Muster nutzen, um die Modellentwicklung und das gezielte Training nach dem Training zu steuern.

Für politische Entscheidungsträger 

HLE bietet eine öffentliche, globale Messgröße für den Fortschritt beim KI-Schlussfolgern. Es schafft einen gemeinsamen Bezugspunkt für alle Länder und Regulierungsbehörden und kann Diskussionen über Schwellenwerte, Aufsicht und Governance in der Realität verankern, ohne dass es zu einem Hype kommt.

Fazit

KI-Benchmarks bestimmen, wie wir den Fortschritt der KI messen. Da frühere Benchmarks nicht mehr weiterentwickelt werden, wurde klar, dass wir einen neuen Benchmark brauchen, der sich auf logisches Denken konzentriert und nicht nur auf das Abrufen von Informationen oder das Erkennen von Mustern. 

Humanity's Last Exam versucht, diese Lücke zu schließen, indem es Fragen auf Hochschulniveau von Experten aus der ganzen Welt sammelt, um die Grenzen von LLMs aufzuzeigen. Das ist zwar nicht das letzte Wort, aber es zeigt, wo KI heute im Vergleich zum Denken menschlicher Experten steht.

Für mehr Infos über LLMs und wie sie funktionieren, schau dir mal diese Quellen an: 

Die letzte Prüfung der Menschheit – Häufig gestellte Fragen

Was ist die letzte Prüfung der Menschheit (HLE)?

Es ist ein Benchmark, der entwickelt wurde, um die Fähigkeit eines LLM zu testen, anhand von fachspezifischen, geschlossenen akademischen Fragen aus vielen Disziplinen zu argumentieren.

Warum haben die Forscher HLE entwickelt?

Frühere Benchmarks waren für Frontier-Modelle zu einfach geworden. HLE macht es schwieriger, damit Forscher sehen können, wie sich das logische Denken verbessert.

Was für Fragen gibt's in HLE?

HLE hat Fragen aus vielen verschiedenen Fächern, wie Mathe, Informatik, Geschichte und Musikanalyse.

Wer hat HLE gemacht?

Dan Hendrycks vom Center for AI Safety hat das Team geleitet. Sie haben sich mit Scale AI zusammengetan.

Wie nutzen Forscher HLE?

Sie vergleichen Modelle, verfolgen Verbesserungen im Laufe der Zeit, finden schwache Bereiche und messen den Abstand zwischen KI und menschlichem Fachwissen.


Mark Pedigo's photo
Author
Mark Pedigo
LinkedIn

Mark Pedigo, PhD, ist ein angesehener Datenwissenschaftler mit Fachwissen in den Bereichen Datenwissenschaft im Gesundheitswesen, Programmierung und Bildung. Mit einem Doktortitel in Mathematik, einem B.S. in Informatik und einem Professional Certificate in KI verbindet Mark technisches Wissen mit praktischer Problemlösungskompetenz. In seiner beruflichen Laufbahn war er unter anderem an der Aufdeckung von Betrug, der Vorhersage von Kindersterblichkeit und Finanzprognosen beteiligt und hat an der Kostenschätzungssoftware der NASA mitgearbeitet. Als Pädagoge hat er auf dem DataCamp und an der Washington University in St. Louis unterrichtet und junge Programmierer angeleitet. In seiner Freizeit genießt Mark mit seiner Frau Mandy und seinem Hund Harley die Natur in Minnesota und spielt Jazz-Piano.

Themen

Die besten KI-Kurse

Lernpfad

Grundlagen der KI

0 Min.
Lerne die Grundlagen der KI kennen, finde heraus, wie du KI effektiv bei der Arbeit nutzen kannst, und tauche in Modelle wie chatGPT ein, um dich in der dynamischen KI-Landschaft zurechtzufinden.
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Blog

Die 30 wichtigsten Fragen und Antworten zum Thema generative KI für 2026

Dieser Blog hat eine ganze Reihe von Fragen und Antworten zu generativer KI, von den Grundlagen bis hin zu fortgeschrittenen Themen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.
Vinod Chugani's photo

Vinod Chugani

14 Min.

Blog

Die 50 besten AWS-Interview-Fragen und Antworten für 2025

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interviewfragen, zusammen mit Fragen, die auf realen Situationen basieren.
Zoumana Keita 's photo

Zoumana Keita

15 Min.

Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

15 Min.

Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Mehr anzeigenMehr anzeigen