Direkt zum Inhalt

OpenAI's Deep Research: Ein Leitfaden mit praktischen Beispielen

Erfahre mehr über OpenAIs neues Deep Research Tool, mit dem du tiefgreifende, mehrstufige Recherchen durchführen kannst.
Aktualisierte 5. Feb. 2025  · 8 Min. Lesezeit

OpenAI hat gerade Deep Researchveröffentlicht , einen KI-Agenten, der auf einer Version des kommenden o3-Modells. Sie wurde entwickelt, um das Internet zu durchsuchen, mehrere Quellen zu analysieren und große Mengen an Informationen zusammenzufassen.

Du fragst dich vielleicht: Macht ChatGPT das nicht schon?

Im Gegensatz zu einer normalen ChatGPT-Sitzung, die schnelle Antworten liefert, kann Deep Research mehrstufige Untersuchungen durchführen, auf mehrere Quellen verweisen und strukturierte Berichte erstellen.

Wenn du zum Beispiel schon einmal nach dem besten Auto gesucht hast - Bewertungen vergleichen, Kosten abwägen usw. - dann weißt du, dass es Zeit und viel Internetrecherche braucht, um zuverlässige Informationen zu finden. Deep Research ist genau für diese Art von Arbeit gemacht.

Ich habe Deep Research getestet und war sowohl erstaunt als auch enttäuscht. Sie zeigt großes Potenzial, aber sie produziert auch falsche Fakten und Schlussfolgerungen. In diesem Blog werde ich dein menschlicher Vertreter sein und alles zusammenfassen, was du über Deep Research wissen musst. Ich führe dich durch praktische Beispiele, gebe dir Tipps zum Prompting und zeige dir, wo Deep Research glänzt und wo du besonders vorsichtig sein musst.

Was ist die Tiefenforschung von OpenAI?

Deep Research von OpenAI ist ein KI-gestützter Agent, der tiefgreifende, mehrstufige Recherchen im Internet durchführt. Im Gegensatz zu den Standardfunktionen von chatGPT, die schnelle Antworten liefern, findet, analysiert und synthetisiert Deep Research selbstständig Informationen aus Hunderten von Online-Quellen.

OpenAIs DeepResearch kann über den Chat aufgerufen werden

Deep Research ist für alle gedacht, die umfassende und zuverlässige Recherchen benötigen:

  • Fachleute aus den Bereichen Finanzen, Wissenschaft, Politik und Technik, die gut zitierte, strukturierte Berichte benötigen
  • Unternehmensstrategen, die Wettbewerbsanalysen oder Trendprognosen durchführen
  • ForscherInnen und SchülerInnen sammeln Informationen aus verschiedenen Quellen
  • Einkäufer/innen und Verbraucher/innen, die wichtige Kaufentscheidungen treffen (z. B. Autos, Haushaltsgeräte, Immobilien)
  • Redakteure, Journalisten und Analysten, die faktengeprüfte, quellenübergreifende Erkenntnisse benötigen

Wenn eine Aufgabe darin besteht, mehrere Quellen zu durchsuchen, Daten mit Querverweisen zu versehen und Informationen in einem nützlichen Format zusammenzufassen, ist Deep Research das richtige Werkzeug dafür.

Wie funktioniert die Tiefenforschung?

Deep Research basiert auf einer Version des kommenden o3-Modells und baut auf den Fortschritten von OpenAI im Bereich der Logikmodelle auf, ist aber speziell für das Surfen im Internet und die Analyse von Daten aus der realen Welt optimiert.

Um dies zu erreichen, trainierte OpenAI Deep Research mit Verstärkungslernen auf reale Browsing- und Reasoning-Aufgaben. Dadurch kann das Modell einem iterativen, schrittweisen Forschungsprozess folgen, was seine Fähigkeit verbessert, komplexe Themen in strukturierte Berichte zusammenzufassen.

Deep Research Benchmarks

Die letzte Prüfung der Menschheit

Die letzte Prüfung der Menschheit ist ein neu veröffentlichter Benchmark, der KI in Multiple-Choice- und Kurzantwortfragen auf Expertenniveau in über 100 Fächern testet, von Linguistik und Raketenwissenschaft bis hin zu Ökologie und Mathematik. Diese Bewertung misst die Fähigkeit einer KI, fachübergreifend zu denken und bei Bedarf nach Spezialwissen zu suchen - eine entscheidende Fähigkeit für forschungsorientierte Modelle.

Deep Research erreichte eine Rekordgenauigkeit von 26,6 % und übertraf damit frühere Modelle, darunter OpenAIs o1 (9,1 %), DeepSeek-R1 (9,4 %) und Claude 3.5 Sonnet (4,3 %). Die größten Verbesserungen im Vergleich zu OpenAIs o1 gab es in den Bereichen Chemie, Geistes- und Sozialwissenschaften sowie Mathematik, wo Deep Research seine Fähigkeit unter Beweis stellte, komplexe Fragen aufzuschlüsseln und maßgebliche Informationen zu finden.

Modell

Genauigkeit (%)

GPT-4o

3.3

Claude 3.5 Sonett

4.3

Zwillinge-Denken

6.2

OpenAI o1

9.1

DeepSeek-R1*

9.4

OpenAI o3-mini (hoch)*

13.0

OpenAI Deep Research (mit Browsing + Python Tools)

26.6

* Modelle, die in der reinen Textprüfung getestet wurden, weil sie nicht multimodal sind. Quelle: OpenAI

GAIA

GAIA (General AI Agent Benchmark) bewertet, wie gut KI-Systeme mit Fragen aus der realen Welt umgehen können, die eine Kombination aus logischem Denken, Web-Browsing, multimodalen Fähigkeiten und der Beherrschung von Tools erfordern.

Deep Research stellte einen neuen State-of-the-Art (SOTA)-Rekord auf und führte die externe GAIA-Rangliste mit starken Leistungen auf allen Schwierigkeitsstufen. Das Modell zeigte eine besonders hohe Genauigkeit bei Aufgaben der Stufe 3, die eine komplexe, mehrstufige Recherche und Synthese erfordern.

GAIA-Bewertung

Level 1

Level 2

Level 3

Durchschnitt

Vorherige SOTA

67.92%

67.44%

42.31%

63.64%

Tiefe Forschung (pass@1)

74.29%

69.06%

47.6%

67.36%

Tiefe Forschung (cons@64)

78.66%

73.21%

58.03%

72.57%

Quelle: OpenAI

Die hohe pass@1 Punktzahlvon Deep Research zeigt, dass schon der erste Versuch, eine GAIA-Frage zu beantworten, genauer ist als frühere Modelle. Der cons@64 Score (der die Leistung bei mehreren Antwortversuchen misst) unterstreicht außerdem seine Fähigkeit, sich selbst zu korrigieren und seine Antworten auf der Grundlage neuer Informationen zu verfeinern.

Interne Bewertungen

OpenAI führte auch interne Evaluierungen durch, bei denen Deep Research von Domänenexperten bei Aufgaben auf Expertenebene bewertet wurde. Ich fand die internen Bewertungen sehr interessant!

Die Grafik unten zeigt, dass die Erfolgsquote des Modells steigt, je mehr Werkzeugaufrufe es macht. Das unterstreicht, wie wichtig es ist, ihn Informationen iterativ durchsuchen und analysieren zu lassen - mehr Zeit zum Nachdenken führt zu besseren Ergebnissen.

pass rate vs max tool calls graph for deep research von openai

Quelle: OpenAI

Werfen wir einen Blick auf eine andere Grafik - siehe unten. Deep Research funktioniert am besten bei Aufgaben mit einem geringeren geschätzten wirtschaftlichen Wert, wobei die Genauigkeit abnimmt, je größer die potenziellen finanziellen Auswirkungen der Aufgabe sind. Das deutet darauf hin, dass wirtschaftlich bedeutsamere Aufgaben tendenziell komplexer sind oder auf proprietärem Wissen beruhen, das online nicht allgemein zugänglich ist.

pass rate vs. geschätzter wirtschaftlicher wert grafik für openai's deep research

Quelle: OpenAI

In der folgenden Grafik werden die Erfolgsquoten den geschätzten Stunden gegenübergestellt, die ein Mensch für jede Aufgabe benötigen würde. Das Modell ist am besten bei Aufgaben, für die ein Mensch 1 bis 3 Stunden brauchen würde, aber die Leistung nimmt nicht kontinuierlich mit der Zeit ab - ein Hinweis darauf, dass das, was die KI als schwierig empfindet, nicht immer mit dem übereinstimmt, was Menschen als zeitaufwändig empfinden.

Quelle: OpenAI

Wie du Deep Research nutzen kannst: Praktische Beispiele

Zum Zeitpunkt der Veröffentlichung dieses Artikels steht Deep Research nur Pro-Nutzern zur Verfügung, mit einem Limit von 100 Abfragen pro Monat, aber OpenAI plant, den Zugang bald auf Plus-, Team- und Enterprise-Nutzer zu erweitern.

Meiner Meinung nach befindet sich Deep Research noch in der Anfangsphase. Auch wenn sie vielversprechend ist, zeigt das erste Beispiel unten viele ihrer Probleme auf. Das zweite Beispiel zeigt jedoch sein immenses Potenzial.

Beispiel 1: KI-Ökosysteme

Es fällt mir immer wieder schwer, einen vollständigen Überblick über die KI-Ökosysteme der verschiedenen Unternehmen zu bekommen. Nimm zum Beispiel Google - sie haben Gemini 2.0 Flash, Imagen 3, Veo 2, Project Mariner, Project Astra... was fehlt mir noch? Um endlich einen klaren Überblick zu bekommen, habe ich OpenAI's Deep Research mit dieser Anfrage konfrontiert.

Beispiel eines Chats mit OpenAIs Deep Research 

Beachte, dass das Modell nicht direkt mit der Recherche begonnen hat, sondern stattdessen um Klärung gebeten hat. Bei all meinen Tests hat das Modell immer versucht, seine Suche einzugrenzen, egal wie spezifisch meine erste Aufforderung war. Das ist meiner Meinung nach nützlich, weil ich oft denke, dass meine Aufforderung klar und spezifisch ist, aber sie könnte noch etwas verfeinert werden.

Ich beantwortete die Fragen des Modells, und dann begann die Recherche. Auf der rechten Seite des Browsers öffnete sich ein Fenster, in dem die Aktivitäten und Quellen des Agenten in Echtzeit angezeigt wurden:

Es dauerte 11 Minuten und das Modell konsultierte 25 Quellen. Beachte, dass eine Quelle eine übergeordnete Website ist und das Modell mehrere Seiten dieser Website durchsuchen kann - bei 25 Quellen und durchschnittlich vier Seiten pro Quelle kannst du davon ausgehen, dass das Modell etwa 100 Webseiten durchsucht hat.

OpenAIs Deep Research brauchte 11 Minuten, um die Suche abzuschließen

Insgesamt war ich von dem Ergebnis enttäuscht - du kannst die Antwort von Deep Research hier lesen hier. Aber fangen wir damit an, was mir daran gefallen hat:

  • Obwohl ich keine Gliederung vorgegeben habe, war die Antwort gut gegliedert, mit klaren Abschnitten, der richtigen Verwendung von Fettdruck, Schriftgröße und Aufzählungspunkten.
  • Die Quellen sind gut platziert, sie erscheinen direkt nach den Informationen, auf die sie sich beziehen, und dieses System macht es einfach, die Fakten zu überprüfen.
  • Der Bericht hat ein gutes Gleichgewicht zwischen Details und Länge gefunden - er war nicht oberflächlich, aber auch keine einstündige Lektüre. Ich kann jederzeit nach mehr Details fragen, wenn ich mehr wissen möchte.

Die Antwort enthielt jedoch mehrere Probleme, von denen ich mich auf die wichtigsten konzentrieren werde:

  • Ungenauigkeiten: Es verwechselte DeepSeek-V3 mit DeepSeek-R1 (vergiss nicht, dass du die Antwort selbst lesen kannst hier).
  • Veraltete Informationen: Obwohl ich ausdrücklich um einen aktuellen Bericht gebeten hatte, behauptete Deep Research, dass Metas neuestes Modell Llama 2 und Anthropics neuestes Modell Claude 2 sei, und erwähnte Gerüchte über etwas mit dem Codenamen Sonnet und Haiku. Zuerst fand ich das lustig, aber dann habe ich darüber nachgedacht, wie viele Leute diese Antworten für bare Münze nehmen könnten.
  • Geringe Einhaltung der Fristen: Ich habe Deep Research ausdrücklich gesagt, dass sie GPT-4 ausschließen und sich auf die neuesten Modelle konzentrieren sollen, aber sie haben diese Anweisung nicht befolgt.
  • Unvollständige Antworten: Im OpenAI-Abschnitt wurden wichtige Modelle wie o1 nicht erwähnt, und im Google-Abschnitt wurde Veo komplett ausgelassen.

Diese Probleme machen es schwer, OpenAIs Deep Research zu vertrauen. Ich habe es absichtlich an einem Thema getestet, über das ich gut Bescheid weiß, damit ich die Antworten auf Fakten überprüfen kann - aber was wäre, wenn ich mich bei einem Thema, über das ich nichts weiß, auf Deep Research verlassen müsste?

Beispiel 2:  Evergreen-Thema

Vielleicht ist das Problem mit Deep Research, dass es noch nicht so gut darin ist, die aktuellsten Informationen zu ermitteln. Also beschloss ich, es an einem immerwährenden Thema zu testen - einem, das nicht so sehr von aktuellen Entwicklungen abhängt.

Ich fahre ein Auto, das 2013 gebaut wurde, und denke gelegentlich darüber nach, es zu ersetzen. Aber ich bleibe immer bei der gleichen Frage hängen: Soll ich neu oder gebraucht kaufen? Ein neues Auto verliert schnell an Wert, aber ein altes Auto kann höhere Reparaturkosten bedeuten. Ich wollte wissen, was Experten darüber denken. Das war eine gute Gelegenheit, Deep Research zu bitten, verschiedene Studien und Meinungen zu sichten und einen Bericht zusammenzustellen.

Bevor wir weitermachen, möchte ich dir einen Tipp geben: Bevor du Deep Research aufforderst, optimiere deine Aufforderung mit Hilfe deines Go-to-LLM. Beginne mit "Du bist ein prompter Ingenieur. Hilf mir, diesen Prompt zu optimieren: (dein Prompt hier)". Hier ist die optimierte Aufforderung, die ich für Deep Research verwendet habe:

Wie schon zuvor bat Deep Research vor dem Start um Klarstellungen und schloss dann die Recherche in sechs Minuten ab, indem es mehrere Webseiten aus 12 Quellen konsultierte. Den vollständigen Bericht kannst du hier.

Dieses Mal war der Bericht gut - sehr gut!

Ich hätte nie gedacht, dass du dieses Problem aus so vielen Blickwinkeln betrachten kannst. Der Umfang der Informationen war beeindruckend und ich schätze, dass Deep Research mir mehr als 10 Stunden an Recherche erspart hat. Sie zog akademische Studien, Branchenberichte, Markttrendanalysen, Versicherungskostenvergleiche usw. heran.

Ich bin kein Experte auf diesem Gebiet, deshalb kann ich die Richtigkeit des Berichts nicht vollständig beurteilen. Aus Sicht der Verbraucherinnen und Verbraucher waren viele der Informationen jedoch logisch und hilfreich. Ich habe auch einige Details mit den zitierten Quellen abgeglichen und konnte keine Probleme feststellen.

Genau wie im ersten Beispiel war die Tiefe ausgewogen und die Ausgangsstruktur hervorragend. Die folgende Tabelle hat mir besonders gut gefallen - wenn du dir die Abschreibungswerte ansiehst, verstehst du, warum ich noch eine Weile an meinem 12 Jahre alten Hybridfahrzeug festhalten werde.

Beispiel für strukturierten Output in der Tiefenforschung von openai

Fazit

OpenAIs Deep Research ist sehr vielversprechend und kann uns viel Zeit bei der Forschung sparen. Wenn es um aktuelle Informationen geht, ist sie jedoch immer noch unzuverlässig und liefert manchmal falsche Fakten oder fehlerhafte Schlussfolgerungen.

Ich denke immer noch, dass Deep Research noch in der Anfangsphase ist, und das OpenAI-Team gibt dies in seinem Ankündigungsartikel offen zu Ankündigungsartikel.

Ehrlich gesagt, ich werde immer wieder zu Deep Research zurückkehren und hoffe, dass es immer besser wird.

FAQs

Ist Deep Research auf mobilen Geräten verfügbar?

Zurzeit ist Deep Research nur in der Desktop-Webversion von ChatGPT verfügbar, aber OpenAI hat für diesen Monat eine Unterstützung für mobile Geräte angekündigt.

Kann Deep Research an hochtechnischen oder Nischenthemen arbeiten?

Ja, aber die Genauigkeit hängt von der Verfügbarkeit zuverlässiger Online-Quellen ab. In Nischenbereichen mit begrenzter Dokumentation kann es schwierig sein, hochwertige Ergebnisse zu erzielen.

Wie schneidet Deep Research im Vergleich zu ChatGPTs Standard-Browsing-Tool ab?

Im Gegensatz zum normalen Browsing führt Deep Research mehrstufige Untersuchungen durch, bezieht sich auf mehrere Quellen, analysiert Informationen und erstellt strukturierte Berichte statt schneller Antworten.

Wird Deep Research auch für Free-Tier-Nutzer verfügbar sein?

OpenAI hat keine Pläne bekannt gegeben, Deep Research auch für Nutzerinnen und Nutzer der Free-Tier-Version verfügbar zu machen. Zurzeit ist sie exklusiv für Pro-Nutzer/innen, eine Ausweitung auf Plus-, Team- und Enterprise-Konten ist jedoch geplant.

Was ist der Unterschied zwischen OpenAI's Deep Research und Google's Deep Research?

OpenAIs Deep Research und Googles Deep Research führen beide mehrstufige Webuntersuchungen durch, unterscheiden sich aber in der Ausführung. Die Version von OpenAI, die auf einem o3-basierten Modell basiert, konzentriert sich auf strukturierte Berichte, Schlussfolgerungen und Python-basierte Datenanalysen, hat aber mit der aktuellen Genauigkeit zu kämpfen. Sie dauert 5-30 Minuten pro Bericht und ist derzeit auf Pro-Benutzer/innen in ChatGPT beschränkt. Googles Deep Research, das in Gemini integriert ist, nutzt die Google-Suche zum Abrufen von Informationen in Echtzeit und schließt die Recherche in 5-10 Minuten ab. Während die Version von OpenAI sich durch eine tiefere Analyse auszeichnet, ist die von Google vielleicht besser darin, die neuesten, maßgeblichen Quellen zu finden.

Themen

Lerne KI mit diesen Kursen!

Lernpfad

AI Fundamentals

10hrs hr
Discover the fundamentals of AI, dive into models like ChatGPT, and decode generative AI secrets to navigate the dynamic AI landscape.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 32 besten AWS-Interview-Fragen und Antworten für 2024

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interview-Fragen, zusammen mit Fragen, die auf realen Situationen basieren. Es deckt alle Bereiche ab und sorgt so für eine abgerundete Vorbereitungsstrategie.
Zoumana Keita 's photo

Zoumana Keita

30 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigenMehr anzeigen