Direkt zum Inhalt

DeepSeek R1: Eigenschaften, o1-Vergleich, destillierte Modelle & mehr

Erfahre mehr über die wichtigsten Funktionen von DeepSeek-R1, den Entwicklungsprozess, die destillierten Modelle, den Zugang zur Software, die Preise und den Vergleich mit OpenAI o1.
Aktualisierte 21. Jan. 2025  · 8 Min. Lesezeit

DeepSeek hat gerade DeepSeek-R1angekündigt , den nächsten Schritt in seiner Arbeit an schlussfolgernden Modellen. Es ist ein Upgrade von ihrem früheren DeepSeek-R1-Lite-Vorschau und zeigt, dass sie es ernst meinen mit der Konkurrenz von OpenAIs o1.

Mit OpenAI plant die Veröffentlichung von o3 noch in diesem Jahr zu veröffentlichen, ist klar, dass der Wettbewerb bei den Argumentationsmodellen zunimmt. Auch wenn DeepSeek in einigen Bereichen etwas hinterherhinkt, macht es sein Open-Source-Charakter zu einer überzeugenden Option für die KI-Community.

In diesem Blog werde ich die wichtigsten Funktionen von DeepSeek-R1, den Entwicklungsprozess, die destillierten Modelle, den Zugang, die Preise und den Vergleich mit den Modellen von OpenAI erläutern.

Was ist DeepSeek-R1?

DeepSeek-R1 ist ein Open-Source Argumentationsmodell das von DeepSeek, einem chinesischen KI-Unternehmen, entwickelt wurde, um Aufgaben zu lösen, die logische Schlussfolgerungen, mathematische Problemlösungen und Entscheidungsfindung in Echtzeit erfordern.

Was Argumentationsmodelle wie DeepSeek-R1 und o1 von OpenAI von herkömmlichen Sprachmodellen unterscheidet, ist ihre Fähigkeit zu zeigen, wie sie zu einer Schlussfolgerung gekommen sind.

Beispiel einer Argumentation, die mit Deepseek r1 Deepthink gezeigt wird

Mit DeepSeek-R1 kannst du seine Logik nachvollziehen, was es einfacher macht, sein Ergebnis zu verstehen und ggf. in Frage zu stellen. Diese Fähigkeit verschafft Argumentationsmodellen einen Vorteil in Bereichen, in denen Ergebnisse erklärbar sein müssen, wie in der Forschung oder bei komplexen Entscheidungen.

Was DeepSeek-R1 besonders wettbewerbsfähig und attraktiv macht, ist sein Open-Source-Charakter. Im Gegensatz zu proprietären Modellen können Entwickler und Forscher sie innerhalb bestimmter technischer Grenzen (z. B. Ressourcenbedarf) erforschen, verändern und einsetzen.

Wie wurde DeepSeek-R1 entwickelt?

In diesem Abschnitt erkläre ich dir, wie DeepSeek-R1 entwickelt wurde, beginnend mit seinem Vorgänger, DeepSeek-R1-Zero.

DeepSeek-R1-Zero

DeepSeek-R1 begann mit R1-Zero, einem Modell, das vollständig durch Verstärkungslernen. Dieser Ansatz ermöglichte es ihr zwar, starke Argumentationsfähigkeiten zu entwickeln, hatte aber auch große Nachteile. Die Ausgaben waren oft schwer zu lesen, und das Modell vermischte manchmal Sprachen in seinen Antworten. Diese Einschränkungen machten R1-Zero für reale Anwendungen weniger praktisch.

Herausforderungen des reinen Verstärkungslernens

Der Rückgriff auf reines Reinforcement Learning führte zu Ergebnissen, die zwar logisch fundiert, aber schlecht strukturiert waren. Ohne die Anleitung durch überwachte Daten hatte das Modell Schwierigkeiten, seine Überlegungen effektiv zu vermitteln. Das war ein Hindernis für Nutzer, die Klarheit und Präzision bei den Ergebnissen brauchten.

Verbesserungen mit DeepSeek-R1

Um diese Probleme zu lösen, hat DeepSeek bei der Entwicklung von R1 eine Änderung vorgenommen und Verstärkungslernen mit überwachter Feinabstimmung kombiniert. Bei diesem hybriden Ansatz wurden kuratierte Datensätze einbezogen, was die Lesbarkeit und Kohärenz des Modells verbessert. Probleme wie Sprachvermischung und fragmentiertes Denken wurden deutlich reduziert, was das Modell für den praktischen Einsatz besser geeignet macht.

Wenn du mehr über die Entwicklung von DeepSeek-R1 erfahren möchtest, empfehle ich dir die Lektüre des Release Paper.

Destillierte Modelle von DeepSeek-R1

Destillation in der KI ist der Prozess, bei dem aus größeren Modellen kleinere, effizientere Modelle erstellt werden, die einen Großteil ihrer Argumentationskraft bewahren und gleichzeitig den Rechenaufwand reduzieren. DeepSeek wandte diese Technik an, um eine Reihe von destillierten Modellen aus R1 zu erstellen, die die Architekturen Qwen und Llama nutzen.

Quelle: DeepSeek's Veröffentlichungspapier

Qwen-basierte destillierte Modelle

Die Qwen-basierten destillierten Modelle von DeepSeek konzentrieren sich auf Effizienz und Skalierbarkeit und bieten ein ausgewogenes Verhältnis zwischen Leistung und Rechenaufwand.

DeepSeek-R1-Distill-Qwen-1.5B

Dies ist das kleinste destillierte Modell, das 83,9% auf MATH-500 erreicht. MATH-500 prüft die Fähigkeit, mathematische Probleme auf Highschool-Niveau mit logischem Denken und mehrstufigen Lösungen zu lösen. Dieses Ergebnis zeigt, dass das Modell trotz seiner kompakten Größe grundlegende mathematische Aufgaben gut bewältigt.

Im LiveCodeBench (16,9 %), einem Benchmark zur Bewertung der Programmierfähigkeiten, fällt die Leistung jedoch deutlich ab, was seine begrenzten Fähigkeiten bei Programmieraufgaben verdeutlicht.

DeepSeek-R1-Distill-Qwen-7B

Qwen-7B glänzt bei MATH-500 mit 92,8 %, was seine starken Fähigkeiten im mathematischen Denken unter Beweis stellt. Auch beim GPQA Diamond (49,1 %), der das Beantworten von Sachfragen bewertet, schneidet er recht gut ab, was darauf hindeutet, dass er eine gute Balance zwischen mathematischem und sachlichem Denken hat.

Seine Leistung bei LiveCodeBench (37,6 %) und CodeForces (1189 Punkte) lässt jedoch vermuten, dass er für komplexe Programmieraufgaben weniger geeignet ist.

DeepSeek-R1-Distill-Qwen-14B

Dieses Modell schneidet bei MATH-500 gut ab (93,9%), was seine Fähigkeit widerspiegelt, komplexe mathematische Probleme zu bewältigen. Sein Ergebnis von 59,1 % im GPQA Diamond zeigt auch, dass er im Bereich des sachlichen Denkens kompetent ist.

Seine Leistung im LiveCodeBench (53,1 %) und bei CodeForces (1481 Punkte) zeigt, dass es bei kodierungs- und programmierspezifischen Denkaufgaben noch Steigerungspotenzial gibt.

DeepSeek-R1-Distill-Qwen-32B

Das größte Qwen-basierte Modell erreicht die höchste Punktzahl unter seinen Mitbewerbern beim AIME 2024 (72,6%), der fortgeschrittenes mathematisches Denken in mehreren Schritten bewertet. Auch bei MATH-500 (94,3 %) und GPQA Diamond (62,1 %) schneidet er hervorragend ab und beweist damit seine Stärke im mathematischen und sachlichen Denken.

Seine Ergebnisse bei LiveCodeBench (57,2 %) und CodeForces (1691 Punkte) deuten darauf hin, dass er zwar vielseitig ist, aber im Vergleich zu Modellen, die auf das Programmieren spezialisiert sind, noch nicht für Programmieraufgaben optimiert ist.

Lama-basierte destillierte Modelle

DeepSeeks Llama-basierte destillierte Modelle legen den Schwerpunkt auf hohe Leistung und fortschrittliche Denkfähigkeiten, die sich besonders bei Aufgaben auszeichnen, die mathematische und faktische Präzision erfordern.

DeepSeek-R1-Distill-Llama-8B

Llama-8B schneidet gut bei MATH-500 (89,1 %) und angemessen bei GPQA Diamond (49,0 %) ab, was darauf hindeutet, dass es in der Lage ist, mathematisches und sachliches Denken zu beherrschen. Allerdings schneidet es bei Programmier-Benchmarks wie LiveCodeBench (39,6 %) und CodeForces (1205 Punkte) schlechter ab, was seine Einschränkungen bei programmierbezogenen Aufgaben im Vergleich zu Qwen-basierten Modellen deutlich macht.

DeepSeek-R1-Distill-Llama-70B

Das größte destillierte Modell, Llama-70B, liefert mit 94,5 % die beste Leistung aller destillierten Modelle in MATH-500 und erreicht eine starke Punktzahl von 86,7 % in AIME 2024, was es zu einer hervorragenden Wahl für fortgeschrittenes mathematisches Denken macht.

Auch im LiveCodeBench (57,5 %) und bei CodeForces (1633 Punkte) schneidet er gut ab, was darauf hindeutet, dass er bei Codierungsaufgaben kompetenter ist als die meisten anderen Modelle. In diesem Bereich ist er gleichauf mit OpenAIs o1-mini oder GPT-4o.

Wie man auf DeepSeek-R1 zugreift

Du kannst auf DeepSeek-R1 über zwei Hauptmethoden zugreifen: die webbasierte DeepSeek-Chat-Plattform und die DeepSeek-API, so dass du die Option wählen kannst, die deinen Bedürfnissen am besten entspricht.

Web-Zugang: DeepSeek Chat Plattform

Die DeepSeek-Chat-Plattform bietet eine unkomplizierte Möglichkeit, mit DeepSeek-R1 zu interagieren. Um darauf zuzugreifen, kannst du entweder direkt auf die Chat-Seite oder auf der Homepage auf Jetzt startenStartseite.

Deepseek-Startseite

Nach der Registrierung kannst du den "Deep Think"-Modus auswählen, um die Schritt-für-Schritt-Denkfähigkeiten von Deepseek-R1 zu erleben.

Die deepseek Chat-Oberfläche zeigt die deepthink-Option zur Aktivierung von deepseek-r1

API-Zugang: Die API von DeepSeek

Um DeepSeek-R1 in deine Anwendungen zu integrieren, bietet die DeepSeek API einen programmatischen Zugang.

Um loszulegen, musst du einen API-Schlüssel erhalten, indem du dich auf der DeepSeek-Plattform.

Die API ist mit dem Format von OpenAI kompatibel, sodass die Integration einfach ist, wenn du mit den Tools von OpenAI vertraut bist. Weitere Anweisungen findest du in der DeepSeek's API Dokumentation.

DeepSeek-R1 Preisgestaltung

Ab dem 21. Januar 2025 ist die Nutzung der Chat-Plattform kostenlos, allerdings mit einer täglichen Obergrenze von 50 Nachrichten im "Deep Think"-Modus. Diese Einschränkung macht es ideal für den leichten Einsatz oder die Erkundung.

Die API bietet zwei Modelle:deepseek-chat (DeepSeek-V3) und deepseek-reasoner (DeepSeek-R1) - mit der folgenden Preisstruktur (pro 1 Mio. Token):

MODELL

KONTEXTLÄNGE

MAX COT TOKENS

MAX. OUTPUT TOKEN

1M TOKEN

EINGANGSPREIS

(CACHE HIT)

1M TOKEN

EINGANGSPREIS

(CACHE MISS)

1M TOKEN

AUSGANGSPREIS

deepseek-chat

64K

-

8K

$0.07

$0.014

$0.27

$0.14

$1.10

$0.28

deepseek-reasoner

64K

32K

8K

$0.14

$0.55

$2.19

Quelle: Die Preisseite von DeepSeek

Um sicherzustellen, dass du über die aktuellsten Preisinformationen verfügst und weißt, wie du die Kosten für CoT (Chain-of-Thought)-Überlegungen berechnen kannst, besuche DeepSeek's Preisseite.

DeepSeek-R1 vs. OpenAI O1: Benchmark Leistung

DeepSeek-R1 konkurriert in mehreren Benchmarks direkt mit OpenAI o1 und erreicht oder übertrifft OpenAIs o1.

Quelle: DeepSeek's Veröffentlichungspapier

Benchmarks in Mathematik: AIME 2024 und MATH-500

In den Mathematik-Benchmarks zeigt DeepSeek-R1 eine starke Leistung. Beim AIME 2024, der fortgeschrittenes mathematisches Denken in mehreren Schritten bewertet, liegt DeepSeek-R1 mit 79,8 % knapp vor OpenAI o1-1217 mit 79,2 %.

Bei MATH-500 liegt DeepSeek-R1 mit beeindruckenden 97,3 % an der Spitze und übertrifft OpenAI o1-1217 mit 96,4 % knapp. Dieser Benchmark testet Modelle für verschiedene mathematische Probleme auf Highschool-Niveau, die detailliertes Denken erfordern.

Codier-Benchmarks: Codeforces & SWE-bench Geprüft

Der Codeforces-Benchmark bewertet die Codierungs- und algorithmischen Schlussfolgerungsfähigkeiten eines Modells, dargestellt als Prozentrang im Vergleich zu menschlichen Teilnehmern. OpenAI o1-1217 führt mit 96,6 %, während DeepSeek-R1 sehr konkurrenzfähige 96,3 % erreicht, mit nur einem kleinen Unterschied.

Der SWE-bench Verified Benchmark bewertet das logische Denken bei Softwareentwicklungsaufgaben. DeepSeek-R1 schneidet mit einer Punktzahl von 49,2 % sehr gut ab und liegt damit knapp vor OpenAI o1-1217 mit 48,9 %. Dieses Ergebnis macht DeepSeek-R1 zu einem starken Konkurrenten bei speziellen Aufgaben wie der Software-Verifikation.

Benchmarks zum Allgemeinwissen: GPQA Diamant und MMLU

Beim Faktenwissen misst der GPQA Diamond die Fähigkeit, Fragen zum Allgemeinwissen zu beantworten. DeepSeek-R1 erreicht 71,5 % und liegt damit hinter OpenAI o1-1217, das 75,7 % erreicht. Dieses Ergebnis unterstreicht den leichten Vorteil von OpenAI o1-1217 bei Aufgaben zum logischen Denken.

Bei MMLU, einem Benchmark, der verschiedene Disziplinen umfasst und das Multitasking-Sprachverständnis bewertet, liegt OpenAI o1-1217 mit 91,8 % leicht vor DeepSeek-R1, der 90,8 % erreicht hat.

Fazit

DeepSeek-R1 ist ein starker Konkurrent im Bereich der logischen KI und liegt gleichauf mit OpenAIs o1. OpenAIs o1 mag zwar einen leichten Vorsprung bei der Programmierung und beim Faktenwissen haben, aber ich denke, dass DeepSeek-R1 aufgrund seines Open-Source-Charakters und des kostengünstigen Zugangs eine attraktive Option ist.

Während sich OpenAI auf die Veröffentlichung von o3 vorbereitet, freue ich mich darauf zu sehen, wie dieser wachsende Wettbewerb die Zukunft der Argumentationsmodelle gestaltet. Im Moment ist DeepSeek-R1 eine überzeugende Alternative.

FAQs

Wie geht DeepSeek-R1 mit mehrsprachigen Abfragen um?

DeepSeek-R1 ist für Englisch und Chinesisch optimiert, aber seine Leistung kann sich bei Abfragen in anderen Sprachen verschlechtern. Bei einigen Ausgaben werden Englisch und Chinesisch vermischt, vor allem bei der Bearbeitung von Argumentationsaufgaben. Es wird erwartet, dass diese Einschränkung in zukünftigen Updates behoben wird.

Kann DeepSeek-R1 für bestimmte Aufgaben oder Branchen fein abgestimmt werden?

Ja, als Open-Source-Modell kann DeepSeek-R1 für bestimmte Aufgaben feinabgestimmt werden, vorausgesetzt, du verfügst über die nötigen Rechenressourcen und Daten. Diese Flexibilität macht es besonders attraktiv für Forscher und Organisationen, die domänenspezifische Anwendungen benötigen.

Gibt es Grenzen, wie lang die Ausgaben von DeepSeek-R1 sein können?

Ja, die Ausgabe-Token-Grenzen für DeepSeek-R1 variieren je nach Zugriffsmethode. Das Deepseek-Rasoner-Modell der API unterstützt zum Beispiel eine maximale Ausgabelänge von 8.000 Token, die die Argumentationsschritte (Chain-of-Thought) und die endgültige Antwort enthalten.

Welche Art von Hardware wird benötigt, um DeepSeek-R1 lokal auszuführen?

Um DeepSeek-R1 oder seine destillierten Modelle lokal auszuführen, sind leistungsstarke GPUs oder TPUs erforderlich, insbesondere für die größeren Modelle wie DeepSeek-R1-Distill-Llama-70B. Kleinere destillierte Versionen, wie Qwen-1.5B, sind für Systeme mit begrenzten Ressourcen besser geeignet.

Wie funktioniert das Zwischenspeichern von Kontexten in der DeepSeek-API und wie viel kann man damit sparen?

Das Kontext-Caching speichert wiederholte Eingabe-Token, um Kosten zu reduzieren. Wenn du zum Beispiel Eingaben in Gesprächen mit mehreren Runden wiederverwendest, holt das System diese Token zu einem deutlich niedrigeren Preis aus dem Cache. Diese Funktion ist besonders für Arbeitsabläufe mit sich wiederholenden Abfragen von Vorteil.


Alex Olteanu's photo
Author
Alex Olteanu
LinkedIn

Tausendsassa, Meister der Python, Content Marketing & Strategie, SEO, Redaktion, Schreiben. Techniker - ich habe Kurse über Python, Statistik und Wahrscheinlichkeitsrechnung geschrieben. Aber ich habe auch einen preisgekrönten Roman veröffentlicht. Videobearbeitung und Farbkorrektur in DaVinci.

Themen

Lerne KI mit diesen Kursen!

Kurs

Working with the OpenAI API

3 hr
33.8K
Start your journey developing AI-powered applications with the OpenAI API. Learn about the functionality that underpins popular AI applications like ChatGPT.
Siehe DetailsRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Der Blog

Top 30 Generative KI Interview Fragen und Antworten für 2024

Dieser Blog bietet eine umfassende Sammlung von Fragen und Antworten zu generativen KI-Interviews, die von grundlegenden Konzepten bis hin zu fortgeschrittenen Themen reichen.
Hesam Sheikh Hassani's photo

Hesam Sheikh Hassani

15 Min.

Der Blog

Die 32 besten AWS-Interview-Fragen und Antworten für 2024

Ein kompletter Leitfaden zur Erkundung der grundlegenden, mittleren und fortgeschrittenen AWS-Interview-Fragen, zusammen mit Fragen, die auf realen Situationen basieren. Es deckt alle Bereiche ab und sorgt so für eine abgerundete Vorbereitungsstrategie.
Zoumana Keita 's photo

Zoumana Keita

30 Min.

Der Blog

Die 20 besten Snowflake-Interview-Fragen für alle Niveaus

Bist du gerade auf der Suche nach einem Job, der Snowflake nutzt? Bereite dich mit diesen 20 besten Snowflake-Interview-Fragen vor, damit du den Job bekommst!
Nisha Arya Ahmed's photo

Nisha Arya Ahmed

20 Min.

Der Blog

Lehrer/innen und Schüler/innen erhalten das Premium DataCamp kostenlos für ihre gesamte akademische Laufbahn

Keine Hacks, keine Tricks. Schüler/innen und Lehrer/innen, lest weiter, um zu erfahren, wie ihr die Datenerziehung, die euch zusteht, kostenlos bekommen könnt.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

4 Min.

Der Blog

Q2 2023 DataCamp Donates Digest

DataCamp Donates hat im zweiten Quartal 2023 über 20.000 Stipendien an unsere gemeinnützigen Partner vergeben. Erfahre, wie fleißige benachteiligte Lernende diese Chancen in lebensverändernde berufliche Erfolge verwandelt haben.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

Der Blog

2022-2023 DataCamp Classrooms Jahresbericht

Zu Beginn des neuen Schuljahres ist DataCamp Classrooms motivierter denn je, das Lernen mit Daten zu demokratisieren. In den letzten 12 Monaten sind über 7.650 neue Klassenzimmer hinzugekommen.
Nathaniel Taylor-Leach's photo

Nathaniel Taylor-Leach

8 Min.

Mehr anzeigenMehr anzeigen