Weiter zum Inhalt

Der Kernel-Trick erklärt: Wie SVMs nichtlineare Muster lernen

Ein konzeptioneller Leitfaden zum Kernel-Trick – was er ist, wie er SVMs und andere Kernel-Modelle ermöglicht und wann du ihn nichtlinearen Alternativen vorziehen solltest.
Aktualisiert 4. Mai 2026  · 12 Min. lesen

Lineare Modelle sind einfach und intuitiv, versagen aber, sobald deine Daten nicht linear trennbar sind.

Und die meisten Real-World-Daten sind es nicht. Egal wie du die Gewichte einstellst, eine gerade Entscheidungsgrenze passt selten gut – die Klassen überlappen oder bilden Muster, die keine Linie fehlerfrei trennen kann. Wenn du weißt, dass das Modell zu simpel ist, aber nicht direkt zu einem neuronalen Netz springen willst, gibt es einen guten Mittelweg.

Support Vector Machines bieten einen „Trick“. Du projizierst deine Daten in einen höherdimensionalen Raum – und was untrennbar aussah, wird oft trennbar. Der Kernel-Trick ist eine rechnerische Abkürzung, die Kernel-basierte Modelle wie SVMs so arbeiten lässt, als wären die Daten transformiert worden, ohne die Transformation tatsächlich auszuführen.

In diesem Artikel lernst du, wie der Kernel-Trick in SVMs genau funktioniert, welche Kernel-Funktionen du kennen solltest und wann sich Kernel-Methoden lohnen.

Aber was genau ist eine SVM? Lies unseren Blogpost zu Support Vector Machines mit Scikit-learn, um alles über den Algorithmus und seine Anwendung zu lernen.

Was ist der Kernel-Trick?

Der Kernel-Trick ist ein Verfahren, mit dem Skalarprodukte in einem höherdimensionalen Merkmalsraum berechnet werden, ohne die Daten explizit dorthin abzubilden.

Du transformierst die Datenpunkte also nicht wirklich und rechnest dann darauf. Du berechnest, was das Ergebnis dieser Rechnung wäre – mit einer Kernel-Funktion, die direkt auf den Originaleingaben arbeitet.

Wichtig ist: Der Kernel-Trick gilt nur für Modelle, die auf Skalarprodukten zwischen Datenpunkten basieren. Es ist keine Allzwecktechnik für ML. Verwendet ein Modell intern keine Skalarprodukte, lässt sich der Kernel-Trick nicht anwenden. Die meisten Modelle tun das nicht.

SVMs, Gaußsche Prozesse und Kernel-PCA sind gute Beispiele, bei denen der Kernel-Trick funktioniert. Lass dir aber nicht einreden, dass das etwas ist, „was die meisten ML-Modelle nutzen“.

Warum es den Kernel-Trick gibt

Lineare Modelle können nur lineare Entscheidungsgrenzen lernen. Das ist ihre harte Einschränkung – und genau das macht sie verständlich und interpretierbar.

Die meisten Real-World-Datensätze sind jedoch nicht linear trennbar. Es gibt keine gerade Linie (oder keinen Hyperraum), die die Klassen sauber trennt. Mit dem Kernel-Trick kann dasselbe Datenmaterial in einem höherdimensionalen Raum aber trennbar werden.

Der naheliegende Ansatz wäre, die Daten explizit zu transformieren: neue Merkmale erzeugen, jeden Punkt in den höherdimensionalen Raum abbilden und daraufhin das Modell trainieren. Das funktioniert, aber die Kosten skalieren mit. In Räumen mit Tausenden Dimensionen wird das Speichern und Rechnen mit den transformierten Vektoren teuer.

Mit dem Kernel-Trick berechnest du statt der vollständigen Transformation φ(x) für jeden Datenpunkt direkt K(x, x′) – eine Kernel-Funktion, die dir dasselbe Skalarprodukt liefert.

Der Kernel-Trick in Support Vector Machines

Eine SVM findet die Entscheidungsgrenze, die den Rand zwischen zwei Klassen maximiert.

Um diese Grenze zu finden, löst die SVM ein Optimierungsproblem. Und in der dualen Form hängt die Optimierung nur von Skalarprodukten zwischen Datenpunkten ab, nicht von den Punkten selbst. Die duale Zielfunktion sieht so aus:

Dual objective function

Duale Zielfunktion

Dabei sind α_i die gelernten Gewichte, y_i die Klassenlabels und ⟨x_i, x_j⟩ das Skalarprodukt zweier Datenpunkte. Die SVM braucht nur die paarweisen Ähnlichkeiten zwischen den Datenpunkten.

Wenn die SVM nur Skalarprodukte benötigt, musst du ihr nicht die aus dem Originalraum berechneten Produkte geben. Du ersetzt ⟨x_i, x_j⟩ durch eine Kernel-Funktion K(x_i, x_j):

Formula with kernel function

Formel mit Kernel-Funktion

Die SVM läuft exakt gleich weiter. Sie „denkt“ nur, sie arbeite in einem reicheren Merkmalsraum.

Und genau darum geht es beim Kernel-Trick.

So funktioniert der Kernel-Trick (konzeptionell)

Der Standardansatz wäre, eine Abbildung φ(x) zu definieren, die jeden Datenpunkt in einen höherdimensionalen Raum transformiert, und dort Skalarprodukte zu berechnen:

The mapping

Die Abbildung

Das explizite Berechnen von φ(x) kann teuer sein – teils hat der abgebildete Raum tausende oder sogar unendlich viele Dimensionen.

Der Kernel-Trick überspringt diesen Schritt.

Statt φ(x) zu berechnen und dann das Skalarprodukt zu bilden, berechnest du direkt K(x, x′) – eine Kernel-Funktion, die erfüllt:

Kernel function computation

Berechnung mit Kernel-Funktion

Das Ergebnis ist identisch, aber die Kosten sind geringer.

Denk an K(x, x′) als Ähnlichkeitsfunktion. Sie nimmt zwei Punkte im Originalraum und gibt eine Zahl zurück, die ihre Ähnlichkeit widerspiegelt – aber so, als würdest du sie in einem viel reicheren Raum vergleichen. Das Modell verhält sich, als wären die Daten transformiert worden. Sie wurden es nur nie.

Gängige Kernel-Funktionen

Nicht alle Kernel funktionieren gleich. Jeder definiert eine andere Vorstellung von Ähnlichkeit – und damit eine andere Art von Entscheidungsgrenze. Hier sind ein paar Beispiele.

Linearer Kernel

Linear kernel

Linearer Kernel

Der lineare Kernel ist einfach das Standard-Skalarprodukt. Das Modell bleibt im ursprünglichen Merkmalsraum und lernt eine lineare Grenze – damit ist es äquivalent zu einer Standard-SVM ohne Kernel.

Nutze diesen Kernel, wenn deine Daten bereits linear trennbar sind. Er ist am schnellsten und am leichtesten zu interpretieren.

Polynomialer Kernel

Polynomial kernel

Polynomialer Kernel

Dabei ist c eine Konstante und d der Grad des Polynoms.

Der polynomiale Kernel erfasst Wechselwirkungen zwischen Merkmalen. Ein Kernel vom Grad 2 berücksichtigt zum Beispiel alle paarweisen Merkmalskombinationen. So kann das Modell gekrümmte Grenzen lernen, ohne dass du diese Interaktionsterme manuell erzeugen musst.

Höhere Grade bedeuten ausdrucksstärkere Grenzen – aber auch ein höheres Overfitting-Risiko.

RBF-(Gauß-)Kernel

RBF kernel

RBF-Kernel

Der RBF- (Radial Basis Function) Kernel ist in der Praxis am weitesten verbreitet. Er misst Ähnlichkeit auf Basis der Distanz. Zwei nahe Punkte bekommen einen hohen Wert, weit entfernte einen Wert nahe null.

Spannend ist, dass er die Daten implizit in einen unendlichdimensionalen Raum abbildet. Das verleiht genug Flexibilität, um komplexe, nichtlineare Grenzen zu lernen, mit denen andere Kernel Schwierigkeiten haben.

Sigmoid-Kernel

Sigmoid kernel

Sigmoid-Kernel

Der Sigmoid-Kernel wird seltener genutzt als RBF oder polynomiale Kernel und erfüllt je nach Parameterwahl nicht immer die mathematischen Bedingungen für eine gültige Kernel-Funktion.

Er taucht gelegentlich in älterer Literatur auf, in der Praxis ist RBF fast immer der bessere Startpunkt.

Kernel-Trick jenseits von SVM

SVM ist der gängigste Algorithmus für den Kernel-Trick, aber nicht der einzige.

Einige weitere Modelle nutzen dieselbe Idee:

  • Kernel-Ridge-Regression wendet Ridge-Regression in einem höherdimensionalen Raum an – mithilfe einer Kernel-Funktion statt expliziter Merkmale
  • Gaußsche Prozesse nutzen Kernel-Funktionen, um Kovarianzen zwischen Punkten zu definieren. Der Kernel kodiert Annahmen über Glattheit und Form der zu lernenden Funktion
  • Kernel-PCA erweitert die Standard-PCA auf nichtlineare Strukturen, indem sie Hauptkomponenten in einem transformierten Merkmalsraum findet

Ihnen allen ist gemeinsam: Das Modell benötigt nur Skalarprodukte. Du kannst also eine Kernel-Funktion einsetzen und erhältst nichtlineares Verhalten, ohne den Rest der Mathematik zu ändern.

SVM bleibt jedoch das klarste Beispiel – und der beste Ort, um ein Gefühl dafür zu entwickeln.

Kernel-Trick vs. Feature Engineering

Beide Ansätze lösen das Problem unzureichend aussagekräftiger Merkmale – aber auf unterschiedliche Weise.

Beim Feature Engineering erzeugst du explizit neue Merkmale aus bestehenden. Du entscheidest, welche Kombinationen relevant sind, berechnest sie, fügst sie deinem Datensatz hinzu und trainierst auf dem erweiterten Merkmalsraum. Du siehst genau, was ins Modell eingeflossen ist.

Der Kernel-Trick arbeitet implizit in einem höherdimensionalen Raum, ohne dass du diese zusätzlichen Merkmale definierst oder speicherst. Die Transformation ist durch die Kernel-Funktion beschrieben.

Am Ende ist es ein Trade-off zwischen Interpretierbarkeit und Flexibilität.

Feature Engineering bleibt transparent, weil du weißt, wofür jedes Merkmal steht. Der Kernel-Trick gibt dir mehr Ausdrucksstärke, aber der implizite Merkmalsraum ist oft schwer zu inspizieren oder zu erklären.

Wenn Interpretierbarkeit in deinem Use Case zählt, ist Feature Engineering die sicherere Wahl. Wenn du komplexe Muster erfassen willst und nicht jede Modellentscheidung erklären musst, bringt dich der Kernel-Trick schneller ans Ziel.

Vorteile des Kernel-Tricks

Der offensichtlichste Vorteil: Lineare Modelle lernen damit nichtlineare Grenzen. Ohne Kernel kann eine SVM nur mit einer geraden Hyperbene trennen. Mit Kernel bewältigt dasselbe Modell gekrümmte, komplexe Entscheidungsgrenzen.

Außerdem entfallen die Kosten expliziter Hochdimensionalität. Du bekommst die Ausdrucksstärke eines reicheren Merkmalsraums, ohne dessen zusätzliche Dimensionen zu speichern oder zu berechnen. Gerade wenn der implizite Raum tausende oder unendlich viele Dimensionen hat, macht das den Ansatz erst praktikabel.

Kernel-Methoden funktionieren zudem oft gut bei mittelgroßen Datensätzen. Wenn du nicht Millionen Beispiele hast und die Daten nicht linear trennbar sind, ist eine SVM mit gutem Kernel häufig eine solide, verlässliche Wahl.

Grenzen des Kernel-Tricks

Das größte Problem ist die Skalierung. Beim Training einer Kernel-SVM muss K(x_i, x_j) für jedes Paar von Datenpunkten berechnet werden. Das ist eine O(n²)-Operation – und mit Blick auf den Speicherbedarf wird es noch schlimmer. Bei großen Datensätzen wird das schnell zum harten Flaschenhals.

Auch die Kernel-Wahl ist nicht trivial. RBF ist ein guter Standard, aber nicht immer die beste Option. Wählst du den falschen Kernel – oder die falschen Hyperparameter –, kann die Performance schlechter werden als zuvor.

Ein weiteres Thema ist die Interpretierbarkeit. Beim Feature Engineering weißt du, was jedes Merkmal bedeutet. Beim Kernel-Trick ist der implizite Merkmalsraum unklar. Das Modell funktioniert, aber zu erklären, warum es eine konkrete Entscheidung getroffen hat, ist schwierig.

Und in vielen Domänen hat Deep Learning schlicht übernommen. Neuronale Netze verarbeiten große Datensätze, lernen eigene Merkmalsrepräsentationen und übertreffen Kernel-Methoden oft – ohne manuelle Kernel-Wahl. Für Bildklassifikation, NLP oder Aufgaben mit riesigen Datenmengen sind Kernel-Methoden heute selten erste Wahl.

Wann Kernel-Methoden einsetzen?

Kernel-Methoden sind 2026 nicht obsolet, aber spezialisierter als früher.

Greif zu einer Kernel-Methode wie einer SVM mit RBF-Kernel, wenn:

  • Deine Daten eine nichtlineare Struktur haben, die ein lineares Modell nicht erfasst
  • Dein Datensatz klein bis mittelgroß ist – also Tausende statt Millionen von Beispielen
  • Du keine Einzeldiagnosen erklären musst, also geringere Interpretierbarkeit akzeptabel ist

Sie passen gut zu strukturierten, tabellarischen Problemen mit wenig Daten, wenn du ein robust generalisierendes Modell ohne viel Tuning brauchst. In solchen Fällen kann eine Kernel-SVM komplexere Modelle schlagen.

Ist dein Datensatz dagegen groß oder brauchst du erklärbare Vorhersagen, sind Kernel-Methoden meist nicht die beste Lösung.

Beispiel: SVM mit und ohne Kernel

Am besten siehst du den Effekt des Kernel-Tricks, wenn eine lineare SVM scheitert – und eine Kernel-SVM es repariert.

Im folgenden Beispiel hast du einen einfachen Datensatz mit zwei konzentrischen Kreisen: Eine Klasse bildet den inneren Ring, die andere den äußeren. Keine gerade Linie kann sie trennen. Eine lineare SVM scheitert stets.

Mit einem RBF-Kernel zieht dieselbe SVM eine kreisförmige Grenze, die die Klassen trennt. Das Einzige, was sich geändert hat, ist die Kernel-Funktion.

Hier ist das vollständige Beispiel:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.datasets import make_circles

# Generate concentric circles dataset
np.random.seed(42)
X, y = make_circles(n_samples=300, noise=0.1, factor=0.4)

# Train both SVMs
svm_linear = SVC(kernel="linear", C=1)
svm_rbf = SVC(kernel="rbf", C=1, gamma="scale")
svm_linear.fit(X, y)
svm_rbf.fit(X, y)

print(f"Linear SVM accuracy: {svm_linear.score(X, y):.0%}")
print(f"RBF SVM accuracy:    {svm_rbf.score(X, y):.0%}")

Linear versus RBF SVM accuracy

Genauigkeit: Linear vs. RBF-SVM

Die lineare SVM zieht eine gerade Grenze mitten durch die Daten. Sie teilt die Ebene in zwei Hälften – das passt überhaupt nicht zur Struktur des Problems. Der RBF-Kernel erzeugt dagegen eine kreisförmige Grenze, die der Datenform folgt.

Linear versus RBF SVM visualized

Visualisierung: Linear vs. RBF-SVM

Fazit: Das Modell hat keine komplexere Struktur „gelernt“ – es hat nur in einem Raum operiert, in dem sich die Struktur einfacher finden ließ.

Häufige Missverständnisse rund um den Kernel-Trick

Es gibt ein paar häufige Missverständnisse zum Kernel-Trick. Lass sie uns kurz klären.

„Der Kernel-Trick funktioniert für alle Modelle.“ Tut er nicht. Er gilt nur für Modelle, deren Optimierung auf Skalarprodukten zwischen Datenpunkten beruht. Die meisten Modelle – Decision Trees, Random Forests, neuronale Netze, lineare Regression – nutzen Skalarprodukte dafür nicht, also ist der Kernel-Trick nicht anwendbar.

„Er transformiert die Daten wirklich.“ Nicht explizit. Deine Originaldaten bleiben unverändert. Die Kernel-Funktion berechnet, was das Skalarprodukt wäre in einem höherdimensionalen Raum – aber eine echte Transformation findet nicht statt. Die Daten werden weder erweitert noch anders gespeichert.

„Er verbessert die Performance immer.“ Kommt drauf an. Bei nichtlinearen Problemen mit kleinen bis mittelgroßen Datensätzen kann ein guter Kernel viel ausmachen. Bei großen Datensätzen überwiegen oft die Rechenkosten. Und wenn deine Daten bereits linear trennbar sind, fügt ein Kernel nur unnötige Komplexität hinzu.

Warum der Kernel-Trick weiterhin wichtig ist

Der Kernel-Trick ist nicht das Thema, über das im ML derzeit am meisten gesprochen wird. Deep Learning führt viele Benchmarks an, Kernel-Methoden tauchen selten auf.

Trotzdem ist es ein Grundlagenkonzept, das man verstehen sollte.

SVMs und der Kernel-Trick waren zentral im klassischen ML: Sie funktionieren gut auf strukturierten, tabellarischen Daten mit wenigen Beispielen, und die dahinterstehende Mathematik ist klar und gut verstanden. Wenn du verstehen willst, wie Ähnlichkeitslernen funktioniert oder warum Skalarprodukte in der Optimierung wichtig sind, ist der Kernel-Trick eines der anschaulichsten Beispiele.

Und er hat weiterhin reale Anwendungen: kleine Datensätze, spezialisierte Domänen wie Bioinformatik oder Textklassifikation mit handgebauten Merkmalen sowie Probleme, bei denen ein Modell mit wenig Daten gut generalisieren muss – hier sind Kernel-Methoden nach wie vor relevant.

Er wurde in Domänen verdrängt, in denen Maßstab und Rohdatenmenge dominieren. Im richtigen Kontext bleibt er ein gutes Werkzeug.

Fazit

Der Kernel-Trick löst ein spezifisches Problem: Wie man nichtlineares Verhalten aus einem Modell herausholt, das nur mit Skalarprodukten arbeitet. Die Antwort ist, diese Skalarprodukte durch eine Kernel-Funktion zu ersetzen, die dasselbe Ergebnis in einem reicheren Merkmalsraum liefert – ohne tatsächlich dorthin zu gehen.

Am besten versteht man ihn im Kontext von SVMs, wo die duale Formulierung den Austausch sauber und explizit macht. Wenn du damit vertraut bist, erschließt sich dir die größere Familie der Kernel-Methoden viel leichter.

Deep Learning bekommt heute die meiste Aufmerksamkeit – bei großskaligen Problemen zu Recht. Der Kernel-Trick steht aber für eine andere Denkschule: Geometrie und Ähnlichkeit. Es lohnt sich, ihn zu verstehen, auch wenn du ihn außerhalb spezialisierter Bereiche kaum praktisch einsetzen wirst.

Aber warum hat Deep Learning eigentlich übernommen? Melde dich für unseren Deep Learning in Python Lernpfad an und sieh, wie neuronale Netze komplexe Modelle in großem Maßstab ermöglichen.


Dario Radečić's photo
Author
Dario Radečić
LinkedIn
Senior Data Scientist mit Sitz in Kroatien. Top Tech Writer mit über 700 veröffentlichten Artikeln, die mehr als 10 Millionen Mal aufgerufen wurden. Buchautor von Machine Learning Automation with TPOT.

FAQs

Was ist der Kernel-Trick in einfachen Worten?

Der Kernel-Trick ist eine rechnerische Abkürzung, mit der bestimmte Modelle – etwa SVMs – nichtlineare Muster lernen können, ohne die Daten explizit in einen höherdimensionalen Raum zu transformieren. Statt die Transformation direkt zu berechnen, liefert eine Kernel-Funktion das Skalarprodukt, das zwei Datenpunkte in diesem Raum hätten. Du bekommst die Ausdrucksstärke eines reicheren Merkmalsraums, ohne die Rechenkosten des tatsächlichen „Hingehens“.

Welche Machine-Learning-Modelle nutzen den Kernel-Trick?

Der Kernel-Trick gilt nur für Modelle, die in ihrer Optimierung auf Skalarprodukten beruhen. SVMs sind das häufigste Beispiel, aber auch Kernel-Ridge-Regression, Gaußsche Prozesse und Kernel-PCA nutzen ihn. Die meisten modernen Modelle arbeiten nicht in dieser Form mit Skalarprodukten, daher ist der Kernel-Trick dort nicht anwendbar.

Ist der Kernel-Trick 2026 noch relevant?

Für großskalige Probleme hat Deep Learning weitgehend übernommen. Kernel-Methoden sind aber weiterhin stark bei kleinen bis mittelgroßen Datensätzen, strukturierten Tabellendaten und in spezialisierten Domänen wie Bioinformatik oder Textklassifikation mit handgebauten Merkmalen. Den Kernel-Trick zu verstehen, schärft zudem dein mentales Modell des Ähnlichkeitslernens – nützlich weit über SVMs hinaus.

Was ist der Unterschied zwischen RBF- und linearem Kernel?

Der lineare Kernel berechnet das Standard-Skalarprodukt und führt zu einer linearen Entscheidungsgrenze – er entspricht einer SVM ohne Kernel. Der RBF- (Radial Basis Function) Kernel misst Ähnlichkeit anhand des Abstands zwischen Punkten und bildet Daten implizit in einen unendlichdimensionalen Raum ab. Dadurch eignet sich RBF deutlich besser für nichtlineare Probleme – deshalb ist er die Default-Wahl, wenn du unsicher bist.

Warum skaliert der Kernel-Trick schlecht auf großen Datensätzen?

Beim Training einer Kernel-SVM muss K(x_i, x_j) für jedes Paar von Trainingspunkten berechnet werden. Das ist eine O(n²)-Operation. Der Speicherbedarf skaliert ebenso, da die vollständige Kernel-Matrix gespeichert werden muss. Deshalb setzt man Kernel-Methoden selten bei Hunderttausenden von Beispielen oder mehr ein.

Themen

Lerne mit DataCamp

Kurs

Support Vector Machines in R

4 Std.
10.9K
In diesem Kurs lernst du die Support-Vektor-Maschine (SVM) auf eine einfache und anschauliche Art kennen.
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow
Verwandt

Blog

Arten von KI-Agenten: Ihre Rollen, Strukturen und Anwendungen verstehen

Lerne die wichtigsten Arten von KI-Agenten kennen, wie sie mit ihrer Umgebung interagieren und wie sie in verschiedenen Branchen eingesetzt werden. Verstehe einfache reflexive, modellbasierte, zielbasierte, nutzenbasierte, lernende Agenten und mehr.

Tutorial

Python Datenstrukturen Tutorial

Mach dich mit Python-Datenstrukturen vertraut: Lerne mehr über Datentypen und primitive sowie nicht-primitive Datenstrukturen wie Strings, Listen, Stapel usw.
Sejal Jaiswal's photo

Sejal Jaiswal

Tutorial

Python Switch Case Statement: Ein Leitfaden für Anfänger

Erforsche Pythons match-case: eine Anleitung zu seiner Syntax, Anwendungen in Data Science und ML sowie eine vergleichende Analyse mit dem traditionellen switch-case.
Matt Crabtree's photo

Matt Crabtree

Tutorial

Python-Schleifen-Tutorial

Ein umfassendes Einführungs-Tutorial zu Python-Schleifen. Lerne und übe while- und for-Schleifen, verschachtelte Schleifen, die Schlüsselwörter break und continue, die Range-Funktion und vieles mehr!
Satyabrata Pal's photo

Satyabrata Pal

Tutorial

Ein Leitfaden zu Python-Hashmaps

Finde heraus, was Hashmaps sind und wie sie in Python mit Hilfe von Wörterbüchern umgesetzt werden.
Javier Canales Luna's photo

Javier Canales Luna

Tutorial

Wie man Listen in Python aufteilt: Einfache Beispiele und fortgeschrittene Methoden

Lerne, wie du Python-Listen mit Techniken wie Slicing, List Comprehensions und itertools aufteilen kannst. Finde heraus, wann du welche Methode für die beste Datenverarbeitung nutzen solltest.
Allan Ouko's photo

Allan Ouko

Mehr anzeigenMehr anzeigen