Weiter zum Inhalt

Support Vector Regression (SVR): So funktioniert sie – und wann du sie einsetzt

Support Vector Regression ist eine randbasierte Regressionsmethode, die kleine Fehler bewusst ignoriert, Nichtlinearitäten per Kernel abbildet und auf verrauschten Realweltdaten überzeugt, wo Standardregression an Grenzen stößt.
Aktualisiert 4. Juni 2026  · 11 Min. lesen

Klassische Regressionsmethoden minimieren den Gesamtsatz an Fehlern über alle Datenpunkte. Das bedeutet: Jeder Residualfehler, egal wie klein, zieht das Modell in eine Richtung. Das Ergebnis ist ein Modell, das empfindlich auf Rauschen und Ausreißer reagiert.

Ein Support-Vector-Regression-Modell hingegen passt eine Funktion innerhalb eines Toleranzbereichs an und ignoriert Fehler, die darin liegen. Dieser Rand verändert das Optimierungsziel. Statt jeden einzelnen Punkt zu optimieren, konzentriert sich SVR auf die Gesamtstruktur der Daten – und ist dadurch, wie ich dir zeigen werde, robust bei echten, verrauschten Datensätzen.

Wenn du vorab eine Auffrischung brauchst, lies unseren Artikel Linear Regression in Python als Einführung ins Predictive Modeling.

Was ist Support Vector Regression?

Support Vector Regression basiert auf derselben Grundlage wie Support Vector Machines (SVM) – einer Modellfamilie, die ursprünglich für Klassifikationsaufgaben wie Spam-Erkennung oder Bilderkennung entwickelt wurde.

Die Kernidee ist leicht zu verstehen: Statt jeden Vorhersagefehler zu minimieren, passt SVR eine Funktion an und erlaubt dabei einen Toleranzrand. Fehler innerhalb dieses Rands zählen nicht. Das Modell achtet darauf, die Gesamttendenz richtig zu erfassen, anstatt jede kleine Abweichung zu korrigieren.

Genau das unterscheidet SVR von den meisten anderen Regressionsmodellen.

Standardregression wertet jeden Residualfehler als Signal. SVR behandelt die meisten davon als Rauschen. Das Ergebnis ist ein Modell, dem es weniger darum geht, an jedem Punkt exakt richtig zu liegen, sondern die zugrunde liegende Struktur der Daten korrekt zu treffen.

Die Grundidee hinter SVR

Im Zentrum von SVR steht das sogenannte Epsilon-Rohr – ein Toleranzbereich, der die angepasste Funktion auf beiden Seiten umhüllt.

Jeder Datenpunkt innerhalb des Rohrs gilt als „nah genug“. SVR ignoriert diese Punkte beim Fitten. Nur Punkte außerhalb des Rohrs zählen, denn sie bestimmen die Entscheidungsgrenze.

The Epsilon tube example

Beispiel für das Epsilon-Rohr

So lässt sich das interpretieren:

  • Punkte im Rohr tragen unabhängig von ihrem Abstand zur Funktion keinen Fehler bei
  • Punkte außerhalb des Rohrs tragen einen Fehler proportional zu ihrer Überschreitung des Rands bei
  • Das Modell wird durch diese äußeren Punkte definiert – nicht durch die Mehrheit der Daten

Das ist der Hauptunterschied zu Standardregression. In der linearen Regression zieht jeder Datenpunkt am Modell – auch die verrauschten. Bei SVR sind die meisten Punkte irrelevant. Das Ergebnis ist ein Fit, der von guter Gesamtstruktur geprägt ist.

Wie SVR optimiert wird

SVR verfolgt zwei konkurrierende Ziele gleichzeitig.

Erstens soll das Modell so flach wie möglich bleiben. Eine flachere Funktion ist einfacher und generalisiert besser auf neue Daten. Zweitens sollen die Fehler bei Punkten außerhalb des Epsilon-Rohrs minimiert werden – jene, die SVR nicht ignorieren kann.

Diese Ziele ziehen in entgegengesetzte Richtungen – hier kommt der Regularisierungsparameter C ins Spiel. Er steuert, wie stark SVR Fehler außerhalb des Rohrs im Verhältnis zur Modellschlichtheit gewichtet:

  • Ein hohes C zwingt das Modell, äußere Fehler sehr ernst zu nehmen – die Funktion wird komplexer und enger angepasst
  • Ein niedriges C hält das Modell einfach und akzeptiert mehr Verletzungen außerhalb des Rands

Du balancierst also stets Modellschlichtheit gegen Fehlertoleranz. Der richtige C-Wert hängt von deinen Daten und dem erwarteten Rauschen ab. In beide Richtungen falsch gewählt, verschlechtert er die Generalisierung auf neue Daten.

Das ist ein Optimierungsproblem, das sich iterativ lösen lässt – also kein Grund zur Sorge.

Support-Vektoren in der SVR

Bei SVR zählen nur die Datenpunkte, die außerhalb des Epsilon-Rohrs liegen.

Das sind die Support-Vektoren – jene Punkte, die den Rand überschreiten und die angepasste Funktion formen. Alles innerhalb des Rohrs wird beim Training ignoriert. Das Modell „sieht“ diese Punkte nicht wirklich.

Support vectors

Support-Vektoren

Der nützliche Nebeneffekt ist Sparsamkeit. In der Praxis wird nur ein kleiner Teil der Trainingsdaten zu Support-Vektoren. Der Rest trägt nichts zum endgültigen Modell bei. Dadurch ist SVR speichereffizient und nach dem Training schnell in der Auswertung, weil Vorhersagen nur von wenigen einflussreichen Punkten abhängen.

Nichtlineare Daten mit SVR abbilden

SVR ist nicht auf Gerade beschränkt. Nichtlineare Zusammenhänge lassen sich über die sogenannte Kernel-Trick-Technik handhaben.

Statt die Funktion im ursprünglichen Merkmalsraum zu fitten, projiziert SVR die Daten in einen höherdimensionalen Raum, in dem ein linearer Fit möglich wird. Dieser lineare Fit im höherdimensionalen Raum entspricht im Originalraum einer nichtlinearen Kurve.

Die zwei gebräuchlichsten Kernel sind:

  • RBF (Radial Basis Function): Der Standard für die meisten Probleme. Funktioniert gut bei glatten, gekrümmten Beziehungen und über viele Datensätze hinweg
  • Polynom: Sinnvoll, wenn du gute Gründe hast anzunehmen, dass der Zusammenhang einem Polynom bestimmter Ordnung folgt

Die Kernel-Wahl hängt von deinen Daten ab. RBF ist eine gute erste Wahl, wenn du unsicher bist.

SVR vs. Lineare Regression

Der Unterschied liegt im Ziel, das jedes Modell verfolgt.

Lineare Regression minimiert die Gesamtfehler über alle Punkte. Jeder Residualfehler zählt, egal wie klein. Zieht ein verrauschter Punkt das Modell aus der Bahn, verschiebt sich der gesamte Fit, um zu kompensieren.

SVR ignoriert Fehler innerhalb des Epsilon-Rohrs. Es reagiert nur auf Punkte außerhalb des Rands – und selbst dann steuert C, wie stark. Das Modell optimiert auf Struktur, nicht auf Genauigkeit bei jedem einzelnen Punkt.

Dieser Unterschied macht SVR robuster gegenüber Ausreißern. Ein einzelner verrauschter Punkt verdirbt den Fit nicht so leicht wie bei linearer Regression, weil SVR ihm gar nicht erst hinterherläuft.

Hier sind alle Unterschiede auf einen Blick:

Linear regression compared to SVR

Lineare Regression im Vergleich zu SVR

Wichtige Parameter in der SVR

SVR hat drei Parameter, die du verstehen solltest, bevor du optimierst.

Epsilon (ε)

Epsilon definiert die Breite des Toleranzbereichs um die angepasste Funktion. Ein größeres ε bedeutet ein breiteres Rohr – mehr Punkte werden ignoriert und das Modell wird einfacher. Ein kleineres ε verengt das Rohr und zwingt das Modell zu engerem Fit.

Small versus large Epsilon

Kleines vs. großes Epsilon

C (Regularisierung)

C steuert, wie stark SVR Fehler bei Punkten außerhalb des Rohrs bestraft. Hohes C bedeutet, dass das Modell diese Fehler ernst nimmt und enger fitten will. Niedriges C akzeptiert mehr Verletzungen zugunsten einer einfacheren, flacheren Funktion. C und ε wirken zusammen – die Änderung des einen beeinflusst das Verhalten des anderen.

Small versus large C

Kleines vs. großes C

Kernel

Der Kernel bestimmt, wie SVR nichtlineare Muster abbildet. RBF ist die gängigste Wahl und ein guter Standard. Polynomiell ist hilfreich für bestimmte Kurvenformen. Ein linearer Kernel reduziert SVR auf eine randbasierte lineare Regression – sinnvoll, wenn deine Daten bereits „gutartig“ sind.

Support Vector Regression in der Praxis

Damit SVR gut funktioniert, gehst du ein paar Schritte und Voraussetzungen durch. Hier ist, worauf es ankommt.

Der typische Workflow:

  1. Skaliere deine Daten: SVR ist empfindlich für Merkmalsmaßstäbe. Liegen Features auf unterschiedlichen Skalen, verhält sich das Modell unerwartet. Verwende StandardScaler für X und y vor dem Fitten

  2. Wähle einen Kernel: RBF ist für die meisten Probleme die richtige Voreinstellung. Wechsle zu Polynom, wenn du gute Gründe für diese Kurvenform hast

  3. Tuning der Parameter: Setze C, epsilon und gamma vor dem Fitten. Grid Search oder Cross-Validation sind hier Standard

  4. Modell fitten: Rufe .fit() auf den skalierten Trainingsdaten auf. Nach dem Training die Vorhersagen per Inverse-Transformation auf die Originalskala zurückführen

Hier ein komplettes Beispiel mit scikit-learn:

import numpy as np
from sklearn.svm import SVR
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Generate sample data
np.random.seed(42)
X = np.sort(np.random.uniform(0, 10, 30))
y = 2.5 * np.sin(X * 0.8) + np.random.normal(0, 0.4, 30)

# Split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# Scale features and target
scaler_X = StandardScaler()
scaler_y = StandardScaler()

X_train_scaled = scaler_X.fit_transform(X_train.reshape(-1, 1))
X_test_scaled = scaler_X.transform(X_test.reshape(-1, 1))
y_train_scaled = scaler_y.fit_transform(y_train.reshape(-1, 1)).ravel()

# Fit SVR
svr = SVR(kernel="rbf", C=2.0, epsilon=0.5, gamma=0.3)
svr.fit(X_train_scaled, y_train_scaled)

# Predict and inverse-transform
y_pred_scaled = svr.predict(X_test_scaled)
y_pred = scaler_y.inverse_transform(y_pred_scaled.reshape(-1, 1)).ravel()

rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print(f"Test RMSE: {rmse:.3f}")

RMSE on the test set

RMSE auf dem Testset

Ein paar Dinge fallen im Code auf. Erstens wird StandardScaler getrennt auf X und y angewendet. Nur die Features zu skalieren ist ein häufiger Fehler, der mit SVR zu schlechten Ergebnissen führt. Zweitens werden die Vorhersagen am Ende invers transformiert, um sie vor der Evaluation auf die Originalskala zurückzubringen.

Die beiden folgenden Plots zeigen den Fit. Der erste zeigt die SVR-Kurve samt Epsilon-Rohr über Trainings- und Testdaten:

Epsilon tube over the training and test data

Epsilon-Rohr über Trainings- und Testdaten

Der zweite vergleicht vorhergesagte mit tatsächlichen Werten im Testset:

Predicted versus actual values

Vorhergesagt vs. tatsächlich

Punkte nahe der Diagonalen bedeuten, dass das Modell gut vorhersagt.

Stärken und Schwächen von SVR

SVR hat spezifische Stärken, die es in den richtigen Situationen zur besten Wahl machen – und Schwächen, die es in anderen unpassend machen.

Vorteile

  • Robust gegenüber Rauschen: Das Epsilon-Rohr sorgt dafür, dass kleine Fehler das Modell gar nicht beeinflussen. Verrauschte Daten, die eine lineare Regression vom Kurs abbringen würden, werden ignoriert
  • Bildet Nichtlinearitäten ab: Mit dem passenden Kernel passt SVR Kurven, die Standardregression ohne manuelles Feature-Engineering nicht schafft
  • Flexibel: Du steuerst Randbreite, Fehlstrafe und Kernel – und passt das Modell so an viele Datenformen und Rauschlevel an

Einschränkungen

  • Langsam bei großen Datensätzen: SVR skaliert schlecht. Die Trainingszeit wächst mit der Anzahl der Samples – bei Hunderttausenden Zeilen wird es unpraktisch.
  • Empfindlich fürs Tuning: C, Epsilon und Gamma wirken zusammen. Schlechte Kombinationen kosten Performance, und gutes Tuning braucht Zeit und Rechenleistung – zumal SVR nicht gut skaliert
  • Weniger interpretierbar: Es gibt keinen einfachen Koeffizienten zum Inspizieren. Nachvollziehen, warum SVR eine bestimmte Vorhersage trifft, ist schwierig – wenn Erklärbarkeit Pflicht ist, ist das nicht dein Modell

Wann SVR verwenden?

SVR spielt seine Stärken unter bestimmten Bedingungen aus. Du solltest SVR einsetzen, wenn:

  • dein Datensatz mittelgroß ist – ein paar Hundert bis ein paar Tausend Samples sind ideal
  • die Beziehung zwischen Features und Ziel nichtlinear ist und du kein manuelles Feature-Engineering machen willst
  • deine Daten Rauschen oder Ausreißer enthalten und du ein unempfindliches Modell brauchst

Du solltest SVR meiden, wenn:

  • dein Datensatz sehr groß ist – das Training wird langsam und endet womöglich nicht in vertretbarer Zeit
  • Geschwindigkeit zählt – Training und Hyperparameter-Suche sind teurer als Alternativen wie Gradient Boosting oder lineare Regression

Wenn dein Datensatz groß und verrauscht ist, sind Methoden wie Gradient Boosting oft die bessere erste Wahl. SVR ist top, wenn du saubere, mittelgroße Daten mit Strukturen hast, die einfachere Modelle nicht gut treffen.

Häufige Fehler mit SVR

Die meisten Probleme mit SVR lassen sich auf denselben Fehlerkatalog zurückführen – hier deine Spickliste, was du vermeiden solltest.

  • Keine Skalierung der Features. SVR ist abstands-basiert. Unskalierte Features dominieren das Modell. Setze immer StandardScaler auf X und y vor dem Fitten ein.

  • Epsilon falsch verstehen. Epsilon ist der mit Abstand wichtigste Parameter. Zu groß – und das Modell underfittet, weil es zu viel ignoriert. Zu klein – und es verhält sich wie Standardregression und jagt jedem Punkt nach. Mach immer eine Grid Search und prüfe, was auf deinem Testset am besten läuft.

  • Kein Parametertuning. Mit Default-Werten gute Ergebnisse zu erwarten, funktioniert selten – wie bei den meisten ML-Modellen. C, Epsilon und Gamma müssen zusammen getunt werden. Nutze Grid Search mit Cross-Validation.

  • SVR auf sehr großen Datensätzen nutzen. Ab mehr als ein paar Tausend Samples wird SVR langsam. Es skaliert schlicht nicht so gut wie andere Algorithmen. Wechsle zu Modellen, die große Datensätze besser handhaben – z. B. Gradient Boosting oder ein neuronales Netz.

Wichtig: Diese vier Dinge richtig zu machen, garantiert dir kein perfektes Modell – aber wenn du eines davon falsch machst, ist ein schlechtes Ergebnis fast sicher.

Fazit

Merke dir zum Abschluss: SVR löst ein anderes Problem als Standardregression. Statt jeden Fehler zu minimieren, passt es eine Funktion innerhalb eines Randes an und ignoriert das Rauschen darin – genau deshalb ist es hilfreich, wenn deine Daten nicht sauber oder nicht perfekt linear sind.

SVR ist nicht für Tempo oder Einfachheit bekannt. Aber es ist robust. Wenn deine Daten nichtlineare Beziehungen und Ausreißer enthalten, die du nicht modellieren willst, hilft dir SVR, dich auf Struktur zu konzentrieren statt jedem Punkt hinterherzulaufen.

Denk daran: Features skalieren, Parameter tunen, den richtigen Kernel wählen und bei der Datenmenge konservativ bleiben. Wenn du das beherzigst, liefert SVR ein robustes Modell, das in der Produktion selten böse überrascht.

SVR ist nur ein Werkzeug, das jede Data Scientist kennen sollte. Melde dich für unseren Machine Learning Engineer-Lernpfad an und mach dich fit für den Job in 2026.

Fähigkeiten im Bereich Machine Learning aufbauen

Bringe deine Fähigkeiten im maschinellen Lernen auf Produktionsniveau.
Kostenloses Lernen beginnen

Dario Radečić's photo
Author
Dario Radečić
LinkedIn
Senior Data Scientist mit Sitz in Kroatien. Top Tech Writer mit über 700 veröffentlichten Artikeln, die mehr als 10 Millionen Mal aufgerufen wurden. Buchautor von Machine Learning Automation with TPOT.

SVR FAQs

Was ist Support Vector Regression und worin unterscheidet sie sich von Standardregression?

Support Vector Regression ist eine Regressionsmethode, die eine Funktion innerhalb eines Toleranzbereichs – dem Epsilon-Rohr – anpasst und alle Fehler darin ignoriert. Standardregression minimiert die Gesamtfehler über alle Punkte und ist dadurch anfällig für Rauschen und Ausreißer. SVR reagiert nur auf Punkte außerhalb des Rands und fokussiert damit die Gesamtstruktur statt jedem Residuum nachzugehen.

Wann sollte ich SVR gegenüber anderen Regressionsmethoden verwenden?

SVR funktioniert am besten bei mittelgroßen Datensätzen, wenn die Beziehung zwischen Features und Ziel nichtlinear ist und deine Daten Rauschen enthalten, das du nicht vollständig entfernen kannst. Für sehr große Datensätze, bei denen die Trainingszeit zum Problem wird, oder wenn Geschwindigkeit und Interpretierbarkeit zählen, ist SVR ungeeignet. In solchen Fällen sind Gradient Boosting oder lineare Regression oft die bessere Wahl.

Muss ich SVR-Parameter tunen, um gute Ergebnisse zu erzielen?

Ja – SVR reagiert stärker auf die Parameterwahl als die meisten Regressionsmethoden. Die wichtigsten Parameter sind C, das die Strenge der Bestrafung von Fehlern außerhalb des Rohrs steuert, Epsilon für die Randbreite sowie der Kernel mit zugehörigen Parametern wie Gamma. Mit Default-Werten erreichst du selten das Optimum, daher sind Grid Search und Cross-Validation Standard.

Warum ist Feature-Skalierung bei SVR so wichtig?

SVR basiert auf Abständen zwischen Datenpunkten. Features mit größerem Maßstab dominieren daher das Ergebnis. Ohne Skalierung verhält sich das Modell so, als wären manche Features wichtiger – allein wegen der Einheiten. Wende daher StandardScaler immer auf X und y vor dem Fitten an und führe Vorhersagen anschließend per Inverse-Transformation zurück.

Was steuert Epsilon in der SVR und wie wähle ich den Wert?

Epsilon definiert die Breite des Toleranzbereichs um die angepasste Funktion – jeder Vorhersagefehler kleiner als Epsilon wird als Null behandelt. Ein großes Epsilon ergibt ein einfacheres Modell, das mehr Daten ignoriert, ein kleines Epsilon erzwingt einen engeren Fit und erhöht die Anzahl der Support-Vektoren. Einen universell richtigen Wert gibt es nicht: Behandle Epsilon als Tuning-Parameter und suche ihn zusammen mit C und Gamma per Cross-Validation.

Themen

Lerne mit DataCamp

Lernpfad

Überwachtes Machine Learning in Python

25 Std.
Beherrsche die beliebtesten Techniken des überwachten maschinellen Lernens, um Vorhersagen mit gelabelten Daten zu treffen.
Details anzeigenRight Arrow
Kurs starten
Mehr anzeigenRight Arrow