Kerneltricket förklarat: Hur SVM lär sig icke‑linjära mönster

En begreppsguide till kerneltricket – vad det är, hur det möjliggör SVM:er och andra kernelbaserade modeller, och när du ska använda det framför andra angreppssätt för icke‑linjär modellering.

Uppdaterad 4 maj 2026 · 12 min läsa

Linjärmodeller är enkla och intuitiva, men fallerar så snart dina data inte är linjärt separerbara.

Och de flesta data i verkligheten är det inte. Oavsett hur du justerar vikterna är en rak beslutsgräns ingen bra passform – klasserna överlappar eller bildar mönster som ingen linje kan dela utan misstag. Om du vet att modellen är för enkel för uppgiften men inte vill hoppa direkt till ett neuralt nätverk, finns det en bra mellannivå.

Support Vector Machines erbjuder ett ”trick”. Du kan projicera dina data till ett högre-dimensionellt rum, och det som såg oseparerbart ut blir ofta separerbart. Kerneltricket är en beräkningsgenväg som låter kernelbaserade modeller som SVM fungera som om datan vore transformerad, utan att faktiskt utföra transformeringen.

I den här artikeln lär du dig exakt hur kerneltricket fungerar i SVM:er, vilka kernelfunktioner du bör känna till och när kernelmetoder är värda att använda.

Men vad är egentligen SVM? Läs vårt blogginlägg om Support Vector Machines med Scikit‑learn för att lära dig allt om algoritmen och hur du tillämpar den.

Vad är kerneltricket?

Kerneltricket är en metod för att beräkna inre produkter i ett högre-dimensionellt funktionsrum utan att explicit mappa datan dit.

Så du transformerar inte faktiskt dina datapunkter och gör sedan matematiken på dem. Du beräknar vad resultatet av den matematiken skulle vara genom att använda en kernelfunktion som verkar direkt på de ursprungliga indata.

Det du ska ha i åtanke är att kerneltricket bara gäller modeller som bygger på skalärprodukter mellan datapunkter. Det är inte en allmän ML-teknik. Om en modell inte använder skalärprodukter internt gäller inte kerneltricket. De flesta modeller gör det inte.

SVM:er, gaussiska processer och kernel-PCA är ett par bra exempel där kerneltricket fungerar. Men låt ingen påstå att detta är något ”de flesta ML-modeller använder”.

Varför kerneltricket finns

Linjärmodeller kan bara lära sig linjära beslutsgränser. Det är deras hårda begränsning, och det är det som gör dem lätta att förstå och tolka.

Men de flesta verkliga datamängder är inte linjärt separerbara. Det finns ingen rak linje (eller hyperplan) som rent delar klasserna. Med kerneltricket kan dock samma data bli separerbar om du projicerar den till ett högre-dimensionellt rum.

Det uppenbara sättet att angripa detta är att uttryckligen transformera datan genom att skapa nya funktioner, mappa varje punkt till det högre-dimensionella rummet och träna din modell därifrån. Det fungerar, men kostnaden skalar. Om du mappar till ett rum med tusentals dimensioner blir det dyrt att lagra och räkna på dessa transformerade vektorer.

Med kerneltricket, i stället för att beräkna den fullständiga transformeringen φ(x) för varje datapunkt, beräknar du K(x, x′) – en kernelfunktion som ger dig samma inre produkt direkt.

Kerneltricket i Support Vector Machines

En SVM hittar den beslutsgräns som maximerar marginalen mellan två klasser.

För att hitta den gränsen löser SVM ett optimeringsproblem. Och i sin duala form beror optimeringen bara på skalärprodukter mellan datapunkter, inte på datapunkterna själva. Den duala målfunktionen ser ut så här:

Duala målfunktionen

Där α_i är de inlärda vikterna, y_i är klassetiketterna, och ⟨x_i, x_j⟩ är skalärprodukten mellan två datapunkter. SVM behöver bara parvisa likheter mellan datapunkterna.

Om SVM bara behöver skalärprodukter, behöver du inte ge den skalärprodukter beräknade i det ursprungliga rummet. Du byter ut ⟨x_i, x_j⟩ mot en kernelfunktion K(x_i, x_j):

Formel med kernelfunktion

SVM körs på exakt samma sätt. Den tror bara att den verkar i ett rikare funktionsrum.

Och det är precis vad kerneltricket handlar om.

Hur kerneltricket fungerar (konceptuell vy)

Standardansatsen vore att definiera en avbildning φ(x) som transformerar varje datapunkt till ett högre-dimensionellt rum och sedan beräkna skalärprodukter där:

Avbildningen

Men att beräkna φ(x) explicit kan vara dyrt, och i vissa fall har det avbildade rummet tusentals eller till och med oändligt många dimensioner.

Kerneltricket hoppar över det steget.

I stället för att beräkna φ(x) och sedan ta skalärprodukten beräknar du direkt K(x, x′) – en kernelfunktion som uppfyller:

Beräkning med kernelfunktion

Resultatet är identiskt, men kostnaden är lägre.

Tänk på K(x, x′) som en likhetsfunktion. Den tar två datapunkter i det ursprungliga rummet och returnerar ett tal som återspeglar hur lika de är – men på ett sätt som motsvarar att jämföra dem i ett mycket rikare rum. Modellen beter sig som om datan vore transformerad. Det var den bara aldrig.

Vanliga kernelfunktioner

Alla kernelfunktioner fungerar inte likadant. Var och en definierar en annan uppfattning om likhet mellan datapunkter, vilket innebär att var och en ger en annan typ av beslutsgräns. Låt mig visa ett par.

Linjär kernel

Linjär kernel

Den linjära kerneln är bara en vanlig skalärprodukt. Modellen stannar i det ursprungliga funktionsrummet och lär sig en linjär gräns, vilket gör den ekvivalent med en standardlinjär SVM.

Använd denna kernel när dina data redan är linjärt separerbara. Det är det snabbaste alternativet och lättast att tolka.

Polynomkernel

Polynomkernel

Där c är en konstant och d är polynomets grad.

Polynomkerneln fångar interaktioner mellan funktioner. En kernel av grad 2 beaktar till exempel alla parvisa funktionskombinationer. Det låter modellen lära sig krökta gränser utan att du behöver skapa dessa interaktionstermer manuellt.

Högre grader innebär mer uttrycksfulla gränser, men också större risk för överanpassning.

RBF (gaussisk) kernel

RBF-kernel

RBF (Radial Basis Function) är den mest använda kerneln i praktiken. Den mäter likhet baserat på avstånd. Två punkter som ligger nära varandra får en hög poäng, två punkter långt ifrån varandra får en poäng nära noll.

Det intressanta är att den implicit mappar data till ett oändligt-dimensionellt rum. Det ger tillräcklig flexibilitet för att förstå komplexa, icke‑linjära gränser som andra kernelar inte klarar av.

Sigmoidkernel

Sigmoidkernel

Sigmoidkerneln används mer sällan än RBF- eller polynomkernelar, och den uppfyller inte alltid de matematiska villkoren för en giltig kernelfunktion beroende på parametervalen.

Den dyker upp då och då i äldre litteratur, men i praktiken är RBF nästan alltid en bättre startpunkt.

Kerneltricket bortom SVM

SVM är den vanligaste algoritmen för kerneltricket, men den är inte den enda.

Ett par andra modeller använder samma idé:

Kernel ridge regression tillämpar ridge-regression i ett högre-dimensionellt rum med en kernelfunktion i stället för explicita funktioner
Gaussiska processer använder kernelfunktioner för att definiera kovarians mellan datapunkter. Kerneln kodar antaganden om den släthet och form som funktionen du försöker lära dig har
Kernel-PCA utökar vanlig PCA till icke‑linjära strukturer genom att hitta huvudkomponenter i ett transformerat funktionsrum

I samtliga fall behöver modellen bara skalärprodukter, så du kan byta in en kernelfunktion och få icke‑linjärt beteende utan att ändra resten av matematiken.

Men SVM är fortfarande det tydligaste exemplet och den bästa platsen att bygga din intuition.

Kerneltrick vs. feature engineering

Båda angreppssätten löser problemet att dina funktioner inte är tillräckligt uttrycksfulla. Men de gör det på olika sätt.

Med feature engineering skapar du uttryckligen nya funktioner från de befintliga. Du bestämmer vilka kombinationer som spelar roll, beräknar dem, lägger till dem i din datamängd och tränar på den utökade funktionsuppsättningen. Du ser exakt vad som gick in i modellen.

Kerneltricket verkar implicit i ett högre-dimensionellt rum utan att du någonsin definierar eller lagrar dessa extra funktioner. Transformeringen beskrivs av kernelfunktionen.

Avvägningen handlar i grunden om tolkbarhet kontra flexibilitet.

Feature engineering håller saker transparenta, eftersom du vet vad varje funktion representerar. Kerneltricket ger dig mer uttrycksförmåga, men det implicita funktionsrummet är ofta svårt att inspektera eller förklara.

Om tolkbarhet är viktigt för din användning är feature engineering det säkrare valet. Om du behöver förstå komplexa mönster och inte behöver förklara varje beslut modellen fattar, tar kerneltricket dig dit snabbare.

Fördelar med kerneltricket

Den mest uppenbara är att det låter linjära modeller lära sig icke‑linjära gränser. Utan det kan en SVM bara separera klasser med ett rakt hyperplan. Med det kan samma modell hantera krökta, komplexa beslutsgränser.

Det undviker också kostnaden för explicit högdimensionell beräkning. Du får uttryckskraften hos ett rikare funktionsrum utan att lagra eller beräkna dessa extra dimensioner. För problem där det implicita funktionsrummet har tusentals eller oändligt många dimensioner är det detta som gör metoden möjlig överhuvudtaget.

Kernelmetoder tenderar också att fungera bra på medelstora datamängder. När du inte har miljontals exempel men dina data inte är linjärt separerbara är en SVM med en bra kernel ofta ett stabilt och pålitligt val.

Begränsningar med kerneltricket

Det största problemet är skalan. Att träna en kernel-SVM kräver att beräkna K(x_i, x_j) för varje par av datapunkter. Det är en O(n²)-operation – och det blir värre när du tar hänsyn till minnet. På stora datamängder kan detta bli en hård flaskhals.

Val av kernel är heller inte trivialt. RBF är ett bra standardval, men inte alltid det rätta. Att välja fel kernel – eller fel hyperparametrar för en kernel – kan leda till sämre prestanda än du började med.

Tolkbarhet är ett annat problem. Med feature engineering vet du vad varje funktion betyder. Med kerneltricket är det implicita funktionsrummet inte tydligt. Modellen fungerar, men att förklara varför den fattade ett visst beslut är svårt.

Och i många domäner har djupinlärning helt enkelt tagit över. Neurala nätverk hanterar stora datamängder, lär sig egna funktionsrepresentationer och överträffar ofta kernelmetoder utan att kräva manuell kernelval. För bildklassificering, NLP eller någon uppgift med enorma datamängder är kernelmetoder sällan förstahandsvalet numera.

När ska man använda kernelmetoder

Kernelmetoder är inte föråldrade 2026, men de har blivit mer specialiserade än tidigare.

Du bör välja en kernelmetod som en SVM med RBF-kernel när:

Dina data har ickelinjär struktur som en linjär modell inte kan förstå
Din datamängd är liten till medelstor – tänk tusentals prover, inte miljoner
Du behöver inte förklara enskilda prediktioner, så lägre tolkbarhet är en acceptabel avvägning

De passar bra för strukturerade, tabellära problem där du har begränsat med data och behöver en modell som generaliserar väl utan mycket finjustering. I sådana fall kan en kernel-SVM fortfarande överträffa mer komplexa modeller.

Men om din datamängd är stor, eller om du behöver förklarbara prediktioner, är kernelmetoder inte den bästa lösningen.

Exempel: SVM med och utan kernel

Det bästa sättet att se vad kerneltricket faktiskt gör är att se en linjär SVM misslyckas, och sedan fixa den med en kernel.

I exemplet nedan har du en enkel datamängd med två koncentriska cirklar, där en klass bildar en inre ring och den andra en yttre. Det finns ingen rak linje som kan separera dem. En linjär SVM kommer att misslyckas varje gång

Med en RBF-kernel kommer samma SVM att rita en cirkelformad gräns som separerar klasserna. Det enda som har ändrats är kernelfunktionen.

Här är hela exemplet:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.datasets import make_circles

# Generate concentric circles dataset
np.random.seed(42)
X, y = make_circles(n_samples=300, noise=0.1, factor=0.4)

# Train both SVMs
svm_linear = SVC(kernel="linear", C=1)
svm_rbf = SVC(kernel="rbf", C=1, gamma="scale")
svm_linear.fit(X, y)
svm_rbf.fit(X, y)

print(f"Linear SVM accuracy: {svm_linear.score(X, y):.0%}")
print(f"RBF SVM accuracy:    {svm_rbf.score(X, y):.0%}")

Linjär kontra RBF‑SVM noggrannhet

Den linjära SVM:en drar en rak gräns genom mitten av datan. Den delar planet i två halvor, vilket inte alls matchar problemets faktiska struktur. RBF-kerneln, däremot, ger en cirkelformad gräns som följer datans form.

Linjär kontra RBF‑SVM visualiserat

Sammanfattningsvis lärde sig modellen inte en mer komplex struktur – den verkade bara i ett rum där strukturen var enklare att hitta.

Vanliga missuppfattningar om kerneltricket

Det finns några missuppfattningar om kerneltricket som dyker upp tillräckligt ofta, så låt mig ta upp dem här.

"Kerneltricket fungerar för alla modeller." Det gör det inte. Kerneltricket gäller bara modeller som bygger på skalärprodukter mellan datapunkter i sin optimering. De flesta modeller – beslutsträd, random forests, neurala nätverk, linjär regression – använder inte skalärprodukter på det sättet, så kerneltricket gäller inte för dem.

"Det transformerar bokstavligen datan." Inte explicit. Dina ursprungliga datapunkter förblir precis som de är. Kernelfunktionen beräknar vad skalärprodukten skulle vara i ett högre-dimensionellt rum, men ingen transformering sker i praktiken. Datan expanderas eller lagras aldrig annorlunda.

"Det förbättrar alltid prestandan." Det beror på. På icke‑linjära problem med små till medelstora datamängder kan en bra kernel göra skillnad. På stora datamängder överväger ofta den beräkningsmässiga kostnaden nyttan. Och om dina data redan är linjärt separerbara tillför en kernel bara komplexitet.

Varför kerneltricket fortfarande spelar roll

Kerneltricket är inte den mest omtalade idén inom ML just nu. Djupinlärning toppar de flesta benchmarklistor, och kernelmetoder dyker sällan upp någonstans.

Men det är fortfarande ett grundläggande koncept värt att förstå.

SVM:er och kerneltricket var centrala i klassisk ML eftersom de fungerar bra på strukturerade, tabellära data med begränsat antal exempel, och matematiken bakom är ren och välförstådd. Om du vill förstå hur likhetsbaserat lärande fungerar, eller varför skalärprodukter spelar roll i optimering, är kerneltricket ett av de tydligaste exemplen att studera.

Det har också fortfarande verkliga användningsområden. Små datamängder, specialiserade domäner som bioinformatik eller textklassificering med handgjorda funktioner, och problem där du behöver en modell som generaliserar väl utan mycket data – det här är områden där kernelmetoder fortfarande är relevanta.

Kerneln ersattes i domäner där skala och rå datavolym spelar störst roll. I rätt sammanhang är det fortfarande ett bra verktyg.

Slutsats

Kerneltricket löser ett specifikt problem: hur man får icke‑linjärt beteende från en modell som bara vet hur man arbetar med skalärprodukter. Svaret är att ersätta dessa skalärprodukter med en kernelfunktion som beräknar samma resultat i ett rikare funktionsrum – utan att faktiskt gå dit.

Det är mest användbart att förstå i SVM‑sammanhang, där den duala formuleringen gör ersättningen tydlig och explicit. När du blir bekväm med det kommer den bredare familjen av kernelmetoder att bli mycket mer begriplig.

Djupinlärning får mest uppmärksamhet idag, och för storskaliga problem är det rimligt. Men kerneltricket representerar ett annat sätt att tänka – ett som bygger på geometri och likhet. Det är värt att förstå, men om du inte arbetar i ett specialiserat fält kommer du knappt att använda det i praktiken.

Men varför tog djupinlärning egentligen över? Anmäl dig till vårt Deep Learning in Python‑spår för att se hur neurala nätverk låter dig bygga komplexa modeller i stor skala.