Wyjaśnienie sztuczki z jądrem: jak SVM uczą się nieliniowych wzorców

Koncepcyjny przewodnik po sztuczce z jądrem – czym jest, jak umożliwia działanie SVM i innych modeli jąderkowych oraz kiedy wybrać ją zamiast innych podejść do modelowania nieliniowego.

Zaktualizowano 4 maj 2026 · 12 min Czytać

Modele liniowe są proste i intuicyjne, ale zawodzą, gdy dane nie są liniowo separowalne.

A większość danych ze świata rzeczywistego taka właśnie jest. Niezależnie od strojenia wag, prosta granica decyzyjna nie będzie dobrze dopasowana – klasy nachodzą na siebie lub tworzą wzorce, których żadna linia nie podzieli bez błędów. Jeśli wie Pan/Pani, że model jest zbyt prosty do zadania, ale nie chce Pan/Pani od razu przeskakiwać do sieci neuronowych, istnieje rozsądny złoty środek.

Maszyny wektorów nośnych (SVM) oferują pewną „sztuczkę”. Można rzutować dane do przestrzeni o wyższym wymiarze i to, co wcześniej wydawało się nieseporowalne, często staje się separowalne. Sztuczka z jądrem to skrót obliczeniowy, który pozwala modelom jąderkowym, takim jak SVM, działać tak, jakby dane zostały przekształcone, bez jawnego wykonywania tej transformacji.

W tym artykule dowie się Pan/Pani dokładnie, jak sztuczka z jądrem działa w SVM, jakie funkcje jąder warto znać i kiedy warto sięgnąć po metody jąderkowe.

Ale czym właściwie jest SVM? Prosimy przeczytać nasz wpis na blogu o Maszynach wektorów nośnych w Scikit-learn, aby poznać algorytm i sposób jego zastosowania.

Czym jest sztuczka z jądrem?

Sztuczka z jądrem to metoda obliczania iloczynów skalarnych w przestrzeni cech o wyższym wymiarze bez jawnego odwzorowywania danych do tej przestrzeni.

Nie przekształca Pan/Pani faktycznie punktów danych i nie wykonuje na nich obliczeń. Oblicza Pan/Pani to, jaki byłby wynik tych obliczeń gdyby je przeprowadzić, używając funkcji jądra, która działa bezpośrednio na oryginalnych wejściach.

Warto pamiętać, że sztuczka z jądrem dotyczy wyłącznie modeli opartych na iloczynach skalarnych między punktami danych. To nie jest technika ML ogólnego przeznaczenia. Jeśli model wewnętrznie nie używa iloczynów skalarnych, sztuczka z jądrem nie ma zastosowania. Większość modeli ich nie używa.

SVM, procesy gaussowskie i jądrowe PCA to kilka dobrych przykładów, gdzie sztuczka z jądrem zadziała. Niech jednak nikt nie mówi, że to coś, czego „używa większość modeli ML”.

Dlaczego istnieje sztuczka z jądrem

Modele liniowe mogą się uczyć wyłącznie liniowych granic decyzyjnych. To ich twarde ograniczenie i właśnie dlatego są łatwe do zrozumienia oraz interpretacji.

Jednak większość rzeczywistych zbiorów danych nie jest liniowo separowalna. Nie istnieje prosta linia (ani hiperpłaszczyzna), która czysto podzieli klasy. Dzięki sztuczce z jądrem, po rzutowaniu danych do przestrzeni o wyższym wymiarze, te same dane mogą stać się separowalne.

Najbardziej oczywistym podejściem jest jawne przekształcenie danych przez tworzenie nowych cech, odwzorowanie każdego punktu do przestrzeni o wyższym wymiarze i trenowanie modelu w tej przestrzeni. Działa, ale koszt rośnie. Jeśli odwzorowuje się do przestrzeni o tysiącach wymiarów, przechowywanie i obliczenia na przekształconych wektorach stają się kosztowne.

Dzięki sztuczce z jądrem, zamiast obliczać pełną transformację φ(x) dla każdego punktu danych, oblicza się K(x, x′) – funkcję jądra, która bezpośrednio daje ten sam wynik iloczynu skalarnego.

Sztuczka z jądrem w maszynach wektorów nośnych

SVM znajduje granicę decyzyjną maksymalizującą margines między dwiema klasami.

Aby znaleźć tę granicę, SVM rozwiązuje problem optymalizacyjny. W postaci dualnej optymalizacja zależy wyłącznie od iloczynów skalarnych między punktami danych, a nie od samych punktów. Cel dualny wygląda tak:

Funkcja celu w postaci dualnej

Gdzie α_i to wyuczone wagi, y_i to etykiety klas, a ⟨x_i, x_j⟩ to iloczyn skalarny dwóch punktów danych. SVM potrzebuje jedynie podobieństw par punktów danych.

Skoro SVM potrzebuje tylko iloczynów skalarnych, nie trzeba dostarczać ich wyliczonych w przestrzeni oryginalnej. Zamiast ⟨x_i, x_j⟩ podstawia się funkcję jądra K(x_i, x_j):

Wzór z funkcją jądra

SVM działa dokładnie tak samo. Po prostu „myśli”, że operuje w bogatszej przestrzeni cech.

I właśnie o to chodzi w sztuczce z jądrem.

Jak działa sztuczka z jądrem (ujęcie koncepcyjne)

Standardowym podejściem byłoby zdefiniowanie odwzorowania φ(x), które przekształca każdy punkt danych do przestrzeni o wyższym wymiarze, a następnie liczenie tam iloczynów skalarnych:

Odwzorowanie

Jednak jawne obliczanie φ(x) może być kosztowne, a w niektórych przypadkach odwzorowana przestrzeń ma tysiące, a nawet nieskończenie wiele wymiarów.

Sztuczka z jądrem omija ten krok.

Zamiast obliczać φ(x) i dopiero potem brać iloczyn skalarny, liczy się bezpośrednio K(x, x′) – funkcję jądra spełniającą:

Obliczanie funkcji jądra

Wynik jest identyczny, ale koszt mniejszy.

Proszę myśleć o K(x, x′) jak o funkcji podobieństwa. Przyjmuje dwa punkty danych w przestrzeni oryginalnej i zwraca liczbę odzwierciedlającą ich podobieństwo – ale w sposób odpowiadający porównaniu ich w znacznie bogatszej przestrzeni. Model zachowuje się tak, jakby dane były przetransformowane. Tylko, że nie były.

Najczęstsze funkcje jąder

Nie wszystkie funkcje jąder działają tak samo. Każda definiuje inny sposób mierzenia podobieństwa między punktami danych, co przekłada się na inny typ granicy decyzyjnej. Oto kilka przykładów.

Jądro liniowe

Jądro liniowe

Jądro liniowe to zwykły iloczyn skalarny. Model pozostaje w oryginalnej przestrzeni cech i uczy się liniowej granicy, co czyni go równoważnym standardowemu liniowemu SVM.

Proszę używać tego jądra, gdy dane są już liniowo separowalne. To najszybsza i najłatwiejsza do interpretacji opcja.

Jądro wielomianowe

Jądro wielomianowe

Gdzie c to stała, a d to stopień wielomianu.

Jądro wielomianowe wychwytuje interakcje między cechami. Jądro stopnia 2, na przykład, uwzględnia wszystkie pary kombinacji cech. Pozwala to modelowi uczyć się zakrzywionych granic bez ręcznego tworzenia tych członów interakcji.

Wyższe stopnie oznaczają bardziej ekspresyjne granice, ale też większe ryzyko przeuczenia.

Jądro RBF (Gaussa)

Jądro RBF

Jądro RBF (Radial Basis Function) jest najczęściej stosowanym jądrem w praktyce. Mierzy podobieństwo na podstawie odległości. Dwa bliskie punkty otrzymują wysoki wynik, a dwa odległe – wynik bliski zeru.

Co czyni je interesującym, to fakt, że niejawnie odwzorowuje dane do przestrzeni o nieskończonym wymiarze. Daje to wystarczającą elastyczność, by uchwycić złożone, nieliniowe granice, z którymi inne jądra sobie nie radzą.

Jądro sigmoidalne

Jądro sigmoidalne

Jądro sigmoidalne jest rzadziej stosowane niż RBF czy wielomianowe i nie zawsze spełnia warunki matematyczne wymagane dla poprawnej funkcji jądra – w zależności od doboru parametrów.

Pojawia się sporadycznie w starszej literaturze, ale w praktyce RBF prawie zawsze jest lepszym punktem wyjścia.

Sztuczka z jądrem poza SVM

SVM to najczęstszy algorytm dla sztuczki z jądrem, ale nie jedyny.

Kilka innych modeli korzysta z tej samej idei:

Jądrowa regresja grzbietowa stosuje regresję grzbietową w przestrzeni o wyższym wymiarze, używając funkcji jądra zamiast jawnych cech
Procesy gaussowskie używają funkcji jądra do definiowania kowariancji między punktami danych. Jądro koduje założenia o gładkości i kształcie funkcji, której chce się nauczyć
Jądrowe PCA rozszerza standardowe PCA na struktury nieliniowe, znajdując składowe główne w przekształconej przestrzeni cech

We wszystkich tych przypadkach model potrzebuje jedynie iloczynów skalarnych, więc można podstawić funkcję jądra i uzyskać nieliniowe zachowanie bez zmiany reszty matematyki.

SVM pozostaje jednak najczytelniejszym przykładem i najlepszym miejscem do budowania intuicji.

Sztuczka z jądrem a inżynieria cech

Oba podejścia rozwiązują problem niewystarczającej ekspresyjności cech. Robią to jednak w inny sposób.

W inżynierii cech jawnie tworzy się nowe cechy na bazie istniejących. Decyduje Pan/Pani, które kombinacje mają znaczenie, wylicza je, dodaje do zbioru danych i trenuje na rozszerzonym zestawie cech. Dokładnie widać, co trafiło do modelu.

Sztuczka z jądrem działa niejawnie w przestrzeni o wyższym wymiarze, bez definiowania czy przechowywania tych dodatkowych cech. Transformację opisuje funkcja jądra.

Komprosmis sprowadza się do interpretowalności versus elastyczność.

Inżynieria cech zachowuje przejrzystość, ponieważ wiadomo, co reprezentuje każda cecha. Sztuczka z jądrem daje większą ekspresję, ale niejawna przestrzeń cech jest często trudna do wglądu i wyjaśnienia.

Jeśli interpretowalność ma znaczenie w Pana/Pani przypadku użycia, bezpieczniejszym wyborem jest inżynieria cech. Jeśli trzeba zrozumieć złożone wzorce i nie trzeba wyjaśniać każdej decyzji modelu, sztuczka z jądrem szybciej doprowadzi do celu.

Zalety sztuczki z jądrem

Najbardziej oczywistą zaletą jest to, że pozwala modelom liniowym uczyć się nieliniowych granic. Bez niej SVM może rozdzielać klasy tylko prostą hiperpłaszczyzną. Dzięki niej ten sam model poradzi sobie z zakrzywionymi, złożonymi granicami decyzyjnymi.

Unika się też kosztu jawnych obliczeń w wysokim wymiarze. Uzyskuje się moc wyrazu bogatszej przestrzeni cech bez przechowywania i obliczania tych dodatkowych wymiarów. W problemach, gdzie niejawna przestrzeń cech ma tysiące lub nieskończenie wiele wymiarów, to właśnie umożliwia takie podejście.

Metody jąderkowe dobrze sprawdzają się także na zbiorach średniej wielkości. Gdy nie ma milionów przykładów, ale dane nie są liniowo separowalne, SVM z dobrze dobranym jądrem to często solidny i niezawodny wybór.

Ograniczenia sztuczki z jądrem

Największym problemem jest skala. Trenowanie jądrowego SVM wymaga obliczenia K(x_i, x_j) dla każdej pary punktów danych. To operacja O(n²) – a biorąc pod uwagę pamięć, jest jeszcze gorzej. Na dużych zbiorach danych może to być twarde wąskie gardło.

Wybór jądra także nie jest trywialny. RBF to dobry domyślny wybór, ale nie zawsze właściwy. Zły dobór jądra – lub jego hiperparametrów – może dać gorszą wydajność niż na początku.

Kolejny problem to interpretowalność. W inżynierii cech wiadomo, co znaczy każda cecha. Przy sztuczce z jądrem niejawna przestrzeń cech nie jest jasna. Model działa, ale wyjaśnienie dlaczego podjął konkretną decyzję, jest trudne.

W wielu dziedzinach prym przejęło po prostu głębokie uczenie. Sieci neuronowe radzą sobie z dużymi zbiorami danych, uczą własnych reprezentacji cech i często przewyższają metody jąderkowe bez konieczności ręcznego wyboru jądra. W klasyfikacji obrazów, NLP czy zadaniach z ogromną ilością danych metody jąderkowe rzadko są dziś pierwszym wyborem.

Kiedy używać metod jąderkowych

Metody jąderkowe nie są przestarzałe w 2026 roku, ale stały się bardziej wyspecjalizowane niż kiedyś.

Warto wybrać metodę jąderkową, np. SVM z jądrem RBF, gdy:

Dane mają nieliniową strukturę, której model liniowy nie rozumie
Zbiór danych jest mały do średniego – rzędu tysięcy próbek, nie milionów
Nie trzeba wyjaśniać pojedynczych predykcji, więc niższa interpretowalność jest akceptowalnym kompromisem

Dobrze sprawdzają się w problemach na danych ustrukturyzowanych, tabelarycznych, gdy ma się ograniczoną ilość danych i potrzebny jest model dobrze uogólniający bez dużego strojenia. W takich przypadkach jądrowy SVM wciąż może przewyższyć bardziej złożone modele.

Jeśli jednak zbiór jest duży albo potrzebne są wyjaśnialne predykcje, metody jąderkowe nie będą najlepszym rozwiązaniem.

Przykład: SVM z jądrem i bez

Najlepszym sposobem, by zobaczyć działanie sztuczki z jądrem, jest obejrzenie porażki liniowego SVM i naprawienie jej za pomocą jądra.

W poniższym przykładzie mamy prosty zbiór z dwiema współśrodkowymi okręgami: jedna klasa tworzy wewnętrzny pierścień, druga – zewnętrzny. Nie istnieje prosta linia, która by je rozdzieliła. Liniowy SVM zawsze zawiedzie.

Z jądrem RBF ten sam SVM narysuje okrągłą granicę oddzielającą klasy. Jedyną zmianą jest funkcja jądra.

Oto pełny przykład:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.datasets import make_circles

# Generate concentric circles dataset
np.random.seed(42)
X, y = make_circles(n_samples=300, noise=0.1, factor=0.4)

# Train both SVMs
svm_linear = SVC(kernel="linear", C=1)
svm_rbf = SVC(kernel="rbf", C=1, gamma="scale")
svm_linear.fit(X, y)
svm_rbf.fit(X, y)

print(f"Linear SVM accuracy: {svm_linear.score(X, y):.0%}")
print(f"RBF SVM accuracy:    {svm_rbf.score(X, y):.0%}")

Dokładność: liniowy SVM vs. RBF SVM

Liniowy SVM rysuje prostą granicę przez środek danych. Dzieli płaszczyznę na dwie połowy, co zupełnie nie odpowiada rzeczywistej strukturze problemu. Jądro RBF, przeciwnie, tworzy okrągłą granicę podążającą za kształtem danych.

Wizualizacja: liniowy SVM vs. RBF SVM

Podsumowując, model nie nauczył się bardziej złożonej struktury – po prostu działał w przestrzeni, w której łatwiej było ją znaleźć.

Częste nieporozumienia wokół sztuczki z jądrem

Istnieje kilka nieporozumień dotyczących sztuczki z jądrem, które pojawiają się na tyle często, że warto je tutaj wyjaśnić.

„Sztuczka z jądrem działa dla wszystkich modeli.” Nie. Dotyczy wyłącznie modeli opierających się w optymalizacji na iloczynach skalarnych między punktami danych. Większość modeli – drzewa decyzyjne, lasy losowe, sieci neuronowe, regresja liniowa – nie używa w ten sposób iloczynów skalarnych, więc sztuczka z jądrem ich nie dotyczy.

„To dosłownie przekształca dane.” Nie wprost. Oryginalne punkty danych pozostają bez zmian. Funkcja jądra oblicza, jaki byłby iloczyn skalarny w przestrzeni o wyższym wymiarze, ale w praktyce transformacja nie zachodzi. Dane nie są rozszerzane ani inaczej przechowywane.

„Zawsze poprawia wydajność.” To zależy. W problemach nieliniowych z małymi i średnimi zbiorami dobór dobrego jądra może zrobić różnicę. Na dużych zbiorach koszt obliczeniowy często przewyższa korzyści. A jeśli dane są już liniowo separowalne, dodanie jądra tylko komplikuje sprawę.

Dlaczego sztuczka z jądrem wciąż ma znaczenie

Sztuczka z jądrem nie jest dziś najgłośniejszym tematem w ML. Głębokie uczenie dominuje większość benchmarków, a metody jąderkowe rzadko się pojawiają.

Ale to wciąż fundamentalna koncepcja, którą warto zrozumieć.

SVM i sztuczka z jądrem były centralne dla klasycznego ML, ponieważ dobrze sprawdzają się na ustrukturyzowanych danych tabelarycznych z ograniczoną liczbą próbek, a stojąca za nimi matematyka jest czysta i dobrze zrozumiana. Jeśli chce Pan/Pani zrozumieć, jak działa uczenie oparte na podobieństwie albo dlaczego iloczyny skalarne są ważne w optymalizacji, sztuczka z jądrem to jeden z najczytelniejszych przykładów do nauki.

Ma też wciąż realne zastosowania. Małe zbiory danych, wyspecjalizowane dziedziny jak bioinformatyka czy klasyfikacja tekstu z ręcznie tworzonymi cechami oraz problemy, w których potrzebny jest model dobrze uogólniający przy niewielkiej ilości danych – to obszary, gdzie metody jąderkowe pozostają istotne.

Jądra zostały wyparte w dziedzinach, gdzie najbardziej liczy się skala i surowa ilość danych. W odpowiednim kontekście to wciąż dobre narzędzie.

Wnioski

Sztuczka z jądrem rozwiązuje konkretny problem: jak uzyskać nieliniowe zachowanie z modelu, który potrafi operować tylko na iloczynach skalarnych. Odpowiedzią jest zastąpienie tych iloczynów funkcją jądra, która oblicza ten sam wynik w bogatszej przestrzeni cech – bez faktycznego przechodzenia do niej.

Najlepiej rozumieć ją w kontekście SVM, gdzie postać dualna pozwala na czyste i jawne podstawienie. Gdy to stanie się zrozumiałe, szersza rodzina metod jąderkowych nabierze większego sensu.

Dziś największą uwagę przyciąga głębokie uczenie i w przypadku problemów na dużą skalę – słusznie. Sztuczka z jądrem reprezentuje jednak inne podejście – oparte na geometrii i podobieństwie. Warto ją zrozumieć, choć jeśli nie pracuje Pan/Pani w wyspecjalizowanej dziedzinie, rzadko będzie używana w praktyce.

Ale dlaczego właściwie głębokie uczenie przejęło pałeczkę? Prosimy zapisać się na ścieżkę Deep Learning in Python, aby zobaczyć, jak sieci neuronowe pozwalają budować złożone modele w skali.