커널 트릭 설명: SVM이 비선형 패턴을 학습하는 방법

커널 트릭에 대한 개념적 가이드 — 그것이 무엇이며, SVM 및 기타 커널 기반 모델을 어떻게 가능하게 하는지, 그리고 비선형 모델링에서 다른 접근보다 언제 사용할지.

업데이트됨 2026년 5월 4일 · 12분 읽다

선형 모델은 간단하고 직관적이지만, 데이터가 선형적으로 분리되지 않으면 곧 한계를 드러냅니다.

그리고 대부분의 현실 세계 데이터는 그렇지 않습니다. 가중치를 어떻게 조정하더라도 직선 결정 경계는 잘 맞지 않습니다. 클래스가 겹치거나 직선으로는 실수 없이 나눌 수 없는 패턴을 이루기 때문입니다. 모델이 과제에 비해 너무 단순하다는 건 알지만, 곧장 신경망으로 넘어가고 싶지 않다면 좋은 중간 지점이 있습니다.

서포트 벡터 머신(SVM)은 한 가지 "비법"을 제공합니다. 데이터를 더 높은 차원의 공간으로 사영하면, 분리 불가능해 보이던 것이 종종 분리 가능해집니다. 커널 트릭은 SVM 같은 커널 기반 모델이 데이터를 명시적으로 변환하지 않고도, 마치 변환된 것처럼 작동하게 해 주는 계산 지름길입니다.

이 글에서는 SVM 내부에서 커널 트릭이 정확히 어떻게 작동하는지, 알아두어야 할 커널 함수는 무엇인지, 그리고 언제 커널 방법을 선택하는 것이 좋은지 살펴봅니다.

그런데 SVM이 정확히 무엇일까요? 알고리즘과 적용 방법을 모두 알아보려면 Scikit-learn으로 배우는 서포트 벡터 머신 블로그 글을 읽어보세요.

커널 트릭이란?

커널 트릭은 데이터를 명시적으로 고차원 특징 공간으로 사상하지 않고, 그 공간에서의 내적을 계산하는 방법입니다.

즉, 실제로 데이터 포인트를 변환한 뒤 그 위에서 계산하는 것이 아닙니다. 원래 입력에 바로 작동하는 커널 함수를 사용해, 그 계산의 결과가 어떻게 나올지를 계산하는 것입니다.

기억해야 할 점은, 커널 트릭은 데이터 포인트 간의 점곱에 의존하는 모델에만 적용된다는 것입니다. 범용 ML 기법이 아닙니다. 모델이 내부적으로 점곱을 사용하지 않는다면 커널 트릭은 적용되지 않습니다. 대부분의 모델은 이를 사용하지 않습니다.

SVM, 가우시안 프로세스, 커널 PCA는 이 커널 트릭이 통하는 대표적인 예시입니다. 하지만 이것이 "대부분의 ML 모델이 사용하는 방식"이라고 말하는 사람의 말은 믿지 마세요.

커널 트릭이 존재하는 이유

선형 모델은 선형 결정 경계만 학습할 수 있습니다. 이것이 이들의 강한 제약이며, 이해와 해석이 쉬운 이유이기도 합니다.

하지만 대부분의 실제 데이터셋은 선형적으로 분리되지 않습니다. 클래스를 깔끔하게 나눌 수 있는 직선(또는 초평면)이 존재하지 않습니다. 그러나 커널 트릭을 사용해 데이터를 고차원 공간으로 사영하면, 같은 데이터가 분리 가능해질 수 있습니다.

가장 직관적인 접근은 새로운 특징을 만들어 각 포인트를 고차원 공간으로 명시적으로 매핑하고, 그 위에서 모델을 학습하는 것입니다. 작동은 하지만 비용이 증가합니다. 수천 차원 공간으로 매핑한다면, 변환된 벡터를 저장하고 계산하는 데 드는 비용이 커집니다.

커널 트릭을 사용하면, 모든 데이터 포인트에 대해 전체 변환 φ(x)을 계산하는 대신 K(x, x′)을 계산합니다. 이 커널 함수는 동일한 내적 결과를 직접 제공합니다.

서포트 벡터 머신에서의 커널 트릭

SVM은 두 클래스 간의 마진을 최대화하는 결정 경계를 찾습니다.

그 경계를 찾기 위해 SVM은 최적화 문제를 풉니다. 그리고 그 쌍대 형식에서는 최적화가 데이터 포인트 자체가 아니라 데이터 포인트 간 점곱에만 의존합니다. 쌍대 목적함수는 다음과 같습니다:

쌍대 목적함수

여기서 α_i는 학습된 가중치, y_i는 클래스 레이블, ⟨x_i, x_j⟩는 두 데이터 포인트 간 점곱입니다. SVM에는 데이터 포인트 사이의 쌍별 유사도만 필요합니다.

SVM에 점곱만 필요하다면, 원래 공간에서 계산한 점곱을 제공할 필요는 없습니다. ⟨x_i, x_j⟩를 커널 함수 K(x_i, x_j)로 바꿔치기할 수 있습니다:

커널 함수를 사용한 식

SVM은 완전히 동일한 방식으로 동작합니다. 단지 더 풍부한 특징 공간에서 작동한다고 생각할 뿐입니다.

이것이 바로 커널 트릭의 핵심입니다.

커널 트릭의 작동 원리(개념적 관점)

표준 접근은 각 데이터 포인트를 고차원 공간으로 변환하는 사상 φ(x)을 정의하고, 그 공간에서 점곱을 계산하는 것입니다:

사상

하지만 φ(x)를 명시적으로 계산하는 일은 비쌀 수 있으며, 경우에 따라 매핑된 공간은 수천 또는 심지어 무한 차원을 갖기도 합니다.

커널 트릭은 그 단계를 건너뜁니다.

φ(x)를 계산한 뒤 점곱을 하는 대신, 다음 조건을 만족하는 커널 함수 K(x, x′)을 직접 계산합니다:

커널 함수 계산

결과는 동일하지만 비용은 더 적게 듭니다.

K(x, x′)를 유사도 함수로 생각해 보세요. 원래 공간의 두 데이터 포인트를 입력받아 그들이 얼마나 비슷한지 숫자로 반환하는데, 훨씬 더 풍부한 공간에서 비교한 결과에 해당하도록 작동합니다. 모델은 데이터가 변환된 것처럼 행동하지만, 실제로 변환은 이루어지지 않습니다.

자주 쓰이는 커널 함수

모든 커널 함수가 동일하게 작동하는 것은 아닙니다. 각 커널은 데이터 포인트 간 유사도를 다르게 정의하며, 이는 곧 각자 다른 형태의 결정 경계를 만든다는 뜻입니다. 몇 가지를 소개합니다.

선형 커널

선형 커널

선형 커널은 표준 점곱과 동일합니다. 모델은 원래 특징 공간에 머물며 선형 경계를 학습하므로, 표준 선형 SVM과 동등합니다.

데이터가 이미 선형적으로 분리 가능한 경우에 사용하세요. 가장 빠르고 해석도 가장 쉽습니다.

다항 커널

다항 커널

여기서 c는 상수이고, d는 다항식의 차수입니다.

다항 커널은 특징 간 상호작용을 포착합니다. 예를 들어 차수 2 커널은 모든 쌍별 특징 조합을 고려합니다. 이를 통해 사용자가 상호작용 항을 수동으로 만들지 않아도 곡선형 경계를 학습할 수 있습니다.

차수가 높아질수록 더 표현력이 좋아지지만, 과적합 위험도 커집니다.

RBF(가우시안) 커널

RBF 커널

RBF(Radial Basis Function) 커널은 실무에서 가장 널리 쓰이는 커널입니다. 거리에 기반해 유사도를 측정합니다. 가까운 두 점은 높은 점수를, 멀리 떨어진 두 점은 0에 가까운 점수를 받습니다.

흥미로운 점은 데이터를 암묵적으로 무한 차원 공간에 매핑한다는 것입니다. 덕분에 다른 커널이 처리하지 못하는 복잡하고 비선형적인 경계를 이해할 만큼의 유연성을 갖습니다.

시그모이드 커널

시그모이드 커널

시그모이드 커널은 RBF나 다항 커널에 비해 덜 사용되며, 매개변수 선택에 따라 유효한 커널 함수에 필요한 수학적 조건을 항상 만족하지는 않습니다.

과거 문헌에서 가끔 보이지만, 실무에서는 거의 항상 RBF가 더 나은 출발점입니다.

SVM 너머의 커널 트릭

SVM이 커널 트릭의 가장 일반적인 알고리즘이지만, 유일한 것은 아닙니다.

같은 아이디어를 사용하는 다른 모델도 있습니다:

커널 능형 회귀(kernel ridge regression)는 명시적 특징 대신 커널 함수를 사용해 고차원 공간에서 능형 회귀를 적용합니다
가우시안 프로세스는 커널 함수를 사용해 데이터 포인트 간 공분산을 정의합니다. 커널은 학습하려는 함수의 매끄러움과 형태에 대한 가정을 인코딩합니다
커널 PCA는 변환된 특징 공간에서 주성분을 찾아 표준 PCA를 비선형 구조로 확장합니다

이들 모두에서 모델에는 점곱만 필요하므로, 커널 함수를 대입해 나머지 수학을 바꾸지 않고도 비선형 동작을 얻을 수 있습니다.

그럼에도 SVM이 가장 분명한 예시이자, 직관을 쌓기 위한 최고의 출발점입니다.

커널 트릭 vs. 특징 공학

두 접근 모두 특징의 표현력이 부족한 문제를 해결합니다. 하지만 방식이 다릅니다.

특징 공학은 기존 특징으로부터 새로운 특징을 명시적으로 만듭니다. 어떤 조합이 중요한지 결정하고, 이를 계산해 데이터셋에 추가한 뒤 확장된 특징 집합으로 학습합니다. 모델에 무엇이 들어갔는지 명확히 알 수 있습니다.

커널 트릭은 추가 특징을 정의하거나 저장하지 않고도 암묵적으로 고차원 공간에서 작동합니다. 변환은 커널 함수가 기술합니다.

트레이드오프는 해석 가능성과 유연성의 균형으로 귀결됩니다.

특징 공학은 각 특징이 무엇을 의미하는지 알 수 있어 투명성을 유지합니다. 커널 트릭은 더 표현력이 높지만, 암묵적 특징 공간은 대개 살펴보거나 설명하기 어렵습니다.

사용 사례에서 해석 가능성이 중요하다면 특징 공학이 더 안전한 선택입니다. 복잡한 패턴을 이해해야 하지만 모델의 모든 결정을 설명할 필요는 없다면, 커널 트릭이 더 빠르게 목표에 도달하게 해 줄 것입니다.

커널 트릭의 장점

가장 분명한 장점은 선형 모델이 비선형 경계를 학습할 수 있게 해 준다는 점입니다. 커널이 없으면 SVM은 직선 초평면으로만 클래스를 분리할 수 있습니다. 커널이 있으면 동일한 모델로도 곡선형의 복잡한 결정 경계를 처리할 수 있습니다.

또한 명시적 고차원 계산 비용을 피할 수 있습니다. 추가 차원을 저장하거나 계산하지 않고도 더 풍부한 특징 공간의 표현력을 얻을 수 있습니다. 암묵적 특징 공간이 수천 혹은 무한 차원인 문제에서, 이 접근 자체를 가능하게 하는 요소입니다.

커널 방법은 중간 규모 데이터셋에서 성능이 좋은 경향이 있습니다. 수백만 개 예시는 아니지만 데이터가 선형적으로 분리되지 않는 경우, 적절한 커널을 사용한 SVM은 종종 견고하고 신뢰할 수 있는 선택입니다.

커널 트릭의 한계

가장 큰 문제는 규모입니다. 커널 SVM을 학습하려면 학습 세트의 모든 데이터 포인트 쌍에 대해 K(x_i, x_j)를 계산해야 합니다. 이는 O(n²) 연산이며, 메모리까지 고려하면 상황은 더 악화됩니다. 대규모 데이터셋에서는 이는 단단한 병목이 될 수 있습니다.

커널 선택도 쉬운 일이 아닙니다. RBF가 좋은 기본값이긴 하지만 항상 정답은 아닙니다. 잘못된 커널을 선택하거나 커널의 하이퍼파라미터를 잘못 고르면, 시작했을 때보다 성능이 더 나빠질 수 있습니다.

해석 가능성도 문제입니다. 특징 공학에서는 각 특징의 의미를 알 수 있습니다. 커널 트릭에서는 암묵적 특징 공간이 불분명합니다. 모델은 동작하지만, 특정 결정을 내린 이유를 설명하기 어렵습니다.

그리고 많은 분야에서 딥러닝이 사실상 주도권을 잡았습니다. 신경망은 대규모 데이터셋을 다루고, 자체 특징 표현을 학습하며, 대개 커널 방법보다 커널 선택 없이도 더 나은 성능을 냅니다. 이미지 분류, NLP, 대용량 데이터 과제에서는 커널 방법이 더 이상 첫 선택이 되는 경우가 드뭅니다.

커널 방법을 사용할 때

2026년에도 커널 방법이 쓸모없어진 것은 아니지만, 예전보다 더 특수화되었습니다.

RBF 커널을 사용한 SVM과 같은 커널 방법을 선택해야 할 때는 다음과 같습니다:

데이터에 선형 모델이 이해하지 못하는 비선형 구조가 있을 때
데이터셋의 크기가 소형에서 중형일 때 - 수백만이 아닌 수천 샘플 수준
개별 예측을 설명할 필요가 없어, 낮은 해석 가능성이 수용 가능한 트레이드오프일 때

제한된 데이터를 가지고, 많은 튜닝 없이도 잘 일반화하는 모델이 필요한 구조화된 표 형식 데이터 문제에 적합합니다. 이런 경우 커널 SVM이 더 복잡한 모델을 능가하기도 합니다.

하지만 데이터셋이 크거나, 예측을 설명해야 한다면 커널 방법은 최선의 해법이 아닙니다.

예시: 커널 유무에 따른 SVM

커널 트릭이 실제로 무엇을 하는지 가장 잘 보는 방법은 선형 SVM이 실패하는 모습을 보고, 커널로 이를 바로잡는 것입니다.

아래 예시는 두 개의 동심원으로 구성된 간단한 데이터셋입니다. 한 클래스는 안쪽 링, 다른 클래스는 바깥쪽 링을 이룹니다. 이를 분리할 수 있는 직선은 존재하지 않습니다. 선형 SVM은 매번 실패합니다.

RBF 커널을 사용하면, 같은 SVM이 원형 경계를 그려 클래스를 분리합니다. 바뀐 것은 커널 함수뿐입니다.

전체 예시는 다음과 같습니다:

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.datasets import make_circles

# Generate concentric circles dataset
np.random.seed(42)
X, y = make_circles(n_samples=300, noise=0.1, factor=0.4)

# Train both SVMs
svm_linear = SVC(kernel="linear", C=1)
svm_rbf = SVC(kernel="rbf", C=1, gamma="scale")
svm_linear.fit(X, y)
svm_rbf.fit(X, y)

print(f"Linear SVM accuracy: {svm_linear.score(X, y):.0%}")
print(f"RBF SVM accuracy:    {svm_rbf.score(X, y):.0%}")

선형 SVM vs RBF SVM 정확도

선형 SVM은 데이터 중앙을 가로지르는 직선 경계를 그립니다. 평면을 두 영역으로만 나누기 때문에 문제의 실제 구조와 전혀 맞지 않습니다. 반면 RBF 커널은 데이터의 형태를 따르는 원형 경계를 만들어 냅니다.

선형 SVM vs RBF SVM 시각화

결론적으로, 모델이 더 복잡한 구조를 학습한 것이 아니라, 구조를 찾기 쉬운 공간에서 작동했을 뿐입니다.

커널 트릭에 대한 흔한 오해

커널 트릭에 대한 오해가 제법 자주 보여, 여기에서 짚고 넘어가겠습니다.

"커널 트릭은 모든 모델에서 통한다." 그렇지 않습니다. 커널 트릭은 최적화에서 데이터 포인트 간 점곱에 의존하는 모델에만 적용됩니다. 대부분의 모델(의사결정나무, 랜덤 포레스트, 신경망, 선형 회귀)은 그런 식으로 점곱을 사용하지 않으므로, 커널 트릭이 적용되지 않습니다.

"데이터를 문자 그대로 변환한다." 명시적으로는 아닙니다. 원래 데이터 포인트는 그대로입니다. 커널 함수는 고차원 공간에서 점곱이 어떻게 나올지를 계산할 뿐, 실제로 변환은 일어나지 않습니다. 데이터가 확장되거나 다르게 저장되지도 않습니다.

"항상 성능을 개선한다." 경우에 따라 다릅니다. 소형~중형 규모의 비선형 문제에서는 좋은 커널이 차이를 만들 수 있습니다. 대규모 데이터셋에서는 계산 비용이 이점을 상쇄하는 경우가 많습니다. 이미 데이터가 선형적으로 분리 가능하다면, 커널을 추가하는 것은 복잡성만 더합니다.

커널 트릭이 여전히 중요한 이유

커널 트릭은 지금 ML에서 가장 많이 회자되는 아이디어는 아닙니다. 대부분의 벤치마크에서 딥러닝이 정상을 차지하며, 커널 방법은 좀처럼 등장하지 않습니다.

하지만 여전히 이해할 가치가 있는 기초 개념입니다.

SVM과 커널 트릭은 구조화된 표 형식 데이터에서 표본이 제한된 상황에 강력했고, 그 뒤에 있는 수학이 깔끔하고 잘 정립되어 있어 고전적 ML의 중심이었습니다. 유사도 기반 학습이 어떻게 작동하는지, 혹은 최적화에서 점곱이 왜 중요한지 이해하려면, 커널 트릭은 가장 명확한 학습 사례 중 하나입니다.

실제 활용 사례도 여전히 있습니다. 소규모 데이터셋, 생물정보학 같은 특수 도메인, 수작업 특징을 사용한 텍스트 분류, 적은 데이터로도 잘 일반화하는 모델이 필요한 문제 등에서는 커널 방법이 여전히 유효합니다.

규모와 원시 데이터량이 가장 중요한 분야에서는 커널이 대체되었지만, 올바른 맥락에서는 여전히 좋은 도구입니다.