강의 설명

머신 러닝을 위한 Apache Spark 사용법 배우기

Spark는 빅 데이터 작업을 위한 강력한 범용 도구입니다. Spark는 클러스터 전반에 걸쳐 컴퓨팅 작업의 분산을 투명하게 처리합니다. 이는 작업 속도가 빠르다는 뜻이지만, 기술적인 세부 사항을 걱정하기보다 분석에 집중할 수 있게 해줍니다. 이 강의에서는 데이터를 Spark로 가져오는 방법을 배우고, 이어서 Spark 머신 러닝의 세 가지 기본 알고리즘을 살펴보게 됩니다: 선형 회귀, 로지스틱 회귀/분류기, 그리고 파이프라인 생성.

의사결정 트리 구축 및 테스트

의사결정 트리를 직접 만들어 보는 것은 머신 러닝 모델을 탐색하기 시작하는 훌륭한 방법입니다. ‘재귀적 분할’이라는 알고리즘을 사용하여 데이터를 두 개의 클래스로 나누고, 데이터 내에서 두 클래스의 분리를 가장 정보량이 풍부하게 만드는 예측 변수를 찾아낸 다음, 이후의 노드에서도 이 작업을 반복하게 됩니다. 그런 다음 의사결정 트리를 사용하여 새로운 데이터로 예측을 할 수 있습니다.

PySpark에서 로지스틱 회귀와 선형 회귀를 마스터하세요

로지스틱 회귀와 선형 회귀는 PySpark에서 지원되는 필수 머신 러닝 기법입니다. 로지스틱 회귀 모델을 구축하고 평가하는 방법을 배우고, 이어서 선형 회귀 모델을 만들어 예측 변수를 가장 관련성 높은 옵션으로만 정교하게 다듬는 방법을 익히게 됩니다.

강의가 끝날 무렵에는 강의 전반에 걸쳐 제공되는 실습 과제와 실습 문제 데이터 세트 덕분에 새롭게 익힌 머신 러닝 지식을 자신 있게 적용할 수 있게 됩니다.

선수 조건

Supervised Learning with scikit-learn Introduction to PySpark

소개

Spark는 Big Data를 다루는 프레임워크입니다. 이 장에서는 Spark와 Machine Learning의 배경을 살펴봅니다. 이어서 Python으로 Spark에 연결하고 CSV 데이터를 로드하는 방법을 배웁니다.

Machine Learning과 Spark

50 XP

Spark의 특징

50 XP

Spark 클러스터의 구성 요소

50 XP

Spark에 연결하기

강의 설명

머신 러닝을 위한 Apache Spark 사용법 배우기

의사결정 트리 구축 및 테스트

PySpark에서 로지스틱 회귀와 선형 회귀를 마스터하세요

수료증 획득

.css-nklxlk{color:var(--wf-brand--main, #03EF62);}19백만 명 이상의 학습자와 함께 PySpark로 하는 Machine Learning을(를) 시작하세요!

무료 계정 만들기

DataCamp for Mobile을 통해 데이터 분석 능력을 향상시키세요.

19백만 명 이상의 학습자와 함께 PySpark로 하는 Machine Learning을(를) 시작하세요!