본문으로 바로가기
Spark

강의

PySpark 입문

중급기술 수준
업데이트됨 2026. 1.
PySpark를 마스터하여 빅데이터를 손쉽게 처리하세요—대규모 데이터셋을 처리하고 쿼리하며 최적화하여 강력한 분석을 수행하는 방법을 배우세요!
무료로 강의 시작
SparkData Engineering
4시간
11 동영상
36 연습 문제
2,850 XP
29,195
성취 증명서

무료 계정 만들기

Google에서 계속 진행더 많은 옵션 보기

또는


계속 진행하시면 당사의 이용약관개인정보처리방침에 동의하고 및 귀하의 데이터가 미국에 저장되는 것에 동의하게 됩니다.

수천 개 기업의 학습자들이 사랑하는

Group

팀을 교육하시나요?

비즈니스용으로 체험해 보세요

강의 설명

이 강의는 대규모 데이터세트를 효율적으로 다루고자 하는 데이터 엔지니어, 데이터 과학자, 그리고 머신 러닝 실무자에게 완벽합니다. Pandas 같은 도구에서 전환하든, 빅 데이터 기술을 처음 접하든, 이 강의는 PySpark와 분산 데이터 처리에 대한 탄탄한 입문을 제공합니다.

왜 Spark인가? 왜 지금인가?

Apache Spark의 속도와 확장성을 알아보세요. Apache Spark는 빅 데이터 처리를 위해 설계된 강력한 프레임워크입니다. 인터랙티브한 강의와 실습을 통해 Spark의 인메모리 처리 방식이 Hadoop과 같은 기존 프레임워크보다 어떤 강점을 제공하는지 확인하게 됩니다. 먼저 Spark 세션을 설정한 다음, Resilient Distributed Datasets(RDD)와 DataFrame 같은 핵심 구성 요소를 살펴보게 됩니다. 실제 사례를 다루면서 데이터세트를 손쉽게 필터링, 그룹화, 조인하는 방법을 배워보세요.

빅 데이터용 Python 및 SQL 실력을 향상시키세요

익숙한 SQL 구문을 사용해 데이터를 조회하고 관리하는 PySpark SQL 활용법을 배워보세요. 스키마, 복잡한 데이터 유형, 사용자 정의 함수(UDF)를 다루는 동시에 분산 시스템의 캐싱 및 성능 최적화 역량을 키워 보세요.

빅 데이터 기초를 다지세요

이 강의를 마치면 PySpark를 사용해 빅데이터를 다루고, 쿼리하고, 처리할 자신감을 갖게 됩니다. 이러한 기초 역량을 갖추면 머신 러닝과 빅 데이터 분석 같은 고급 주제를 탐구할 준비가 됩니다.

선수 조건

Introduction to SQLData Manipulation with pandas
1

Introduction to Apache Spark and PySpark

A General introduction to PySpark and distributed computing. This section introduces PySpark, PySpark DataFrames, and RDDs.
챕터 시작
2

PySpark in Python

A continuation of DataFrames and complex datatypes. This section expands on what DataFrames offer in PySpark and introduces some Spark SQL concepts.
챕터 시작
PySpark 입문
강의
완료

수료증 획득

LinkedIn 프로필, 이력서 또는 CV에 이 인증서를 추가하세요
소셜 미디어와 성과 평가에서 공유하세요
지금 등록

19백만 명 이상의 학습자와 함께 PySpark 입문을(를) 시작하세요!

무료 계정 만들기

Google에서 계속 진행더 많은 옵션 보기

또는


계속 진행하시면 당사의 이용약관개인정보처리방침에 동의하고 및 귀하의 데이터가 미국에 저장되는 것에 동의하게 됩니다.

DataCamp for Mobile을 통해 데이터 분석 능력을 향상시키세요.

모바일 강좌와 매일 5분 코딩 챌린지를 통해 이동 중에도 학습 효과를 높이세요.