강의 설명

실무 규모의 데이터를 다룰 준비가 되셨나요? 이 강의에서는 Databricks의 Spark SQL과 PySpark를 활용해 대용량 데이터셋을 변환하는 방법을 배웁니다. 데이터를 정제하고 구조화하는 방법, 최적화된 조인으로 집계를 수행하는 방법, 그리고 고급 분석을 위한 윈도우 함수 적용 방법을 학습합니다. 또한 내결함성 체크포인트를 활용한 파일 기반 스트리밍을 설정하고 결과를 Delta 테이블로 저장하는 방법도 다룹니다. 강의를 마치면 Databricks Workflows와 Lakeflow Declarative Pipelines를 활용해 다단계 프로덕션 파이프라인을 직접 구성할 수 있게 됩니다.

선수 조건

Introduction to Databricks SQL Introduction to PySpark

데이터 로드 및 구조화

이 챕터에서는 Databricks 노트북 사용법, CSV 데이터를 Spark DataFrame으로 로드하는 방법, 그리고 PySpark와 SQL을 활용해 데이터를 구조화하는 방법을 배웁니다.

강의 설명

수료증 획득

.css-nklxlk{color:var(--wf-brand--main, #03EF62);}19백만 명 이상의 학습자와 함께 Databricks에서 Spark SQL로 데이터 변환하기을(를) 시작하세요!

무료 계정 만들기

DataCamp for Mobile을 통해 데이터 분석 능력을 향상시키세요.

19백만 명 이상의 학습자와 함께 Databricks에서 Spark SQL로 데이터 변환하기을(를) 시작하세요!