Ir al contenido principal

Curso

Fundamentos de big data con PySpark

AvanzadoNivel de habilidad

Actualizado 2/2025

Aprende los conceptos básicos sobre trabajar con big data con PySpark.

Comienza el curso gratis

SparkData Engineering

4 h

16 vídeos

55 Ejercicios

4,600 XP

65,280

Certificado de logros

Preferido por estudiantes en miles de empresas

¿Formando un equipo?

Prueba para empresas

Descripción del curso

El big data ha causado mucho alboroto en los últimos años, y por fin es dominante en muchas empresas. Sin embargo, ¿qué es este big data? Este curso muestra los fundamentos del big data mediante PySpark. Spark es un marco de "Lightning-Fast Cluster Computing" para big data. Proporciona un motor de plataforma general de procesamiento de datos y te permite ejecutar programas hasta 100 veces más rápidamente en memoria, o 10 veces más rápido en disco, que Hadoop. Utilizarás PySpark, un paquete de Python para programación en Spark y sus potentes bibliotecas de nivel superior, como SparkSQL, MLlib (para machine learning), etc. Explorarás las obras de William Shakespeare, analizarás datos de 2018 de la FIFA y realizarás agrupamiento en conjuntos de datos genómicos. Al final de este curso, conocerás a la perfección PySpark y su aplicación al análisis general de big data.

Requisitos previos

Introduction to Python

1

Introducción al análisis de big data con Spark

Este capítulo presenta el apasionante mundo del big data, así como los diversos conceptos y los diferentes marcos para procesar big data. Comprenderás por qué Apache Spark se considera el mejor marco para big data.

¿Qué es el big data?

Las 3 V del big data

PySpark: Spark con Python

Qué es SparkContext

Uso interactivo de PySpark

Carga de datos en el terminal PySpark

Revisión de la programación funcional en Python

Uso de lambda() con map()

Uso de lambda() con filter()

Iniciar capítulo

2

Programación en RDD de PySpark

La principal abstracción que proporciona Spark es un conjunto de datos distribuidos resilientes (RDD), que es el tipo de datos fundamental y vertebrador de este motor. Este capítulo presenta los RDD y muestra cómo pueden crearse y ejecutarse RDD mediante transformaciones y acciones de RDD.

Abstracción de datos con RDD

RDD de colecciones paralelizadas

RDD de conjuntos de datos externos

Particiones en tus datos

Transformaciones y acciones básicas de RDD

Map y Collect

Filter y Count

Pares RDD en PySpark

ReduceBykey y Collect

SortByKey y Collect

Acciones avanzadas de RDD

CountingBykeys

Crear una base RDD y transformarla

Eliminar las palabras vacías y reducir el conjunto de datos

Imprimir frecuencias de palabras

Iniciar capítulo

3

PySpark SQL y DataFrames

En este capítulo obtendrás información sobre Spark SQL, que es un módulo de Spark para el procesamiento de datos estructurados. Proporciona una abstracción de programación llamada DataFrames y también puede actuar como motor de consultas SQL distribuido. Este capítulo muestra que Spark SQL te permite utilizar DataFrames en Python.

Abstracción de datos con DataFrames

De RDD a DataFrame

Carga de CSV en el DataFrame

Operaciones con DataFrames en PySpark

Inspección de datos en el DataFrame de PySpark

Creación de subconjuntos y limpieza en el DataFrame de PySpark

Cómo filtrar tu DataFrame

Interacción con DataFrames utilizando PySpark SQL

Ejecución de consultas SQL mediante programación

Consultas SQL para filtrar la tabla

Visualización de datos en PySpark con DataFrames

Visualización del DataFrame de PySpark

1.ª parte: crear un DataFrame a partir del archivo CSV

2.ª parte: consultas SQL en el DataFrame

3.ª parte: visualización de datos

Iniciar capítulo

4

Machine learning con PySpark MLlib

PySpark MLlib es la biblioteca de machine learning escalable de Apache Spark en Python, con utilidades y algoritmos de aprendizaje comunes. A lo largo de este último capítulo, aprenderás importantes algoritmos de machine learning. Crearas un motor de recomendación de películas y un filtro de spam, y utilizarás k-medias.

Descripción general de PySpark MLlib

Bibliotecas PySpark ML

Algoritmos de PySpark MLlib

Filtrado colaborativo

Carga del conjunto de datos MovieLens en los RDD

Entrenamiento del modelo y previsiones

Evaluación del modelo mediante el MSE

Clasificación

Carga de datos spam y no spam

Método hash y LabelPoint

Entrenamiento del modelo de regresión logística

Agrupamiento

Carga y análisis de los 5000 datos de puntos

Entrenamiento con k-medias

Visualización de grupos

¡Enhorabuena!

Iniciar capítulo

Fundamentos de big data con PySpark

Curso
completo

Obtener certificado de logros

Añade esta certificación a tu perfil de LinkedIn o a tu currículum.
Compártelo en redes sociales y en tu evaluación de desempeño.Inscríbete ahora

¡Únete a 19 millones de estudiantes y empieza Fundamentos de big data con PySpark hoy mismo!

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

Progresa desde cualquier dispositivo móvil con nuestros cursos y desafíos de programación diarios de 5 minutos.