Ir al contenido principal
InicioSpark

Curso

Fundamentos de big data con PySpark

AvanzadoNivel de habilidad
Actualizado 2/2025
Aprende los conceptos básicos sobre trabajar con big data con PySpark.
Comienza el curso gratis
SparkData Engineering
4 h
16 vídeos
55 Ejercicios
4,600 XP
65,280
Certificado de logros

Crea tu cuenta gratuita

Continuar con GoogleMostrar más opciones

o


Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.

Preferido por estudiantes en miles de empresas

Group

¿Formando un equipo?

Prueba para empresas

Descripción del curso

El big data ha causado mucho alboroto en los últimos años, y por fin es dominante en muchas empresas. Sin embargo, ¿qué es este big data? Este curso muestra los fundamentos del big data mediante PySpark. Spark es un marco de "Lightning-Fast Cluster Computing" para big data. Proporciona un motor de plataforma general de procesamiento de datos y te permite ejecutar programas hasta 100 veces más rápidamente en memoria, o 10 veces más rápido en disco, que Hadoop. Utilizarás PySpark, un paquete de Python para programación en Spark y sus potentes bibliotecas de nivel superior, como SparkSQL, MLlib (para machine learning), etc. Explorarás las obras de William Shakespeare, analizarás datos de 2018 de la FIFA y realizarás agrupamiento en conjuntos de datos genómicos. Al final de este curso, conocerás a la perfección PySpark y su aplicación al análisis general de big data.

Requisitos previos

Introduction to Python
1

Introducción al análisis de big data con Spark

Este capítulo presenta el apasionante mundo del big data, así como los diversos conceptos y los diferentes marcos para procesar big data. Comprenderás por qué Apache Spark se considera el mejor marco para big data.
Iniciar capítulo
2

Programación en RDD de PySpark

La principal abstracción que proporciona Spark es un conjunto de datos distribuidos resilientes (RDD), que es el tipo de datos fundamental y vertebrador de este motor. Este capítulo presenta los RDD y muestra cómo pueden crearse y ejecutarse RDD mediante transformaciones y acciones de RDD.
Iniciar capítulo
Fundamentos de big data con PySpark
Curso
completo

Obtener certificado de logros

Añade esta certificación a tu perfil de LinkedIn o a tu currículum.
Compártelo en redes sociales y en tu evaluación de desempeño.
Inscríbete ahora

¡Únete a 19 millones de estudiantes y empieza Fundamentos de big data con PySpark hoy mismo!

Crea tu cuenta gratuita

Continuar con GoogleMostrar más opciones

o


Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

Progresa desde cualquier dispositivo móvil con nuestros cursos y desafíos de programación diarios de 5 minutos.