Introducción a PySpark
Aprende a implementar la gestión de datos distribuidos y el machine learning en Spark utilizando el paquete PySpark.
Comience El Curso Gratis4 Horas45 Ejercicios
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas
Preferido por estudiantes en miles de empresas
Descripción del curso
En este curso, aprenderás a utilizar Spark desde Python. Spark es una herramienta para realizar computación paralela con grandes conjuntos de datos y se integra bien con Python. PySpark es el paquete de Python que hace que se produzca la magia. Utilizarás este paquete para trabajar con datos sobre vuelos que viajan desde Portland y Seattle. Aprenderás a organizar estos datos y a construir todo un pipeline de machine learning para prever si dichos vuelos van a retrasarse o no. Prepárate para poner un poco de Spark en tu código Python y sumergirte en el mundo del machine learning de alto rendimiento.
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de Machine Learning con Python
Ir a la pista- 1
Conocer PySpark
GratuitoEn este capítulo, aprenderás cómo gestiona Spark los datos y cómo leer y escribir tablas desde Python.
- 2
Manipulación de datos
En este capítulo, aprenderás sobre el módulo pyspark.sql, que proporciona consultas de datos optimizadas a tu sesión Spark.
- 3
Introducción a los pipelines de machine learning
PySpark tiene rutinas de machine learning de última generación integradas, junto con utilidades para crear pipelines completos de machine learning. Aprenderás todo esto en este capítulo.
Pipelines de machine learning50 xpUnir los DataFrames100 xpTipos de datos50 xpDe cadena a entero100 xpCrear una nueva columna100 xpCreación de un valor booleano100 xpCadenas y factores50 xpTransportista100 xpDestino100 xpEnsamblar un vector100 xpCrear el pipeline100 xpProbar frente a entrenar50 xpTransformar los datos100 xpDividir los datos100 xp - 4
Ajuste y selección de modelos
En este último capítulo, aplicarás lo que has aprendido para crear un modelo que prevea qué vuelos sufrirán retrasos.
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de Machine Learning con Python
Ir a la pistaLore Dirick
Ver MasDirector of Data Science Education at Flatiron School
Nick Solomon
Ver MasData Scientist
¿Qué tienen que decir otros alumnos?
¡Únete a 13 millones de estudiantes y empieza Introducción a PySpark hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.