Saltar al contenido principal

Inicio Data EngineeringIntroducción a PySpark

Introducción a PySpark

Aprende a implementar la gestión de datos distribuidos y el machine learning en Spark utilizando el paquete PySpark.

Comience El Curso Gratis

4 Horas45 Ejercicios

134.229 AprendicesDeclaración de cumplimiento

Crea Tu Cuenta Gratuita

Google LinkedIn Facebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.

¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas

Preferido por estudiantes en miles de empresas

Descripción del curso

En este curso, aprenderás a utilizar Spark desde Python. Spark es una herramienta para realizar computación paralela con grandes conjuntos de datos y se integra bien con Python. PySpark es el paquete de Python que hace que se produzca la magia. Utilizarás este paquete para trabajar con datos sobre vuelos que viajan desde Portland y Seattle. Aprenderás a organizar estos datos y a construir todo un pipeline de machine learning para prever si dichos vuelos van a retrasarse o no. Prepárate para poner un poco de Spark en tu código Python y sumergirte en el mundo del machine learning de alto rendimiento.

Empresas

¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más

En las siguientes pistas

Big Data con PySpark

Científico de Machine Learning con Python

1
Conocer PySpark
Gratuito
En este capítulo, aprenderás cómo gestiona Spark los datos y cómo leer y escribir tablas desde Python.
Reproducir Capítulo Ahora
¿Qué es la Chispa?
50 xp
Uso de Spark en Python
50 xp
Examen de SparkContext
100 xp
Uso de DataFrames
50 xp
Creación de SparkSession
100 xp
Visualización de tablas
100 xp
¿Algo que consultar?
100 xp
Pandafy en Spark DataFrame
100 xp
Pon algo de Spark en tus datos
100 xp
Abandono del intermediario
100 xp
2
Manipulación de datos
En este capítulo, aprenderás sobre el módulo pyspark.sql, que proporciona consultas de datos optimizadas a tu sesión Spark.
Reproducir Capítulo Ahora
Creación de columnas
100 xp
SQL en pocas palabras
50 xp
SQL en pocas palabras (2)
50 xp
Filtrado de datos
100 xp
Selección
100 xp
Selección II
100 xp
Agregación
100 xp
Agregación II
100 xp
Agrupación y agregación I
100 xp
Agrupación y agregación II
100 xp
Unión
50 xp
Unión II
100 xp
3
Introducción a los pipelines de machine learning
PySpark tiene rutinas de machine learning de última generación integradas, junto con utilidades para crear pipelines completos de machine learning. Aprenderás todo esto en este capítulo.
Reproducir Capítulo Ahora
Pipelines de machine learning
50 xp
Unir los DataFrames
100 xp
Tipos de datos
50 xp
De cadena a entero
100 xp
Crear una nueva columna
100 xp
Creación de un valor booleano
100 xp
Cadenas y factores
50 xp
Transportista
100 xp
Destino
100 xp
Ensamblar un vector
100 xp
Crear el pipeline
100 xp
Probar frente a entrenar
50 xp
Transformar los datos
100 xp
Dividir los datos
100 xp
4
Ajuste y selección de modelos
En este último capítulo, aplicarás lo que has aprendido para crear un modelo que prevea qué vuelos sufrirán retrasos.
Reproducir Capítulo Ahora
¿Qué es la regresión logística?
50 xp
Crear el modelador
100 xp
Validación cruzada
50 xp
Crear el evaluador
100 xp
Crear una cuadrícula
100 xp
Crear el validador
100 xp
Ajustar los modelos
100 xp
Evaluación de clasificadores binarios
50 xp
Evaluar el modelo
100 xp

Empresas

¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más

En las siguientes pistas

Big Data con PySpark

Científico de Machine Learning con Python

Sets De Datos

Airports Flights Planes

Colaboradores

Colin Ricardo

Requisitos Previos

Introduction to Python

Director of Data Science Education at Flatiron School

Data Scientist

¿Qué tienen que decir otros alumnos?

¡Únete a 13 millones de estudiantes y empieza Introducción a PySpark hoy mismo!

Crea Tu Cuenta Gratuita

Google LinkedIn Facebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.