Saltar al contenido principal
InicioSparkIntroducción a PySpark

Introducción a PySpark

Aprende a implementar la gestión de datos distribuidos y el machine learning en Spark utilizando el paquete PySpark.

Comience El Curso Gratis
4 Horas45 Ejercicios
132.778 AprendicesTrophyDeclaración de cumplimiento

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.
Group¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas

Preferido por estudiantes en miles de empresas


Descripción del curso

En este curso, aprenderás a utilizar Spark desde Python. Spark es una herramienta para realizar cálculos en paralelo con grandes conjuntos de datos y se integra bien con Python. PySpark es el paquete de Python que hace que se produzca la magia. Utilizarás este paquete para trabajar con datos sobre vuelos desde Portland y Seattle. Aprenderás a manejar estos datos y a construir toda una cadena de machine learning para predecir si los vuelos se retrasarán o no. ¡Prepárate para poner un poco de Spark en tu código Python y sumergirte en el mundo del machine learning de alto rendimiento!
Empresas

Group¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más
Pruebe DataCamp Para EmpresasPara obtener una solución a medida, solicite una demonstración.
  1. 1

    Introducción a PySpark

    Gratuito

    En este capítulo, aprenderás cómo gestiona Spark los datos y cómo puedes leer y escribir tablas desde Python.

    Reproducir Capítulo Ahora
    ¿Pero qué es Spark?
    50 xp
    Uso de Spark en Python
    50 xp
    Examen de SparkContext
    100 xp
    Uso de DataFrames
    50 xp
    Creación de SparkSession
    100 xp
    Visualización de tablas
    100 xp
    ¿Algo que consultar?
    100 xp
    Pandafy en Spark DataFrame
    100 xp
    Pon algo de Spark en tus datos
    100 xp
    Abandono del intermediario
    100 xp
  2. 3

    Introducción a los pipelines de machine learning

    PySpark tiene incorporadas rutinas de machine learning de última generación, junto con utilidades para crear pipelines completos de machine learning. Aprenderás sobre ellos en este capítulo.

    Reproducir Capítulo Ahora

En las siguientes pistas

Big Data con PySparkCientífico de Machine Learning con Python

Colaboradores

Collaborator's avatar
Colin Ricardo

Requisitos Previos

Introduction to Python
Lore Dirick HeadshotLore Dirick

Director of Data Science Education at Flatiron School

Ver Mas

¿Qué tienen que decir otros alumnos?

Únete a 13 millones de estudiantes y empeza Introducción a PySpark hoy!

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.