Saltar al contenido principal
InicioData EngineeringFundamentos de Big Data con PySpark

Fundamentos de Big Data con PySpark

Aprende los fundamentos de trabajar con big data usando PySpark.

Comience El Curso Gratis
4 horas16 vídeos55 ejercicios
50.306 aprendicesTrophyDeclaración de cumplimiento

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.
Group¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas

Preferido por estudiantes en miles de empresas


Descripción del curso

En los últimos años se ha hablado mucho de Big Data, que por fin se ha convertido en la corriente dominante para muchas empresas. Pero, ¿qué es eso de Big Data? Este curso cubre los fundamentos de Big Data a través de PySpark. Spark es un marco de "computación en clúster a la velocidad del rayo" para Big Data. Proporciona un motor de plataforma general de procesamiento de datos y permite ejecutar programas hasta 100 veces más rápido en memoria, o 10 veces más rápido en disco, que Hadoop. Utilizarás PySpark, un paquete de Python para la programación Spark y sus potentes librerías de alto nivel como SparkSQL, MLlib (para aprendizaje automático), etc. Explorarás las obras de William Shakespeare, analizarás datos de la Fifa 2018 y realizarás clustering en conjuntos de datos genómicos. Al final de este curso, habrá adquirido un conocimiento profundo de PySpark y su aplicación al análisis general de Big Data.
Empresas

Group¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más
Pruebe DataCamp Para EmpresasPara obtener una solución a medida, reserve una demostración.

En las siguientes pistas

Big Data con PySpark

Ir a la pista
  1. 1

    Introducción al análisis de Big Data con Spark

    Gratuito

    Este capítulo presenta el apasionante mundo de los Big Data, así como los diversos conceptos y los diferentes marcos para su procesamiento. Entenderás por qué Apache Spark es considerado el mejor framework para BigData.

    Reproducir Capítulo Ahora
    ¿Qué son los macrodatos?
    50 xp
    Las 3 V de Big Data
    50 xp
    PySpark: Spark con Python
    50 xp
    Comprender SparkContext
    100 xp
    Uso interactivo de PySpark
    100 xp
    Carga de datos en PySpark shell
    100 xp
    Repaso a la programación funcional en Python
    50 xp
    Uso de lambda() con map()
    100 xp
    Uso de lambda() con filter()
    100 xp
  2. 4

    Aprendizaje automático con PySpark MLlib

    PySpark MLlib es la biblioteca de aprendizaje automático escalable de Apache Spark en Python que consta de algoritmos y utilidades de aprendizaje comunes. A lo largo de este último capítulo, aprenderás importantes algoritmos de Aprendizaje Automático. Construirá un motor de recomendación de películas y un filtro de spam, y utilizará la agrupación k-means.

    Reproducir Capítulo Ahora
Empresas

Group¿Entrenar a 2 o más personas?

Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y más

En las siguientes pistas

Big Data con PySpark

Ir a la pista

conjuntos de datos

Complete ShakespeareMovie ratings5000 pointsFIFA 2018PeopleSpamHam

colaboradores

Collaborator's avatar
Hadrien Lacroix
Collaborator's avatar
Chester Ismay

requisitos previos

Introduction to Python
Upendra Kumar Devisetty HeadshotUpendra Kumar Devisetty

Science Analyst at CyVerse

Ver Más

¿Qué tienen que decir otros alumnos?

¡Únete a 14 millones de estudiantes y empieza Fundamentos de Big Data con PySpark hoy mismo!

Crea Tu Cuenta Gratuita

GoogleLinkedInFacebook

o

Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.