Ir al contenido principal

Curso

Introducción a Spark con sparklyr en R

IntermedioNivel de habilidad

Actualizado 10/2024

Aprende a realizar análisis de big data con Spark y el paquete sparklyr en R, y explora Spark MLIb en solo 4 horas.

Comienza el curso gratis

SparkData Engineering

4 h

4 vídeos

50 Ejercicios

4,600 XP

20,229

Certificado de logros

Preferido por estudiantes en miles de empresas

¿Formando un equipo?

Prueba para empresas

Descripción del curso

Descubre las ventajas de R, Spark y sparklyr

R está optimizado principalmente para ayudarte a escribir código de análisis de datos de forma rápida y legible. Apache Spark está diseñado para analizar rápidamente grandes conjuntos de datos. El paquete sparklyr te permite escribir código R dplyr que se ejecuta en un clúster Spark, lo que te ofrece lo mejor de ambos mundos. Este curso de 4 horas te enseña a manipular Spark DataFrames utilizando tanto la interfaz dplyr como la interfaz nativa de Spark, así como a probar técnicas de machine learning.

Cargar datos en Spark y manipular DataFrames de Spark

Comenzarás este curso de Spark investigando cómo Spark y R funcionan bien juntos y practicando la carga de datos, listos para su limpieza, transformación y análisis. Utilizarás los marcos Spark y la sintaxis dplyr para manipular tus datos filtrando y ordenando filas, y modificando y resumiendo columnas.

Adéntrate en el análisis de macrodatos con Spark MLib

Este curso se centra en desarrollar tus habilidades y confianza en el análisis de grandes conjuntos de datos. Los últimos capítulos te guían a través de las funciones de transformación de datos de machine learning de Spark y te ofrecen la oportunidad de practicar las rutinas de machine learning de sparklyr utilizándolo para realizar predicciones mediante árboles impulsados por gradientes y bosques aleatorios.

Requisitos previos

Supervised Learning in R: Regression

1

Light My Fire: primeros pasos con Spark usando sintaxis de dplyr

Aprenderás cómo Spark y R se complementan, cómo mover datos hacia y desde Spark, y cómo manipular data frames de Spark usando la sintaxis de dplyr.

Primeros pasos

Hechos el uno para el otro

Aquí hay dragones

El patrón conectar-trabajar-desconectar

Copiar datos en Spark

Big data, tibble diminuto

Explorar la estructura de los tibbles

Seleccionar columnas

Filtrar filas

Reordenar filas

Modificar columnas

Resumir columnas

Iniciar capítulo

2

Herramientas del oficio: uso avanzado de dplyr

Aprenderás más sobre el uso de la interfaz de dplyr con Spark, incluyendo selección avanzada de campos, cálculo de estadísticas por grupo y unión de data frames.

Sube de nivel

La pequeña ayuda de mamá (1)

La pequeña ayudita de mamá (2)

Seleccionar filas únicas

Gente común

Recolectar datos de vuelta desde Spark

Guardar resultados intermedios

Grupos: geniales para la música y para los datos

Grupos de mutantes

Selección avanzada II: SQL

Iniciar capítulo

3

Volviéndote nativo: usa la interfaz nativa para manipular DataFrames de Spark

Aprenderás sobre las funciones de transformación de datos de Machine Learning en Spark y la funcionalidad para manipular DataFrames nativos.

Dos interfaces nuevas

Sesión doble de palomitas

Transformar variables continuas a lógicas

Transformar variables continuas en categóricas (1)

Transformar variables continuas en categóricas (2)

Algo más que palabras: tokenización (1)

Más que palabras: tokenización (2)

Más que palabras: tokenización (3)

Ordenar vs. organizar

Explorar los tipos de datos de Spark

Reducir los datos mediante muestreo

Particiones de entrenamiento/prueba

Iniciar capítulo

4

Estudio de caso: aprender a ser una máquina: ejecutar modelos de Machine Learning en Spark

Un estudio de caso en el que aprenderás a usar las rutinas de Machine Learning de sparklyr, prediciendo el año en que se publicó una canción.

Machine Learning en Spark

Funciones de Machine Learning

(Oye, tú) ¿Qué es ese sonido?

Trabajar con archivos Parquet

Come together

Particionar datos con un efecto de grupo

Gradient boosted trees: modelización

Gradient boosted trees: predicción

Gradient boosted trees: visualización

Random Forest: modelado

Random Forest: predicción

Random Forest: visualización

Comparar el rendimiento del modelo

Iniciar capítulo

Introducción a Spark con sparklyr en R

Curso
completo

Obtener certificado de logros

Añade esta certificación a tu perfil de LinkedIn o a tu currículum.
Compártelo en redes sociales y en tu evaluación de desempeño.Inscríbete ahora

Para empresas

¿Formar a 2 o más personas?

Consigue para tu equipo acceso a la plataforma completa de DataCamp, incluidas todas las funciones.

En las siguientes pistas

Grandes datos in R

Científico de machine learning in R

instructor

Richie Cotton

Richie Cotton

Data Evangelist at DataCamp

colaborador(a)

Curso recursos

Anti-joinconjunto de datos

Both-model-responsesconjunto de datos

Gbt-model-responsesconjunto de datos

Inner-joinconjunto de datos

Left-joinconjunto de datos

Predicted vs actualconjunto de datos

Residual densityconjunto de datos

Semi-joinconjunto de datos

Timbreconjunto de datos

Timbre parquetconjunto de datos

Title text parquetconjunto de datos

Track data parquetconjunto de datos

Track data to model parquetconjunto de datos

Track data to predict parquetconjunto de datos

Track metadataconjunto de datos

¡Únete a 19 millones de estudiantes y empieza Introducción a Spark con sparklyr en R hoy mismo!

Desarrolla tus habilidades de datos con la aplicación móvil de DataCamp

Progresa desde cualquier dispositivo móvil con nuestros cursos y desafíos de programación diarios de 5 minutos.