Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.¿Entrenar a 2 o más personas?Pruebe DataCamp para empresas
Preferido por estudiantes en miles de empresas
Descripción del curso
Spark es una potente herramienta de propósito general para trabajar con Big Data. Spark gestiona de forma transparente la distribución de tareas de cálculo en un clúster. Esto significa que las operaciones son rápidas, pero también te permite centrarte en el análisis en lugar de preocuparte por los detalles técnicos. En este curso aprenderás a introducir datos en Spark y, a continuación, profundizarás en los tres algoritmos fundamentales de Spark Machine learning: Regresión lineal, regresión logística/clasificadores y creación de pipelines. Por el camino, analizarás un gran conjunto de datos de retrasos de vuelos y mensajes de texto basura. Con estos conocimientos estarás preparado para aprovechar la potencia de Spark y aplicarla a tus propios proyectos de machine learning.
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de Machine Learning con Python
Ir a la pista- 1
Introducción
GratuitoSpark es un marco para trabajar con Big Data. En este capítulo cubrirás algunos antecedentes sobre Spark y Machine learning. A continuación, descubrirás cómo conectarte a Spark utilizando Python y cargar datos CSV.
- 2
Clasificación
Ahora que ya estás familiarizado con la introducción de datos en Spark, pasarás a construir dos tipos de modelos de clasificación: Árboles de decisión y regresión logística. También conocerás algunos enfoques para la preparación de datos.
Preparación de datos50 xpEliminar columnas y filas100 xpManipulación de columnas100 xpColumnas categóricas100 xpMontaje de columnas100 xpÁrbol de decisión50 xpDivisión entrenamiento/prueba100 xpConstruye un árbol de decisiones100 xpEvaluar el árbol de decisión100 xpRegresión logística50 xpConstruye un modelo de Regresión Logística100 xpEvalúa el modelo de Regresión Logística100 xpConvertir texto en tablas50 xpPuntuación, números y fichas100 xpDetener palabras y hashing100 xpEntrenar un clasificador de spam100 xp - 3
Regresión
A continuación aprenderás a crear modelos de Regresión Lineal. También descubrirás cómo aumentar tus datos mediante la ingeniería de nuevos predictores, así como un enfoque sólido para seleccionar sólo los predictores más relevantes.
Codificación en caliente50 xpCodificación del origen del vuelo100 xpCodificación de tallas de camisa50 xpRegresión50 xpModelo de duración del vuelo: Sólo distancia100 xpInterpretar los coeficientes100 xpModelo de duración del vuelo: Añadir aeropuerto de origen100 xpInterpretar los coeficientes100 xpBaldeo e ingeniería50 xpHora de salida del cubo100 xpModelo de duración del vuelo: Añadir hora de salida100 xpRegularización50 xpModelo de duración del vuelo: ¡Más funciones!100 xpModelo de duración del vuelo: ¡Regularización!100 xp - 4
Conjuntos y tuberías
Por último, aprenderás a hacer que tus modelos sean más eficaces. Descubrirás cómo utilizar canalizaciones para que tu código sea más claro y fácil de mantener. Luego utilizarás la validación cruzada para probar mejor tus modelos y seleccionar buenos parámetros de modelo. Por último, te adentrarás en dos tipos de modelo de conjunto.
Tuberías50 xpModelo de duración del vuelo: Etapas del oleoducto100 xpModelo de duración del vuelo: Modelo de tubería100 xpCanalización de spam SMS100 xpValidación cruzada50 xpValidación cruzada del modelo simple de duración de vuelo100 xpValidación cruzada del modelo de duración de vuelo100 xpBúsqueda en la cuadrícula50 xpOptimización de vuelos de regresión lineal100 xpDiseccionando el mejor modelo de duración de vuelo100 xpSMS spam optimizado100 xp¿Cuántos modelos para la búsqueda en cuadrícula?50 xpConjunto50 xpVuelos retrasados con árboles de gradiente reforzado100 xpVuelos retrasados con un Bosque Aleatorio100 xpEvaluación de Random Forest100 xpReflexiones finales50 xp
Empresas
¿Entrenar a 2 o más personas?
Obtenga acceso de su equipo a la biblioteca completa de DataCamp, con informes centralizados, tareas, proyectos y másEn las siguientes pistas
Big Data con PySpark
Ir a la pistaCientífico de Machine Learning con Python
Ir a la pistaColaboradores
Andrew Collier
Ver MasData Scientist @ Exegetic Analytics
¿Qué tienen que decir otros alumnos?
Únete a 13 millones de estudiantes y empeza Machine learning con PySpark hoy!
Crea Tu Cuenta Gratuita
o
Al continuar, acepta nuestros Términos de uso, nuestra Política de privacidad y que sus datos se almacenan en los EE. UU.