Curso
Machine learning con PySpark
AvanzadoNivel de habilidad
Actualizado 11/2025Comienza El Curso Gratis
Incluido conPremium or Teams
SparkMachine Learning4 h16 vídeos56 Ejercicios4,550 XP28,970Certificado de logros
Crea Tu Cuenta Gratuita
o
Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.Preferido por estudiantes en miles de empresas
¿Formar a 2 o más personas?
Probar DataCamp for BusinessDescripción del curso
Aprende a utilizar Apache Spark para el machine learning
Spark es una potente herramienta de propósito general para trabajar con Big Data. Spark gestiona de forma transparente la distribución de tareas de cálculo en un clúster. Esto significa que las operaciones son rápidas, pero también te permite centrarte en el análisis en lugar de preocuparte por los detalles técnicos. En este curso aprenderás a introducir datos en Spark y, a continuación, profundizarás en los tres algoritmos fundamentales de Spark Machine learning: Regresión lineal, regresión logística/clasificadores y creación de pipelines.Construir y probar árboles de decisión
Construir tus propios árboles de decisión es una forma estupenda de empezar a explorar los modelos de machine learning. Utilizarás un algoritmo llamado "Partición Recursiva" para dividir los datos en dos clases y encontrar un predictor dentro de tus datos que dé como resultado la división más informativa de las dos clases, y repetirás esta acción con más nodos. Luego puedes utilizar tu árbol de decisión para hacer predicciones con nuevos datos.Domina la Regresión Logística y Lineal en PySpark
La regresión logística y lineal son técnicas esenciales de machine learning compatibles con PySpark. Aprenderás a construir y evaluar modelos de regresión logística, antes de pasar a crear modelos de regresión lineal para ayudarte a refinar tus predictores a sólo las opciones más relevantes.Al final del curso, te sentirás seguro al aplicar tus nuevos conocimientos sobre machine learning, gracias a las tareas prácticas y a los conjuntos de datos de práctica que encontrarás a lo largo del curso.
Requisitos previos
Supervised Learning with scikit-learnIntroduction to PySpark1
Introduction
Spark is a framework for working with Big Data. In this chapter you'll cover some background about Spark and Machine Learning. You'll then find out how to connect to Spark using Python and load CSV data.
2
Classification
Now that you are familiar with getting data into Spark, you'll move onto building two types of classification model: Decision Trees and Logistic Regression. You'll also find out about a few approaches to data preparation.
3
Regression
Next you'll learn to create Linear Regression models. You'll also find out how to augment your data by engineering new predictors as well as a robust approach to selecting only the most relevant predictors.
4
Ensembles & Pipelines
Finally you'll learn how to make your models more efficient. You'll find out how to use pipelines to make your code clearer and easier to maintain. Then you'll use cross-validation to better test your models and select good model parameters. Finally you'll dabble in two types of ensemble model.
Machine learning con PySpark
Curso completo
Obtener certificado de logros
Añade esta certificación a tu perfil de LinkedIn o a tu currículum.Compártelo en redes sociales y en tu evaluación de desempeño.
Incluido conPremium or Teams
Inscríbete Ahora¡Únete a 19 millones de estudiantes y empieza Machine learning con PySpark hoy mismo!
Crea Tu Cuenta Gratuita
o
Al continuar, aceptas nuestros Términos de uso, nuestra Política de privacidad y que tus datos se almacenen en los EE. UU.