Curso
Machine learning com PySpark
AvançadoNível de habilidade
Atualizado 11/2025Iniciar Curso Gratuitamente
Incluído comPremium or Teams
SparkMachine Learning4 h16 vídeos56 Exercícios4,550 XP28,943Certificado de conclusão
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.Preferido por alunos de milhares de empresas
Treinar 2 ou mais pessoas?
Experimentar DataCamp for BusinessDescrição do curso
Aprenda a usar o Apache Spark para aprendizado de máquina
O Spark é uma ferramenta avançada e de uso geral para trabalhar com Big Data. O Spark lida de forma transparente com a distribuição de tarefas de computação em um cluster. Isso significa que as operações são rápidas, mas também permite que você se concentre na análise em vez de se preocupar com detalhes técnicos. Neste curso, você aprenderá como colocar os dados no Spark e, em seguida, se aprofundará nos três algoritmos fundamentais do Spark Machine Learning: Regressão linear, regressão logística/classificadores e criação de pipelines.Criar e testar árvores de decisão
Criar suas próprias árvores de decisão é uma ótima maneira de começar a explorar os modelos de aprendizado de máquina. Você usará um algoritmo chamado "Recursive Partitioning" para dividir os dados em duas classes e encontrar um preditor dentro dos dados que resulte na divisão mais informativa das duas classes, e repetirá essa ação com outros nós. Em seguida, você pode usar a árvore de decisão para fazer previsões com novos dados.Domine a regressão logística e linear no PySpark
A regressão logística e linear são técnicas essenciais de aprendizado de máquina que são suportadas pelo PySpark. Você aprenderá a criar e avaliar modelos de regressão logística, antes de passar para a criação de modelos de regressão linear para ajudá-lo a refinar seus preditores para apenas as opções mais relevantes.Ao final do curso, você se sentirá confiante para aplicar seus novos conhecimentos de aprendizado de máquina, graças às tarefas práticas e aos conjuntos de dados práticos encontrados ao longo do curso.
Pré-requisitos
Supervised Learning with scikit-learnIntroduction to PySpark1
Introduction
Spark is a framework for working with Big Data. In this chapter you'll cover some background about Spark and Machine Learning. You'll then find out how to connect to Spark using Python and load CSV data.
2
Classification
Now that you are familiar with getting data into Spark, you'll move onto building two types of classification model: Decision Trees and Logistic Regression. You'll also find out about a few approaches to data preparation.
3
Regression
Next you'll learn to create Linear Regression models. You'll also find out how to augment your data by engineering new predictors as well as a robust approach to selecting only the most relevant predictors.
4
Ensembles & Pipelines
Finally you'll learn how to make your models more efficient. You'll find out how to use pipelines to make your code clearer and easier to maintain. Then you'll use cross-validation to better test your models and select good model parameters. Finally you'll dabble in two types of ensemble model.
Machine learning com PySpark
Curso concluído
Obtenha um certificado de conclusão
Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CVCompartilhe nas redes sociais e em sua avaliação de desempenho
Incluído comPremium or Teams
Inscreva-se AgoraFaça como mais de 19 milhões de alunos e comece Machine learning com PySpark hoje mesmo!
Crie sua conta gratuita
ou
Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.