Pular para o conteúdo principal
InícioSparkAprendizado de máquina com PySpark

Aprendizado de máquina com PySpark

Aprenda a fazer previsões com Apache Spark usando árvores de decisão, regressões e pipelines.

Comece O Curso Gratuitamente
4 horas16 vídeos56 exercícios23.352 aprendizesTrophyDeclaração de Realização

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
Group

Treinar 2 ou mais pessoas?

Experimente o DataCamp For Business

Amado por alunos de milhares de empresas


Descrição do Curso

Aprenda a usar o Apache Spark para aprendizado de máquina

O Spark é uma ferramenta avançada e de uso geral para trabalhar com Big Data. O Spark lida de forma transparente com a distribuição de tarefas de computação em um cluster. Isso significa que as operações são rápidas, mas também permite que você se concentre na análise em vez de se preocupar com detalhes técnicos. Neste curso, você aprenderá como colocar os dados no Spark e, em seguida, se aprofundará nos três algoritmos fundamentais do Spark Machine Learning: Regressão linear, regressão logística/classificadores e criação de pipelines.

Criar e testar árvores de decisão

Criar suas próprias árvores de decisão é uma ótima maneira de começar a explorar os modelos de aprendizado de máquina. Você usará um algoritmo chamado "Recursive Partitioning" para dividir os dados em duas classes e encontrar um preditor dentro dos dados que resulte na divisão mais informativa das duas classes, e repetirá essa ação com outros nós. Em seguida, você pode usar a árvore de decisão para fazer previsões com novos dados.

Domine a regressão logística e linear no PySpark

A regressão logística e linear são técnicas essenciais de aprendizado de máquina que são suportadas pelo PySpark. Você aprenderá a criar e avaliar modelos de regressão logística, antes de passar para a criação de modelos de regressão linear para ajudá-lo a refinar seus preditores para apenas as opções mais relevantes.

Ao final do curso, você se sentirá confiante para aplicar seus novos conhecimentos de aprendizado de máquina, graças às tarefas práticas e aos conjuntos de dados práticos encontrados ao longo do curso.
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados
Experimente O DataCamp for BusinessPara uma solução sob medida , agende uma demonstração.

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha

Cientista de aprendizado de máquina em Python

Ir para a trilha
  1. 1

    Introdução

    Gratuito

    O Spark é uma estrutura para trabalhar com Big Data. Neste capítulo, você abordará algumas informações básicas sobre o Spark e a aprendizagem automática. Em seguida, você descobrirá como se conectar ao Spark usando Python e carregar os dados do CSV.

    Reproduzir Capítulo Agora
    Aprendizado de máquina e Spark
    50 xp
    Características do Spark
    50 xp
    Componentes em um cluster Spark
    50 xp
    Conectando-se ao Spark
    50 xp
    Localização do Spark Master
    50 xp
    Criando uma SparkSession
    100 xp
    Carregando dados
    50 xp
    Carregando dados de voos
    100 xp
    Carregando dados de spam de SMS
    100 xp
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha

Cientista de aprendizado de máquina em Python

Ir para a trilha

conjuntos de dados

FlightsSMS

colaboradores

Collaborator's avatar
Hadrien Lacroix
Collaborator's avatar
Mona Khalil
Andrew Collier HeadshotAndrew Collier

Data Scientist @ Exegetic Analytics

Ver Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 14 milhões de alunos e comece Aprendizado de máquina com PySpark hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.