Pular para o conteúdo principal
Página inicialData EngineeringIntrodução ao PySpark

Introdução ao PySpark

Aprenda a implementar gerenciamento de dados distribuídos e aprendizado de máquina no Spark usando o pacote PySpark.

Comece O Curso Gratuitamente
4 Horas45 Exercicios
136.325 AprendizesTrophyDeclaração de Realização

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.
GroupTreinar 2 ou mais pessoas?Experimente o DataCamp For Business

Amado por alunos de milhares de empresas


Descrição do Curso

Neste curso, você aprenderá a usar o Spark com Python! O Spark é uma ferramenta para fazer computação paralela com grandes conjuntos de dados e se integra bem ao Python. O PySpark é o pacote Python que faz a mágica acontecer. Você usará esse pacote para trabalhar com dados sobre voos de Portland e Seattle. Você aprenderá a lidar com esses dados e a criar um pipeline completo de aprendizado de máquina para prever se os voos sofrerão atrasos ou não. Prepare-se para colocar um pouco de Spark em seu código Python e mergulhar no mundo do aprendizado de máquina de alto desempenho!
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados
Experimente O DataCamp for BusinessPara uma solução sob medida , agende uma demonstração.

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha

Cientista de aprendizado de máquina com Python

Ir para a trilha
  1. 1

    Conhecendo o PySpark

    Grátis

    Neste capítulo, você aprenderá como o Spark gerencia os dados e como você pode ler e gravar tabelas no Python.

    Reproduzir Capítulo Agora
    Afinal, o que é o Spark?
    50 xp
    Usando o Spark em Python
    50 xp
    Examinando o SparkContext
    100 xp
    Uso de DataFrames
    50 xp
    Criando uma SparkSession
    100 xp
    Exibição de tabelas
    100 xp
    Você tem alguma dúvida?
    100 xp
    Pandafy a Spark DataFrame
    100 xp
    Coloque um pouco de Spark em seus dados
    100 xp
    Eliminando o intermediário
    100 xp
  2. 3

    Introdução aos pipelines de aprendizado de máquina

    O PySpark tem rotinas de aprendizado de máquina integradas e de ponta, além de utilitários para criar pipelines completos de aprendizado de máquina. Você aprenderá sobre eles neste capítulo.

    Reproduzir Capítulo Agora
Para Empresas

GroupTreinar 2 ou mais pessoas?

Obtenha acesso à biblioteca completa do DataCamp, com relatórios, atribuições, projetos e muito mais centralizados

Nas seguintes faixas

Big Data com PySpark

Ir para a trilha

Cientista de aprendizado de máquina com Python

Ir para a trilha

Conjuntos De Dados

AirportsFlightsPlanes

Colaboradores

Collaborator's avatar
Colin Ricardo
Lore Dirick HeadshotLore Dirick

Director of Data Science Education at Flatiron School

Veja Mais

O que os outros alunos têm a dizer?

Junte-se a mais de 13 milhões de alunos e comece Introdução ao PySpark hoje mesmo!

Crie sua conta gratuita

GoogleLinkedInFacebook

ou

Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados são armazenados nos EUA.