Pular para o conteúdo principal
InícioSpark

Curso

Fundamentos de Big Data com PySpark

AvançadoNível de habilidade
Atualizado 02/2025
Domine o básico do PySpark e trabalhe com grandes volumes de dados.
Iniciar curso gratuitamente
SparkData Engineering
4 h
16 vídeos
55 Exercícios
4,600 XP
65,280
Declaração de realização

Crie sua conta gratuita

Continuar com o GoogleMostrar mais opções

ou


Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.

Preferido por alunos de milhares de empresas

Group

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Nos últimos anos, tem havido muito burburinho sobre Big Data, e ele finalmente se tornou popular para muitas empresas. Mas o que é esse Big Data? Este curso aborda os fundamentos do Big Data por meio do PySpark. O Spark é uma estrutura de "computação em cluster extremamente rápida" para Big Data. Ele fornece um mecanismo de plataforma de processamento de dados geral e permite que você execute programas até 100 vezes mais rápido na memória ou 10 vezes mais rápido no disco do que o Hadoop. Você usará o PySpark, um pacote Python para programação do Spark e suas poderosas bibliotecas de nível superior, como SparkSQL, MLlib (para aprendizado de máquina), etc. Você explorará as obras de William Shakespeare, analisará dados da Fifa 2018 e realizará clustering em conjuntos de dados genômicos. Ao final deste curso, você terá adquirido um conhecimento profundo do PySpark e de sua aplicação à análise geral de Big Data.

Pré-requisitos

Introduction to Python
1

Introdução à análise de Big Data com o Spark

Este capítulo apresenta o empolgante mundo do Big Data, bem como os vários conceitos e estruturas diferentes para o processamento de Big Data. Você entenderá por que o Apache Spark é considerado o melhor framework para BigData.
Iniciar capítulo
2

Programação nos RDDs do PySpark

A principal abstração que o Spark oferece é um conjunto de dados distribuídos resilientes (RDD), que é o tipo de dados fundamental e a espinha dorsal desse mecanismo. Este capítulo apresenta os RDDs e mostra como eles podem ser criados e executados usando transformações e ações do RDD.
Iniciar capítulo
4

Aprendizado de máquina com PySpark MLlib

PySpark MLlib é a biblioteca de aprendizado de máquina escalável do Apache Spark em Python, que consiste em algoritmos e utilitários comuns de aprendizado. Ao longo deste último capítulo, você aprenderá algoritmos importantes de aprendizado de máquina. Você criará um mecanismo de recomendação de filmes e um filtro de spam e usará o k-means clustering.
Iniciar capítulo
Fundamentos de Big Data com PySpark
Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenho
Inscreva-se agora

Faça como mais de 19 milhões de alunos e comece Fundamentos de Big Data com PySpark hoje mesmo!

Crie sua conta gratuita

Continuar com o GoogleMostrar mais opções

ou


Ao continuar, você aceita nossos Termos de Uso, nossa Política de Privacidade e que seus dados serão armazenados nos EUA.

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.