Pular para o conteúdo principal

Curso

Introdução ao Spark com sparklyr em R

IntermediárioNível de habilidade

Atualizado 10/2024

Aprenda a fazer análises de big data usando o Spark e o pacote sparklyr no R, e conheça o Spark MLIb em apenas 4 horas.

Iniciar curso gratuitamente

SparkData Engineering

4 h

4 vídeos

50 Exercícios

4,600 XP

20,229

Declaração de realização

Preferido por alunos de milhares de empresas

Treinando uma equipe?

Experimente para Empresas

Descrição do curso

Descubra as vantagens do R, Spark e sparklyr

O R é otimizado principalmente para ajudar você a escrever códigos de análise de dados de forma rápida e legível. O Apache Spark foi feito pra analisar grandes conjuntos de dados rapidinho. O pacote sparklyr permite que você escreva código R dplyr que roda em um cluster Spark, oferecendo o melhor dos dois mundos. Este curso de 4 horas ensina como mexer com Spark DataFrames usando tanto a interface dplyr quanto a interface nativa do Spark, além de experimentar técnicas de machine learning.

Carregar dados no Spark e mexer nos DataFrames do Spark

Você vai começar esse curso do Spark vendo como o Spark e o R funcionam bem juntos e praticando o carregamento de dados, prontos para limpeza, transformação e análise. Você vai usar frames do Spark e a sintaxe do dplyr pra mexer nos seus dados, filtrando e organizando linhas, além de alterar e resumir colunas.

Mergulhe na análise de Big Data com o Spark MLib

Este curso se concentra em desenvolver suas habilidades e confiança na análise de grandes conjuntos de dados. Os capítulos finais mostram os recursos de transformação de dados de machine learning do Spark e te dão a chance de praticar as rotinas de machine learning do sparklyr, usando-o para fazer previsões com árvores impulsionadas por gradiente e florestas aleatórias.

Pré-requisitos

Supervised Learning in R: Regression

1

Light My Fire: começando a usar Spark com a sintaxe do dplyr

Aqui você aprende como Spark e R se complementam, como enviar e trazer dados do Spark e como manipular data frames do Spark usando a sintaxe do dplyr.

Primeiros passos

Feitos um para o outro

Aqui há dragões

O padrão conectar-trabalhar-desconectar

Copiando dados para o Spark

Big data, tibble minúsculo

Explorando a estrutura de tibbles

Selecionando colunas

Filtrando linhas

Reordenando linhas

Alterando colunas

Resumindo colunas

Iniciar capítulo

2

Ferramentas do ofício: uso avançado do dplyr

Aqui você aprende mais sobre como usar a interface do dplyr com o Spark, incluindo seleção avançada de campos, cálculo de estatísticas por grupo e junção de data frames.

Elevando o nível

A ajudinha da mamãe (1)

Mother's little helper (2)

Selecionando linhas únicas

Common people

Coletando dados de volta do Spark

Armazenando resultados intermediários

Grupos: ótimos para música e para dados

Grupos de mutantes

Seleção avançada II: SQL

Iniciar capítulo

3

Indo para o nativo: use a interface nativa para manipular DataFrames do Spark

Aqui você aprende sobre os recursos de transformação de dados para Machine Learning do Spark e funcionalidades para manipular DataFrames nativos.

Duas novas interfaces

Sessão dupla de cinema

Transformando variáveis contínuas em lógicas

Transformando variáveis contínuas em categóricas (1)

Transformando variáveis contínuas em categóricas (2)

Mais que palavras: tokenização (1)

Mais que palavras: tokenização (2)

Mais do que palavras: tokenização (3)

Ordenar vs. arranjar

Explorando tipos de dados do Spark

Reduzindo os dados por amostragem

Partições de treinamento/teste

Iniciar capítulo

4

Estudo de caso: aprendendo a ser uma máquina — executando modelos de Machine Learning no Spark

Um estudo de caso em que você aprende a usar as rotinas de Machine Learning do sparklyr, prevendo o ano em que uma música foi lançada.

Machine Learning no Spark

Funções de machine learning

(Ei, você) Que som é esse?

Trabalhando com arquivos parquet

Come together

Particionando dados com efeito de grupo

Gradient boosted trees: modelagem

Gradient boosted trees: previsão

Gradient boosted trees: visualização

Random Forest: modelagem

Random Forest: previsão

Random Forest: visualização

Comparando o desempenho dos modelos

Iniciar capítulo

Introdução ao Spark com sparklyr em R

Curso
concluído

Obtenha um certificado de conclusão

Adicione esta credencial ao seu perfil do LinkedIn, currículo ou CV
Compartilhe nas redes sociais e em sua avaliação de desempenhoInscreva-se agora

Para Empresas

Treinar 2 ou mais pessoas?

Dê à sua equipe acesso à toda a plataforma DataCamp, incluindo todos os recursos.

Nas seguintes faixas

Cientista de aprendizado de máquina in R

instrutor

Richie Cotton

Richie Cotton

Data Evangelist at DataCamp

colaborador

Curso recursos

Anti-joinconjunto de dados

Both-model-responsesconjunto de dados

Gbt-model-responsesconjunto de dados

Inner-joinconjunto de dados

Left-joinconjunto de dados

Predicted vs actualconjunto de dados

Residual densityconjunto de dados

Semi-joinconjunto de dados

Timbreconjunto de dados

Timbre parquetconjunto de dados

Title text parquetconjunto de dados

Track data parquetconjunto de dados

Track data to model parquetconjunto de dados

Track data to predict parquetconjunto de dados

Track metadataconjunto de dados

Faça como mais de 19 milhões de alunos e comece Introdução ao Spark com sparklyr em R hoje mesmo!

Desenvolva suas habilidades em dados com o app do DataCamp

Continue progredindo em qualquer lugar com nossos cursos para celular e desafios diários de programação de 5 minutos.