Pular para o conteúdo principal

Os 11 principais projetos de engenharia de dados para aprendizado prático

Mostre suas habilidades em engenharia de dados por meio desses projetos de portfólio. Pratique e aprofunde seu conhecimento de várias tecnologias para mostrar seus pontos fortes aos possíveis empregadores!
Actualizado 7 de nov. de 2024  · 25 min de leitura

A engenharia de dados oferece suporte à movimentação e à transformação de dados. Como as empresas dependem de grandes quantidades de dados para obter insights e impulsionar a inovação, a demanda por engenheiros de dados continua a crescer.

Para os profissionais de dados, mergulhar em projetos de engenharia de dados oferece uma grande variedade de oportunidades. Os desafios práticos aprimoram suas habilidades técnicas e fornecem um portfólio tangível para você mostrar seu conhecimento e experiência.

Neste artigo, selecionei uma seleção de projetos de engenharia de dados criados para ajudar você a aprimorar suas habilidades e enfrentar com confiança os desafios de dados do mundo real!

Por que trabalhar em projetos de engenharia de dados?

É importante que você tenha uma sólida compreensão da engenharia de dados por meio da teoria e da prática. Se você está lendo este artigo, talvez já saiba disso, mas aqui estão três motivos específicos para mergulhar nesses projetos:

Desenvolvimento de habilidades técnicas

Os projetos de engenharia de dados proporcionam experiência prática com tecnologias e metodologias. Você desenvolverá proficiência em linguagens de programação, gerenciamento de banco de dados, processamento de big data e computação em nuvem. Essas habilidades técnicas são fundamentais para as funções de engenharia de dados e são altamente transferíveis para todo o setor de tecnologia.

Desenvolvimento de portfólio 

A criação de um portfólio de projetos de engenharia de dados demonstra suas habilidades práticas para possíveis empregadores. Você fornece evidências tangíveis de suas capacidades, demonstrando implementações de pipelines de dados, projetos de warehouse e soluções de otimização. 

Um portfólio sólido diferencia você no mercado de trabalho e complementa seu currículo com realizações do mundo real.

Ferramentas e tecnologias de aprendizado 

O campo de engenharia de dados emprega um conjunto diversificado de ferramentas e tecnologias. Trabalhar em projetos expõe você a estruturas de processamento de dados, ferramentas de gerenciamento de fluxo de trabalho e plataformas de visualização. 

Essa experiência prática mantém você atualizado com as tendências do setor e aumenta a adaptabilidade em um cenário tecnológico em evolução.

Projetos de engenharia de dados para iniciantes

Esses projetos têm o objetivo de apresentar as principais ferramentas usadas pelos engenheiros de dados. Comece aqui se você for novo na engenharia de dados ou precisar de uma atualização.

Projeto 1: Pipeline ETL com dados abertos (CSV para SQL)

Esse projeto envolve a criação de um pipeline ETL usando um conjunto de dados disponível publicamente, como dados meteorológicos ou de transporte. Você extrairá os dados de um arquivo CSV, limpará e transformará os dados usando Python (com uma biblioteca como Pandas) e carregará os dados transformados no Google BigQuery, um data warehouse baseado em nuvem.

Esse projeto é excelente para iniciantes, pois apresenta os principais conceitos de ETL (extração, transformação e carregamento de dados) e, ao mesmo tempo, expõe você a ferramentas de nuvem como o BigQuery. 

Você também aprenderá a interagir com data warehouses em nuvem, uma habilidade essencial na engenharia de dados moderna, usando ferramentas simples como Python e a API do BigQuery. Para uma introdução, leia o guia para iniciantes do BigQuery.

Quanto aos dados, você pode selecionar um conjunto de dados disponível no Kaggle ou no data.gov.

Recursos

Aqui estão alguns recursos, incluindo repositórios e tutoriais do GitHub, que fornecem orientação passo a passo:

Vídeos do YouTube:

Repositórios do GitHub:

  • Pipeline de dados de ponta a ponta: Esse repositório demonstra um pipeline totalmente automatizado que extrai dados de arquivos CSV, transforma-os usando Python e dbt e carrega-os no Google BigQuery.
  • Pipeline ETL com Airflow e BigQuery: Este projeto apresenta um pipeline de ETL orquestrado com o Apache Airflow que automatiza a extração de dados de arquivos CSV, a transformação usando Python e o carregamento no BigQuery.

Cursos:

  • ETL e ELT em Python: Saiba mais sobre os processos de ETL em Python, abordando conceitos básicos e implementações práticas para criar pipelines de dados.
  • Entendendo a arquitetura de dados moderna: Este curso oferece uma visão geral abrangente da arquitetura de dados moderna, com foco nas práticas recomendadas para mover e estruturar dados em sistemas baseados em nuvem, como o BigQuery.

Habilidades desenvolvidas

  • Extração de dados de CSV com Python
  • Transformar e limpar dados com Python
  • Carregando dados no BigQuery com Python e SQL

Projeto 2: Pipeline de dados meteorológicos com Python e PostgreSQL

Este projeto apresenta aos aspirantes a engenheiros de dados o processo fundamental de criação de um pipeline de dados, concentrando-se em três aspectos principais da engenharia de dados: coleta, limpeza e armazenamento de dados. 

Usando Python, você buscará condições e previsões meteorológicas de vários locais a partir de APIs meteorológicas públicas prontamente disponíveis. Depois que os dados meteorológicos forem coletados, você processará os dados brutos, o que pode envolver a conversão de unidades de temperatura, o tratamento de valores ausentes ou a padronização de nomes de locais. Por fim, você armazenará os dados limpos em um banco de dados PostgreSQL.

Esse projeto é um excelente ponto de partida para novos engenheiros de dados. Ele aborda os fundamentos da criação de um pipeline de dados usando ferramentas do setor amplamente utilizadas.

Recursos

Aqui estão alguns recursos valiosos, incluindo repositórios e tutoriais do GitHub, que fornecem orientação passo a passo para você concluir esse projeto:

Vídeos do YouTube:

Repositórios do GitHub:

Cursos:

  • Criando bancos de dados PostgreSQL: Este curso oferece um guia abrangente do PostgreSQL, abrangendo habilidades essenciais para criar, gerenciar e otimizar bancos de dados - uma etapa essencial no pipeline de dados meteorológicos.
  • Engenheiro de dados em Python: Essa trilha de habilidades abrange as habilidades básicas de engenharia de dados, incluindo coleta, transformação e armazenamento de dados, fornecendo um bom começo para a criação de pipelines em Python.

Habilidades desenvolvidas

  • Usando Python para escrever aplicativos de pipeline de dados
  • Coleta de dados de fontes externas (APIs)
  • Limpeza de dados para torná-los consistentes e compreensíveis
  • Configurar bancos de dados e armazenar e organizar dados neles

Projeto 3: Análise de transporte em Londres

Esse projeto oferece um excelente ponto de partida para aspirantes a engenheiros de dados. Ele apresenta a você o trabalho com dados do mundo real de uma importante rede de transporte público que lida com mais de 1,5 milhão de viagens diárias. 

O ponto forte do projeto está no uso de soluções de data warehouse padrão do setor, como Snowflake, Amazon Redshift, Google BigQuery ou Databricks. Essas plataformas são essenciais na engenharia de dados moderna, permitindo que você processe e analise grandes conjuntos de dados com eficiência. 

Ao analisar tendências de transporte, métodos populares e padrões de uso, você aprenderá a extrair insights significativos de grandes conjuntos de dados - uma competência essencial da engenharia de dados.

Recursos

Aqui estão alguns recursos, incluindo projetos guiados e cursos, que fornecem orientação passo a passo:

Projetos guiados:

  • Explorando a rede de viagens de Londres: Este projeto guiado ensina como analisar os dados de transporte público de Londres, ajudando você a explorar tendências, rotas populares e padrões de uso. Você ganhará experiência com análise de dados em grande escala usando dados reais de uma grande rede de transporte público.

Cursos:

  • Conceitos de armazenamento de dados: Este curso aborda princípios essenciais de armazenamento de dados, incluindo arquiteturas e casos de uso para plataformas como Snowflake, Redshift e BigQuery. É uma excelente base para a implementação de soluções de processamento e armazenamento de dados em grande escala.

Habilidades desenvolvidas

  • Compreender o contexto da elaboração de consultas por meio de uma melhor compreensão dos dados.
  • Trabalhar com grandes conjuntos de dados.
  • Compreensão dos conceitos de big data.
  • Trabalhar com data warehouses e ferramentas de big data, como Snowflake, Redshift, BigQuery ou Databricks.

Torne-se um engenheiro de dados

Torne-se um engenheiro de dados por meio do aprendizado avançado de Python
Comece a Aprender De Graça

Projetos intermediários de engenharia de dados

Esses projetos se concentram em habilidades como ser um programador melhor e combinar diferentes plataformas de dados. Essas habilidades técnicas são essenciais para que você possa contribuir para uma pilha de tecnologia existente e trabalhar como parte de uma equipe maior.

Projeto 4: Realização de uma revisão de código

Este projeto consiste em revisar o código de outro engenheiro de dados. Embora possa não ser tão prático com a tecnologia como em outros projetos, poder revisar o código de outras pessoas é uma parte importante do crescimento como engenheiro de dados. 

Ler e revisar o código é uma habilidade tão importante quanto escrever código. Depois de entender os conceitos e as práticas fundamentais da engenharia de dados, você pode aplicá-los à revisão do código de outras pessoas para garantir que ele siga as práticas recomendadas e reduza possíveis bugs no código.

Recursos

Aqui estão alguns recursos valiosos, incluindo projetos e artigos, que fornecem orientação passo a passo:

Projetos guiados:

  • Realização de uma revisão de código: Esse projeto guiado oferece experiência prática em revisão de código, simulando o processo de revisão de código como se você fosse um profissional sênior de dados. É uma excelente maneira de praticar a identificação de possíveis bugs e garantir que as práticas recomendadas sejam seguidas.

Artigos:

  • Como fazer uma revisão de código: Este recurso fornece recomendações sobre a realização de revisões de código de forma eficaz, com base em ampla experiência, e abrange vários aspectos do processo de revisão.

Habilidades desenvolvidas

  • Ler e avaliar o código escrito por outros engenheiros de dados
  • Encontrar bugs e erros de lógica ao revisar o código
  • Fornecer feedback sobre o código de maneira clara e útil

Projeto 5: Criação de um pipeline de dados de varejo

Neste projeto, você criará um pipeline ETL completo com os dados de varejo do Walmart. Você recuperará dados de várias fontes, incluindo bancos de dados SQL e arquivos Parquet, aplicará técnicas de transformação para preparar e limpar os dados e, por fim, os carregará em um formato de fácil acesso.

Este projeto é excelente para desenvolver conhecimentos básicos e avançados de engenharia de dados, pois abrange habilidades essenciais como extração de dados de vários formatos, transformação de dados para análise significativa e carregamento de dados para armazenamento e acesso eficientes. Ele ajuda a reforçar conceitos como lidar com diversas fontes de dados, otimizar fluxos de dados e manter pipelines dimensionáveis.

Recursos

Aqui estão alguns recursos valiosos, incluindo projetos e cursos guiados, que fornecem orientação passo a passo:

Projetos guiados:

  • Criando um pipeline de dados de varejo: Este projeto guiado leva você a construir um pipeline de dados de varejo usando os dados de varejo do Walmart. Você aprenderá a recuperar dados de bancos de dados SQL e arquivos Parquet, transformá-los para análise e carregá-los em um formato acessível.

Cursos:

  • Projeto de banco de dados: Uma sólida compreensão do design de banco de dados é essencial quando você trabalha com pipelines de dados. Este curso aborda os fundamentos do projeto e da estruturação de bancos de dados, o que é valioso para lidar com diversas fontes de dados e otimizar o armazenamento.

Habilidades desenvolvidas

  • Projetar pipelines de dados para casos de uso no mundo real.
  • Extração de dados de várias fontes e diferentes formatos.
  • Limpeza e transformação de dados de diferentes formatos para melhorar sua consistência e qualidade.
  • Carregamento desses dados em um formato de fácil acesso.

Projeto 6: Fatores que influenciam o desempenho dos alunos com SQL

Neste projeto, você analisará um banco de dados abrangente com foco em vários fatores que afetam o sucesso do aluno, como hábitos de estudo, padrões de sono e envolvimento dos pais. Ao elaborar consultas SQL, você investigará as relações entre esses fatores e as pontuações dos exames, explorando questões como o efeito das atividades extracurriculares e do sono no desempenho acadêmico.

Este projeto desenvolve as habilidades de engenharia de dados, aprimorando sua capacidade de manipular e consultar bancos de dados com eficiência. 

Você desenvolverá habilidades em análise de dados, interpretação e obtenção de insights a partir de conjuntos de dados complexos, essenciais para a tomada de decisões orientadas por dados em contextos educacionais e além.

Recursos

Aqui estão alguns recursos, incluindo projetos guiados e cursos, que fornecem orientação passo a passo:

Projetos guiados:

  • Fatores que estimulam o desempenho dos alunos: Esse projeto orientado permite que você explore a influência de vários fatores no sucesso do aluno, analisando um banco de dados abrangente. Você usará o SQL para investigar as relações entre hábitos de estudo, padrões de sono e desempenho acadêmico, adquirindo experiência em análise educacional orientada por dados.

Cursos:

  • Manipulação de dados em SQL: Uma base sólida em manipulação de dados SQL é fundamental para este projeto. Este curso aborda técnicas de SQL para extrair, transformar e analisar dados em bancos de dados relacionais, equipando você com as habilidades necessárias para lidar com conjuntos de dados complexos.

Habilidades desenvolvidas

  • Escrever e otimizar consultas SQL para recuperar e manipular dados de forma eficaz.
  • Análise de conjuntos de dados complexos para identificar tendências e relacionamentos.
  • Formular hipóteses e interpretar resultados com base em dados.

Projetos avançados de engenharia de dados

Uma característica marcante de um engenheiro de dados avançado é a capacidade de criar pipelines que possam lidar com uma infinidade de tipos de dados em diferentes tecnologias. Esses projetos se concentram na expansão do seu conjunto de habilidades, combinando várias ferramentas avançadas de engenharia de dados para criar sistemas de processamento de dados dimensionáveis.

Projeto 7: Limpeza de um conjunto de dados com o Pyspark

Usando uma ferramenta avançada como o PySpark, você pode criar pipelines que aproveitam os recursos do Apache Spark. 

Antes de você tentar criar um projeto como esse, é importante concluir um curso introdutório para entender os fundamentos do PySpark. Esse conhecimento básico permitirá que você utilize totalmente essa ferramenta para extração, transformação e carregamento eficazes de dados.

Recursos

Aqui estão alguns recursos valiosos, incluindo projetos guiados, cursos e tutoriais, que fornecem orientação passo a passo:

Projetos guiados:

  • Limpeza de um conjunto de dados de pedidos com o PySpark: Este projeto guiado orienta você na limpeza de um conjunto de dados de pedidos de comércio eletrônico usando o PySpark, ajudando-o a entender como extrair, transformar e carregar dados de forma escalonável com o Apache Spark.

Cursos:

  • Introdução ao PySpark: Este curso oferece uma introdução aprofundada ao PySpark, abrangendo conceitos e técnicas essenciais para que você trabalhe de forma eficaz com grandes conjuntos de dados no Spark. É um ponto de partida ideal para você construir uma base sólida no PySpark.

Tutoriais:

  • Tutorial do PySpark: Primeiros passos com o PySpark: Este tutorial apresenta os principais componentes do PySpark, orientando-o na configuração e nas operações fundamentais para que você possa começar a criar pipelines de dados com confiança com o PySpark.

Habilidades desenvolvidas

  • Expandir a experiência com o PySpark
  • Limpeza e transformação de dados para as partes interessadas
  • Ingestão de grandes lotes de dados
  • Aprofundar o conhecimento de Python nos processos de ETL

Projeto 8: Modelagem de dados com dbt e BigQuery

Uma ferramenta moderna, popular e avançada para engenheiros de dados é o dbt (Data Build Tool), que permite que os engenheiros de dados sigam uma abordagem de desenvolvimento de software. Ele oferece controle de versão intuitivo, testes, geração de código padrão, linhagem e ambientes. O dbt pode ser combinado com o BigQuery ou outros data warehouses em nuvem para armazenar e gerenciar seus conjuntos de dados. 

Este projeto permitirá que você crie pipelines no dbt, gere exibições e vincule os dados finais ao BigQuery.

Recursos

Aqui estão alguns recursos valiosos, incluindo cursos e tutoriais em vídeo, que fornecem orientação passo a passo:

Vídeos do YouTube:

  • Engenharia de dados moderna de ponta a ponta com o dbt: Neste vídeo, a CodeWithYu fornece um passo a passo abrangente da configuração e do uso do dbt com o BigQuery, abrangendo as etapas para criar pipelines de dados e gerar exibições. É um guia útil para iniciantes que estão aprendendo a combinar o dbt e o BigQuery em um fluxo de trabalho de engenharia de dados.

Cursos:

  • Introdução ao dbt: Este curso apresenta os fundamentos do dbt, abrangendo conceitos básicos como fluxos de trabalho do Git, testes e gerenciamento de ambiente. É um excelente ponto de partida para você usar o dbt de forma eficaz em projetos de engenharia de dados.

Habilidades desenvolvidas

  • Saiba mais sobre o dbt
  • Saiba mais sobre o BigQuery
  • Compreender como criar transformações baseadas em SQL
  • Use as práticas recomendadas de engenharia de software na engenharia de dados (controle de versão, testes e documentação)

Projeto 9: ETL do Airflow e do Snowflake usando armazenamento S3 e BI no Tableau

Com este projeto, veremos como usar o Airflow para extrair dados usando uma API e transferi-los para o Snowflake usando um bucket do Amazon S3. O objetivo é lidar com o ETL no Airflow e com o armazenamento analítico no Snowflake. 

Esse é um excelente projeto porque se conecta a várias fontes de dados por meio de vários sistemas de armazenamento em nuvem, todos orquestrados com o Airflow. Esse projeto é muito completo porque tem muitas partes móveis e se assemelha a uma arquitetura de dados do mundo real. Esse projeto também aborda o business intelligence (BI), adicionando visualizações no Tableau.

Recursos

Aqui estão alguns recursos valiosos, incluindo cursos e tutoriais em vídeo, que fornecem orientação passo a passo:

Vídeos do YouTube:

  • Pipeline de dados com Airflow, S3 e Snowflake: Neste vídeo, o Seattle Data Guy demonstra como usar o Airflow para extrair dados da API PredictIt, carregá-los no Amazon S3, realizar transformações Snowflake e criar visualizações do Tableau. Este guia completo é ideal para você entender a integração de várias ferramentas em um pipeline de dados.

Cursos:

  • Introdução ao Apache Airflow em Python: Este curso oferece uma visão geral do Apache Airflow, abrangendo conceitos essenciais, como DAGs, operadores e dependências de tarefas. É uma excelente base para você entender como estruturar e gerenciar fluxos de trabalho no Airflow.
  • Introdução ao Snowflake: Este curso apresenta o Snowflake, uma solução avançada de armazenamento de dados. Ele abrange o gerenciamento do armazenamento de dados, a consulta e a otimização. É perfeito para você adquirir conhecimento básico antes de trabalhar com o Snowflake em pipelines de dados.
  • Visualização de dados no Tableau: Este curso aborda as habilidades essenciais do Tableau para a visualização de dados, permitindo que você transforme os dados em recursos visuais interessantes - uma etapa essencial para interpretar os resultados do pipeline de dados.

Habilidades desenvolvidas

  • Pratique a criação de DAGs no Airflow
  • Pratique a conexão com uma API em Python
  • Praticar o armazenamento de dados em buckets do Amazon S3
  • Movendo dados da Amazon para o Snowflake para análise
  • Visualização simples de dados no Tableau
  • Criação de uma plataforma de dados abrangente e de ponta a ponta

Projeto 10: Reddit ETL no AWS usando o Airflow

Este projeto aborda um pipeline de dados complexo com várias etapas usando ferramentas avançadas de processamento de dados no ecossistema do AWS. 

Comece configurando o Apache Airflow para extrair dados do Reddit e transformá-los usando SQL. Depois disso, você conectará seus dados ao AWS colocando-os em um bucket S3, onde usaremos o AWS Glue para fazer um pouco mais de formatação. Em seguida, você pode usar o Athena para testar consultas antes de armazenar os dados no Redshift para armazenamento de dados e consultas analíticas de longo prazo.

Recursos

Aqui estão alguns recursos, incluindo cursos e tutoriais em vídeo, que fornecem orientação passo a passo:

Vídeos do YouTube:

  • Projeto de engenharia de pipeline de dados do Reddit: Neste vídeo, CodeWithYu demonstra um pipeline de dados completo do Reddit, incluindo extração de dados com o Airflow, transformações com o PostgreSQL e integração com serviços do AWS, como S3, Glue, Athena e Redshift. Este passo a passo é um guia útil para você lidar com as etapas de várias camadas em um pipeline de dados complexo.

Cursos:

  • Introdução à AWS: Este curso oferece uma base sólida em AWS, abrangendo conceitos e ferramentas essenciais. Compreender os conceitos básicos dos serviços do AWS, como S3, Glue, Athena e Redshift, será fundamental para que você consiga implementar esse projeto com sucesso.
  • Introdução ao Redshift: Este curso oferece uma introdução abrangente ao Amazon Redshift, com foco em conceitos de armazenamento de dados, arquitetura do Redshift e habilidades essenciais para gerenciar e consultar grandes conjuntos de dados. É um excelente recurso para você aprofundar seu conhecimento sobre o Redshift nos pipelines do AWS.

Habilidades desenvolvidas

  • Puxe os dados do site para o Airflow
  • Use o PostgreSQL para transformar dados
  • Conecte o Airflow ao AWS para transferir dados para baldes S3
  • Use o AWS Glue para ETL
  • Use o AWS Athena para fazer consultas simples
  • Transferir dados do S3 para o Amazon Redshift para armazenamento de dados

Projeto 11: Criar um pipeline de dados em tempo real com PySpark, Kafka e Redshift

Neste projeto, você criará um pipeline de dados robusto e em tempo real usando PySpark, Apache Kafka e Amazon Redshift para lidar com grandes volumes de ingestão, processamento e armazenamento de dados. 

O pipeline capturará dados de várias fontes em tempo real, processará e transformará esses dados usando o PySpark e carregará os dados transformados no Redshift para análise posterior. Além disso, você implementará monitoramento e alertas para garantir a precisão dos dados e a confiabilidade do pipeline.

Este projeto é uma excelente oportunidade para você desenvolver habilidades básicas em processamento de dados em tempo real e lidar com tecnologias de Big Data, como Kafka para streaming e Redshift para armazenamento de dados baseado em nuvem.

Recursos

Aqui estão alguns recursos, incluindo cursos e tutoriais em vídeo, que fornecem orientação passo a passo:

Vídeos do YouTube:

  • Criando um pipeline de dados em tempo real com PySpark, Kafka e Redshift: Este vídeo de Darshir Parmar orienta você na criação de um pipeline de dados completo em tempo real com PySpark, Kafka e Redshift. Ele inclui etapas para ingestão, transformação e carregamento de dados. O vídeo também aborda técnicas de monitoramento e alerta para garantir o desempenho do pipeline.

Cursos:

  • Introdução ao Apache Kafka: Este curso aborda os conceitos básicos do Apache Kafka, um componente crucial para o streaming de dados em tempo real neste projeto. Ele fornece uma visão geral da arquitetura do Kafka e como implementá-lo em pipelines de dados.
  • Conceitos de streaming: Este curso apresenta os conceitos fundamentais de streaming de dados, incluindo processamento em tempo real e arquiteturas orientadas por eventos. É um recurso ideal para você obter conhecimento básico antes de criar pipelines em tempo real.

Tabela de resumo dos projetos de engenharia de dados

Aqui está um resumo dos projetos de engenharia de dados acima para que você tenha uma referência rápida dos diferentes projetos:

Projeto

Nível

Habilidades

Ferramentas

Pipeline de dados meteorológicos

Iniciante

Python para escrever aplicativos de pipeline, conexões de API, limpeza de dados

Python, PostgreSQL

Pipeline de ETL com dados abertos

Iniciante

Leitura de dados CSV com Python e Pandas, limpeza de dados, carregamento de dados no BigQuery

Python, BigQuery

Análise de transporte em Londres

Iniciante

Trabalhar com grandes conjuntos de dados, trabalhar com data warehouses

BigQuery

Realização de uma revisão de código

Intermediário

Revisão de código, avaliação de código, correção de bugs no código

Habilidades de codificação

Criação de um pipeline de dados de varejo

Intermediário

Pipelines de dados, ETL

Python, SQL

Fatores que influenciam o desempenho dos alunos

Intermediário

Consultas SQL para análise de dados

SQL

Limpeza de um conjunto de dados com o PySpark

Avançado

Limpeza, transformação e formatação de dados, usando o PySpark

PySpark, Python

Engenharia de dados com dbt e BigQuery

Avançado

Uso do dbt para transformações baseadas em SQL, transferência de dados entre plataformas

Dbt, BigQuery

ETL do Airflow e do Snowflake usando o armazenamento S3

Avançado

Criar pipelines de ETL complexos usando DAGs do Airflow, mover dados do Airflow para o Snowflake

Airflow, Snowflake, Tableau

Projeto de ETL do Reddit para AWS

Avançado

Conexão com APIs, prática do PostgreSQL para limpeza e transferência de dados do S3, AWS Glue, Athena e Redshift

Airflow, PostgreSQL, AWS S3, AWS Glue, AWS Athena, Amazon Redshift

Criar um pipeline de dados em tempo real com PySpark, Kafka e Redshift

Avançado

Ingestão de dados em tempo real, processamento, monitoramento e carregamento de dados em um data warehouse

PySpark, Kafka, Amazon Redshift

Conclusão

Este artigo apresentou excelentes projetos para ajudar você a praticar suas habilidades de engenharia de dados. 

Concentre-se em entender os conceitos fundamentais por trás do funcionamento de cada ferramenta; isso permitirá que você use esses projetos em sua busca de emprego e os explique com sucesso. Não deixe de revisar os conceitos que você considera desafiadores.

Além de criar um portfólio de projetos, a obtenção de uma certificação em engenharia de dados pode ser um acréscimo valioso ao seu currículo, pois demonstra seu compromisso com a conclusão de cursos relevantes!

Torne-se um engenheiro de dados

Comprove suas habilidades como engenheiro de dados pronto para o trabalho.

Perguntas frequentes

Quais são as habilidades necessárias para começar a trabalhar em projetos de engenharia de dados?

Para projetos de nível iniciante, é útil que você tenha conhecimentos básicos de programação em Python ou SQL e uma compreensão dos fundamentos de dados (como limpeza e transformação). Projetos intermediários e avançados geralmente exigem conhecimento de ferramentas específicas, como Apache Airflow, Kafka ou data warehouses baseados em nuvem, como BigQuery ou Redshift.

Como os projetos de engenharia de dados podem ajudar a criar meu portfólio?

A conclusão de projetos de engenharia de dados permite que você demonstre sua capacidade de trabalhar com dados em escala, criar pipelines robustos e gerenciar bancos de dados. Os projetos que abrangem fluxos de trabalho de ponta a ponta (da ingestão de dados à análise) demonstram habilidades práticas para possíveis empregadores e são altamente valiosos para um portfólio.

As ferramentas de nuvem, como AWS e Google BigQuery, são necessárias para projetos de engenharia de dados?

Embora não sejam estritamente necessárias, as ferramentas de nuvem são altamente relevantes para a engenharia de dados moderna. Muitas empresas dependem de plataformas baseadas em nuvem para escalabilidade e acessibilidade, portanto, aprender ferramentas como AWS, Google BigQuery e Snowflake pode dar a você uma vantagem e alinhar suas habilidades com as necessidades do setor.

Como escolho o projeto de engenharia de dados certo para o meu nível de habilidade?

Comece avaliando seu conhecimento e conforto com as principais ferramentas. Para iniciantes, projetos como limpeza de dados ou criação de um pipeline básico de ETL em Python são ótimos. Os projetos intermediários podem envolver bancos de dados e consultas mais complexas, enquanto os projetos avançados geralmente integram várias ferramentas (por exemplo, PySpark, Kafka, Redshift) para processamento de dados em tempo real ou em grande escala.


Photo of Tim Lu
Author
Tim Lu
LinkedIn

Sou um cientista de dados com experiência em análise espacial, machine learning e pipelines de dados. Trabalhei com GCP, Hadoop, Hive, Snowflake, Airflow e outros processos de engenharia/ciência de dados.

Temas

Saiba mais sobre engenharia de dados com estes cursos!

curso

Introduction to Data Engineering

4 hr
114.3K
Learn about the world of data engineering in this short course, covering tools and topics like ETL and cloud computing.
Ver DetalhesRight Arrow
Iniciar Curso
Ver maisRight Arrow
Relacionado

blog

5 habilidades essenciais de engenharia de dados

Descubra as habilidades de engenharia de dados de que você precisa para prosperar no setor. Saiba mais sobre as funções e responsabilidades de um engenheiro de dados e como você pode desenvolver suas próprias habilidades.
Joleen Bothma's photo

Joleen Bothma

11 min

Data Engineering Vector Image

blog

Como se tornar um engenheiro de dados em 2023: 5 etapas para o sucesso na carreira

Descubra como se tornar um engenheiro de dados e aprenda as habilidades essenciais. Desenvolva seu conhecimento e portfólio para se preparar para a entrevista com o engenheiro de dados.
Javier Canales Luna's photo

Javier Canales Luna

18 min

blog

Mais de 60 projetos Python para todos os níveis de conhecimento

60 ideias de projetos de ciência de dados que os cientistas de dados podem usar para criar um portfólio sólido, independentemente de sua especialização.
Bekhruz Tuychiev's photo

Bekhruz Tuychiev

16 min

blog

Como criar um excelente portfólio de ciência de dados (com exemplos)

Aqui está nosso guia essencial sobre as características de um excelente portfólio de ciência de dados e por que criar um pode aumentar suas perspectivas de carreira.
Adel Nehme's photo

Adel Nehme

13 min

blog

As 15 principais habilidades do cientista de dados para 2024

Uma lista das habilidades obrigatórias que todo cientista de dados deve ter em sua caixa de ferramentas, incluindo recursos para desenvolver suas habilidades.
Javier Canales Luna's photo

Javier Canales Luna

8 min

See MoreSee More