Avro vs. Parquet: Uma comparação completa para o armazenamento de Big Data

Uma comparação detalhada do Avro e do Parquet, abrangendo sua arquitetura, casos de uso, desempenho e como eles se encaixam nos fluxos de trabalho modernos de big data.

Atualizado 27 de fev. de 2025 · 15 min lido

O armazenamento eficiente de dados é uma parte essencial de qualquer sistema de big data. O Avro e o Parquet são dois formatos amplamente usados, cada um deles projetado para cargas de trabalho diferentes - o Avro é excelente em streaming e evolução de esquemas, enquanto o Parquet é otimizado para análise e eficiência de armazenamento. Entender suas diferenças é essencial para a criação de pipelines de dados dimensionáveis.

Este guia detalha sua arquitetura, casos de uso e como eles se encaixam nos fluxos de trabalho de dados modernos.

O que é a Avro?

O Avro é um formato de armazenamento baseado em linhas desenvolvido para o projeto Apache Hadoop. Ele foi projetado para serializar dados com eficiência para troca entre sistemas, o que o torna particularmente útil para plataformas de dados de streaming e aplicativos distribuídos.

A Avro define esquemas usando JSON para facilitar a leitura humana, mas os dados reais são armazenados em um formato binário compacto para maior eficiência. Esse design permite o fácil gerenciamento do esquema e a rápida serialização.

Características da Avro

O Avro oferece várias vantagens, principalmente em termos de evolução do esquema e eficiência de armazenamento:

Evolução do esquema: A Avro incorpora metadados de esquema nos dados, permitindo uma evolução perfeita do esquema. Isso significa que você pode adicionar novos campos ou modificar os existentes sem precisar reescrever totalmente o conjunto de dados, o que torna a Avro altamente flexível para pipelines de dados.
Serialização compacta: A serialização binária da Avro minimiza a sobrecarga de armazenamento e melhora o desempenho em cenários de troca de dados. Ele é especialmente útil em ambientes em que a serialização e a desserialização eficientes são cruciais, como filas de mensagens e fluxos de dados.

Casos de uso para a Avro

Sistemas de streaming e de mensagens - comumente usadosno Apache Kafka para serialização eficiente de eventos.
Intercâmbio e interoperabilidade de dados - Ideal para compartilhar dados estruturados entre diferentes aplicativos.
Armazenamento orientado por linha - Funciona bem para cargas de trabalho em que os dados precisam ser gravados e lidos sequencialmente em linhas.

O que é Parquet?

O Parquet é um formato de armazenamento colunar otimizado para cargas de trabalho analíticas de alto desempenho. Ao contrário dos formatos baseados em linhas, como o Avro, o Parquet armazena dados em colunas, o que o torna muito mais eficiente para a análise de big data. Desenvolvido pela Apache, o Parquet é amplamente usado em data warehouses e na estrutura de computação distribuída.trabalhos como o Apache Spark e o Hadoop.

Características do parquet

O Parquet foi projetado para desempenho analítico, oferecendo benefícios importantes, como

Armazenamento colunar: Como o Parquet armazena os dados em colunas, as consultas podem examinar com eficiência apenas as colunas necessárias, em vez de carregar linhas inteiras. Isso reduz a E/S do disco, levando a um desempenho de consulta mais rápido, especialmente em cargas de trabalho com muita leitura.
Compressão eficiente: O Parquet emprega técnicas de compactação avançadas, como codificação de dicionário, codificação de comprimento de execução e empacotamento de bits, reduzindo os custos de armazenamento e mantendo altas velocidades de consulta. Como tipos de dados semelhantes são armazenados juntos, o Parquet consegue uma compactação melhor do que os formatos baseados em linhas.

Casos de uso do Parquet

Armazenamento e análise de dados - Usado em plataformas como Amazon Redshift, Google BigQuery e Snowflake.
Processamento de big data - Otimizado para estruturas de computação distribuída, como Apache Spark e Presto.
Desempenho de consulta eficiente - Ideal para cargas de trabalho de leitura intensa em que apenas colunas específicas são necessárias.

Para se aprofundar no Parquet e saber como trabalhar com ele na prática, confira este tutorial do Apache Parquet.

Torne-se um engenheiro de dados

Torne-se um engenheiro de dados por meio do aprendizado avançado de Python

Comece a aprender de graça

Diferenças entre Avro e Parquet

O Avro e o Parquet são formatos de armazenamento de dados amplamente usados em ecossistemas de Big Data, mas servem a propósitos diferentes e se destacam em cenários diferentes. A seguir, você encontrará uma comparação detalhada de suas diferenças.

Estrutura de dados

Avro: Usa um formato de armazenamento baseado em linhas, o que significa que os registros inteiros são armazenados sequencialmente. Isso faz com que a Avro seja eficiente para cargas de trabalho com muita gravação, nas quais os dados precisam ser anexados rapidamente.
Parquet: Usa um formato de armazenamento colunar, em que os dados são armazenados por colunas em vez de linhas. Essa estrutura é vantajosa para consultas analíticas que exigem a leitura apenas de colunas específicas em vez de linhas inteiras.

Visualização de armazenamento baseado em linhas versus armazenamento colunar

Para entender melhor a diferença entre o armazenamento baseado em linhas (Avro) e o armazenamento baseado em colunas (Parquet), considere este conjunto de dados:

ID	Nome	Idade	Cidade
101	Alice	25	Nova York
102	Bob	30	Chicago
103	Carol	28	Seattle

Como o Avro armazena os dados (com base em linhas):

[101, Alice, 25, New York]
[102, Bob, 30, Chicago]
[103, Carol, 28, Seattle]

Cada registro é armazenado sequencialmente, o que o torna eficiente para operações de gravação, mas mais lento para consultas a campos específicos.

Como o Parquet armazena dados (baseado em colunas):

ID: [101, 102, 103]
Nome: [Alice, Bob, Carol]
Idade: [25, 30, 28]
Cidade: [Nova York, Chicago, Seattle]

Cada coluna é armazenada separadamente, o que torna mais rápido recuperar apenas as colunas necessárias (por exemplo, consultar apenas a coluna "Age").

Evolução do esquema

Avro: Projetado para a evolução do esquema, permitindo que novos campos sejam adicionados ou modificados sem quebrar a compatibilidade com dados mais antigos. O esquema é armazenado com os dados, tornando-os autodescritivos.
Parquet: Oferece suporte à evolução do esquema, mas é menos flexível que o Avro. As alterações no esquema podem ser mais complexas, especialmente quando você adiciona ou modifica estruturas de colunas.

Eficiência de compactação e armazenamento

Avro: Usa codificação binária compacta, mas não aproveita as técnicas de compactação colunar, o que resulta em arquivos maiores em comparação com o Parquet.
Parquet: Usa técnicas de compactação colunar, como codificação de dicionário, codificação de comprimento de execução e empacotamento de bits, o que o torna mais eficiente em termos de espaço, especialmente para grandes conjuntos de dados.

Desempenho da consulta

Avro: Não é otimizado para consultas analíticas, pois armazena dados em linhas. A varredura de grandes conjuntos de dados exige a leitura de registros inteiros, o que leva a um desempenho de consulta mais lento em cargas de trabalho de análise.
Parquet: Otimizado para consultas rápidas, especialmente quando apenas um subconjunto de colunas é necessário. Sua estrutura colunar permite a varredura seletiva, melhorando o desempenho em análises de big data.

Eficiência de gravação e leitura

Avro: Oferece velocidades de gravação rápidas, pois armazena dados linha por linha. No entanto, as operações de leitura podem ser mais lentas para a análise porque linhas inteiras precisam ser lidas.
Parquet: Otimizado para desempenho de leitura, mas pode ter velocidades de gravação mais lentas devido à sobrecarga do armazenamento colunar e das técnicas de compactação.

Avro vs. Tabela de comparação de parquet

Recurso	Avro	Parquet
Formato de armazenamento	Baseado em linhas (armazena registros inteiros sequencialmente)	Baseado em colunas (armazena dados por colunas)
Melhor para	Streaming, dados de eventos, evolução do esquema	Consultas analíticas, análise de big data
Evolução do esquema	Excelente - o esquema é armazenado com os dados, permitindo atualizações contínuas	Limitado - a evolução do esquema é possível, mas requer um manuseio cuidadoso
Compressão	Codificação binária compacta, mas menos otimizada para análise	Altamente compactado usando técnicas de compactação colunar (codificação de dicionário, codificação de comprimento de execução, empacotamento de bits)
Ler o desempenho	Mais lento para análises, pois linhas inteiras precisam ser lidas	Mais rápido para análises, pois somente as colunas necessárias são lidas
Desempenho de gravação	Mais rápido - anexa linhas inteiras rapidamente	Mais lento - o armazenamento em colunas requer processamento adicional
Eficiência da consulta	Ineficiente para consultas analíticas devido à estrutura baseada em linhas	Altamente eficiente para consultas analíticas, pois somente as colunas necessárias são verificadas
Tamanho do arquivo	Geralmente maior devido ao armazenamento baseado em linhas	Tamanhos de arquivo menores devido a melhores técnicas de compactação
Casos de uso	Arquiteturas orientadas por eventos, sistemas de mensagens Kafka, armazenamento de registros	Lagos de dados, data warehouses, processos de ETL, cargas de trabalho analíticas
Estruturas de processamento	Funciona bem com o Apache Kafka, o Hadoop e o Spark	Otimizado para Apache Spark, Hive, Presto, Snowflake
Suporte para dados aninhados	Oferece suporte a dados aninhados, mas requer definição de esquema	Otimizado para estruturas aninhadas, o que o torna mais adequado para dados hierárquicos
Interoperabilidade	Amplamente usado em plataformas de streaming	Preferencialmente para processamento de big data e cargas de trabalho analíticas
Extensão de arquivo	`.avro`	`.parquet`
Adoção no setor primário	Plataformas de streaming, registro, pipelines em tempo real	Armazenamento de dados, análise, inteligência de negócios

Quando usar o Avro ou o Parquet

A escolha entre Avro e Parquet depende de seu caso de uso específico, das características da carga de trabalho e dos requisitos de processamento de dados. Abaixo estão diretrizes práticas para ajudar você a determinar quando usar cada formato.

Quando usar o Avro

O Avro é mais adequado para cenários que exigem serialização eficiente, evolução do esquema e armazenamento baseado em linhas. Considere usar o Avro nas seguintes situações:

Pipelines de dados de streaming e orientados por eventos: O Avro é amplamente usado em plataformas de streaming de dados em tempo real, como o Apache Kafka, devido ao seu formato binário compacto e à serialização eficiente.
A evolução do esquema é frequente: O Avro é a opção preferida quando você lida com esquemas de dados em evolução, pois ele incorpora o esquema ao arquivo, permitindo modificações suaves sem quebrar a compatibilidade.
Intercâmbio e integração de dados entre sistemas: O Avro é comumente usado para transmitir dados estruturados entre diferentes aplicativos devido ao seu esquema autodescritivo e ao suporte a várias linguagens de programação.
Cargas de trabalho com muita gravação: Se o seu fluxo de trabalho envolver gravações ou acréscimos frequentes, o Avro terá um desempenho melhor do que o Parquet. Ele armazena dados em linhas sequenciais sem a sobrecarga da indexação colunar.
Armazenamento de registros e coleta de dados brutos: O Avro é usado com frequência em sistemas de registro ou no armazenamento de dados brutos não processados devido ao seu armazenamento eficiente em linhas e à capacidade de capturar registros detalhados.

Quando usar o Parquet

O Parquet é ideal para cargas de trabalho analíticas, processamento de big data e eficiência de armazenamento. Use o Parquet quando:

Consultas analíticas e armazenamento de dados: Se o seu objetivo principal for o desempenho rápido de consultas em data lakes, data warehousesousistemas OLAP (Online AnalyticalProcessing), a estrutura colunar do Parquet é altamente eficiente.
Cargas de trabalho com muita leitura: O Parquet é otimizado para cenários em que os dados são lidos com frequência, mas gravados com menos frequência, como painéis de BI, relatórios e análises em lote.
Big data e processamento distribuído: O Parquet é o formato preferido para estruturas de big data, como Apache Spark, Hive, Presto e Snowflake, em que o armazenamento em colunas reduz os custos de E/S e melhora o desempenho.
Otimização da compactação e do armazenamento: Se a eficiência do armazenamento for uma prioridade, as técnicas avançadas de compactação do Parquet (por exemplo, codificação de dicionário, codificação de comprimento de execução) reduzem significativamente o tamanho dos arquivos em comparação com os formatos baseados em linhas.
Leituras seletivas de colunas e projeção de esquemas: Ao trabalhar com grandes conjuntos de dados, mas consultar apenas algumas colunas, o Parquet permite a varredura seletiva de colunas, tornando as consultas significativamente mais rápidas e econômicas.

Qual deles você deve escolher?

Cenário	Formato recomendado
Fluxo em tempo real (Kafka, logs, mensagens)	✅ Avro
Alterações frequentes no esquema/estrutura de dados em evolução	✅ Avro
Armazenamento baseado em linhas para gravações rápidas	✅ Avro
Troca de dados entre aplicativos	✅ Avro
Análise e consulta de big data	✅ Parquet
Armazenamento e compactação eficientes	✅ Parquet
Cargas de trabalho de leitura intensa (lagos de dados, armazenamento)	✅ Parquet
Consulta e filtragem baseadas em colunas	✅ Parquet

Como o Avro e o Parquet funcionam com ferramentas de Big Data

O Avro e o Parquet são amplamente usadosem estruturas de processamento de big data, plataformas de nuvem e ambientes de computação distribuída. A seguir, você encontrará uma visão geral de como o Avro e o Parquet se integram às ferramentas populares de Big Data.

Apache Spark

O Apache Spark é uma estrutura de computação distribuída amplamente usada para processar grandes conjuntos de dados. Ele é compatível com Avro e Parquet, mas cada formato tem vantagens distintas, dependendo do caso de uso.

Usando o Avro no Apache Spark

O Avro é ideal para ingestão de dados e pipelines de ETL devido à sua estrutura baseada em linhas.
Ele permite a evolução do esquema, o que o torna a opção preferida para os pipelines de streaming do Kafka.
Normalmente usado como um formato intermediário antes de converter os dados em formatos de fácil análise, como o Parquet.

Exemplo:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("AvroExample").getOrCreate()

# Read Avro file
df = spark.read.format("avro").load("data.avro")
df.show()

# Write DataFrame to Avro
df.write.format("avro").save("output.avro")

Usando o Parquet no Apache Spark

O Parquet é otimizado para análise e processamento em lote no Spark.
Como as consultas do Spark geralmente envolvem a varredura de colunas específicas, o armazenamento em colunas do Parquet reduz a E/S e acelera as consultas.
É o formato de armazenamento padrão em muitos lagos de dados e ambientes analíticos.

Exemplo:

# Read Parquet file
df = spark.read.parquet("data.parquet")
df.show()

# Write DataFrame to Parquet
df.write.mode("overwrite").parquet("output.parquet")

Apache Hive e Presto

O Apache Hive e o Presto são mecanismos de consulta baseados em SQL projetados para big data. Ambos os mecanismos suportam Avro e Parquet, mas se comportam de maneira diferente:

Avro em Hive e Presto

Usado em fluxos de trabalho de ingestão de dados antes da transformação em um formato otimizado.
Oferece flexibilidade para a evolução do esquema, mas as consultas podem ser mais lentas devido à varredura baseada em linhas.

Exemplo:

CREATE EXTERNAL TABLE avro_table
STORED AS AVRO
LOCATION 's3://my-data-bucket/avro/';

Parquet no Hive e no Presto

Formato preferido para análises devido à redução de colunas e à compactação eficiente.
As consultas são significativamente mais rápidas porque somente as colunas necessárias são lidas.

Exemplo:

CREATE EXTERNAL TABLE parquet_table
STORED AS PARQUET
LOCATION 's3://my-data-bucket/parquet/';

Apache Kafka

O Kafka é uma plataforma de streaming de dados em tempo real, e o Avro é o padrão de fato para serialização de mensagens.

Por que a Avro é preferida no Kafka

O formato binário compacto torna as mensagens menores, reduzindo a largura de banda e os custos de armazenamento.
O suporte à evolução do esquema garante a compatibilidade entre produtores e consumidores.
Funciona perfeitamente com o Confluent Schema Registry, permitindo o controle da versão do esquema.

Exemplo:

from confluent_kafka import avro
from confluent_kafka.avro import AvroProducer

schema_registry_url = "http://localhost:8081"
avro_producer = AvroProducer({'bootstrap.servers': 'localhost:9092',
                              'schema.registry.url': schema_registry_url},
                             default_value_schema=avro.loads(value_schema_str))

avro_producer.produce(topic='avro_topic', value={"id": 1, "name": "Alice"})
avro_producer.flush()

Plataformas de dados em nuvem (AWS, GCP, Azure)

Tanto o Avro quanto o Parquet são compatíveis com as principais plataformas de nuvem, mas são usados de forma diferente.

AWS (Amazon S3, Glue, Redshift, Athena)

Avro: Usado para armazenar dados de streaming e evolução deesquemas em trabalhos de ETL do AWS Glue.
Parquet: Preferencialmente no AWS Athena, RedshiftSpectrum e lagos de dados para análises mais rápidas.

SELECT * FROM my_parquet_table WHERE year = 2023;

Google Cloud Platform (BigQuery, Dataflow, GCS)

Avro: Usado para ingerir dados brutos no Google Dataflow.
Parquet: Otimizado para o Google BigQuery, permitindo a recuperação baseada em colunas.

LOAD DATA INTO my_dataset.my_table
FROM 'gs://my-bucket/data.parquet'
FORMAT PARQUET;

Azure (lago de dados do Azure, Synapse Analytics, Databricks)

Avro: Usado para a troca de dados e a inserção dedados no Azure Data Factory.
Parquet: Você tem preferência pelod no Azure Synapse Analytics e no AzureDatabricks para otimizar o armazenamento e a análise.

Pipelines de ETL e armazenamento de dados

Ambos os formatos desempenham funções diferentes nos pipelines de ETL:

Estágio ETL	Melhor formato	Motivo
Ingestão (streaming e registros)	✅ Avro	Eficiente para ingestão de dados em tempo real (Kafka, IoT, logs de eventos).
Processamento intermediário	✅ Avro	A evolução do esquema permite a transformação de dados sem interromper os pipelines.
Armazenamento final (Analytics e BI)	✅ Parquet	Consultas mais rápidas e armazenamento otimizado para recuperação colunar.

Conclusão

O Avro e o Parquet são formatos essenciais de armazenamento de dados em ecossistemas de big data, cada um servindo a propósitos diferentes. Esta publicação explorou sua arquitetura técnica, casos de uso, integração com ferramentas de Big Data e função nos pipelines de ETL.

As principais conclusões incluem:

O formato baseado em linhas do Avro é eficiente para streaming, evolução de esquemas e serialização de dados.
O formato colunar do Parquet otimiza as consultas analíticas, a compactação e a eficiência do armazenamento.
As ferramentas de Big Data, como Apache Spark, Hive e Kafka, integram-se a esses formatos de diferentes maneiras.
Os pipelines de ETL geralmente usam ambos, com o Avro lidando com a ingestão de dados brutos e o Parquet permitindo análises eficientes.

Para criar uma base mais sólida em data warehousing e processamento de big data, explore os conceitos de data warehousing. Para obter insights sobre o processamento de dados em tempo real e em lote, leia Batch vs. processamento de dados em lote. Processamento de fluxo. Para que você tenha experiência prática com ferramentas de Big Data, o curso Big Data Fundamentals with PySpark é um ótimo ponto de partida.

Compreender esses formatos de armazenamento e seus aplicativos é fundamental para projetar arquiteturas de dados dimensionáveis e eficientes.

Torne-se um engenheiro de dados

Comprove suas habilidades como engenheiro de dados pronto para o trabalho.

Acelerar minha carreira de dados

Por que o Parquet é preferido para análises?

Quais são as diferenças de armazenamento entre o Avro e o Parquet?

Qual formato oferece melhor compactação?

O Avro e o Parquet podem ser usados juntos?

Como o Avro e o Parquet se integram às ferramentas de Big Data?

Author

Tim Lu

Tópicos

Engenharia de dados

Big Data

Saiba mais sobre engenharia de dados com estes cursos!

Programa

Engenheiro de dados Em Python

0 min

Adquira habilidades sob demanda para ingerir, limpar e gerenciar dados com eficiência, além de programar e monitorar pipelines, destacando você no campo da engenharia de dados.

Ver detalhes

Iniciar curso

Curso

Fundamentos de Big Data com PySpark

4 h

59.9K

Domine o básico do PySpark e trabalhe com grandes volumes de dados.

Ver detalhes

Iniciar curso

Curso

Introdução à engenharia de dados

4 h

122.4K

Neste curso rápido, você aprenderá sobre o mundo da engenharia de dados, abordando ferramentas e tópicos como ETL e computação em nuvem.

Ver detalhes

Iniciar curso

Ver mais

Relacionado

blog

Processamento em lote versus processamento em fluxo: Quando usar cada um e por que é importante

Uma análise detalhada das diferenças entre o processamento em lote e em fluxo para pipelines de dados. Conheça as vantagens e desvantagens exclusivas de cada abordagem para aplicar as técnicas adequadas ao seu pipeline de dados.

Tim Lu

11 min

blog

Os 5 principais bancos de dados vetoriais

Um guia abrangente para os melhores bancos de dados de vetores. Domine o armazenamento de dados de alta dimensão, decifre informações não estruturadas e aproveite a incorporação de vetores para aplicativos de IA.

Moez Ali

14 min

blog

Bancos de dados NoSQL: O que todo cientista de dados precisa saber

Descubra para que servem os bancos de dados NoSQL, por que os cientistas de dados os utilizam e uma lista dos melhores bancos de dados NoSQL disponíveis.

Zoumana Keita

12 min

blog

Como se tornar um arquiteto de dados

Saiba o que faz um arquiteto de dados e como iniciar uma carreira lucrativa nesse nicho em rápida expansão.

Moez Ali

11 min

Tutorial

Tutorial de armazenamento do AWS: Uma introdução prática ao S3 e ao EFS

O guia completo para armazenamento de arquivos no AWS com S3 e EFS.

Zoumana Keita

Tutorial

Um guia completo para armazenamento de dados no AWS com o Redshift

Este guia do AWS Redshift abrange a configuração e o gerenciamento de um data warehouse na nuvem, o carregamento de dados, a execução de consultas complexas, a otimização do desempenho, a integração com ferramentas de BI e fornece práticas recomendadas e dicas de solução de problemas para que você tenha sucesso.

Zoumana Keita

Ver mais Ver mais

O que é a Avro?

Características da Avro

Casos de uso para a Avro

O que é Parquet?

Características do parquet

Casos de uso do Parquet

Torne-se um engenheiro de dados

Diferenças entre Avro e Parquet

Estrutura de dados

Visualização de armazenamento baseado em linhas versus armazenamento colunar

Evolução do esquema

Eficiência de compactação e armazenamento

Desempenho da consulta

Eficiência de gravação e leitura

Avro vs. Tabela de comparação de parquet

Quando usar o Avro ou o Parquet

Quando usar o Avro

Quando usar o Parquet

Qual deles você deve escolher?

Como o Avro e o Parquet funcionam com ferramentas de Big Data

Apache Spark

Usando o Avro no Apache Spark

Usando o Parquet no Apache Spark

Apache Hive e Presto

Avro em Hive e Presto

Parquet no Hive e no Presto

Apache Kafka

Por que a Avro é preferida no Kafka

Plataformas de dados em nuvem (AWS, GCP, Azure)

AWS (Amazon S3, Glue, Redshift, Athena)

Google Cloud Platform (BigQuery, Dataflow, GCS)

Azure (lago de dados do Azure, Synapse Analytics, Databricks)

Pipelines de ETL e armazenamento de dados

Conclusão

Torne-se um engenheiro de dados

Perguntas frequentes

Qual formato oferece melhor compactação?

O Avro e o Parquet podem ser usados juntos?

Como o Avro e o Parquet se integram às ferramentas de Big Data?

Processamento em lote versus processamento em fluxo: Quando usar cada um e por que é importante

Os 5 principais bancos de dados vetoriais

Bancos de dados NoSQL: O que todo cientista de dados precisa saber

Como se tornar um arquiteto de dados

Tutorial de armazenamento do AWS: Uma introdução prática ao S3 e ao EFS

Um guia completo para armazenamento de dados no AWS com o Redshift

.css-1531qan{-webkit-text-decoration:none;text-decoration:none;color:inherit;}Engenheiro de dados Em Python

Fundamentos de Big Data com PySpark

Introdução à engenharia de dados

Processamento em lote versus processamento em fluxo: Quando usar cada um e por que é importante

Os 5 principais bancos de dados vetoriais

Bancos de dados NoSQL: O que todo cientista de dados precisa saber

Como se tornar um arquiteto de dados

Tutorial de armazenamento do AWS: Uma introdução prática ao S3 e ao EFS

Um guia completo para armazenamento de dados no AWS com o Redshift

Engenheiro de dados Em Python