curso
BigQuery vs Redshift: Comparação de custos, desempenho e escalabilidade
Ao lidar com grandes quantidades de dados estruturados e semiestruturados de várias fontes, pensamos em um repositório centralizado para armazená-los. A perspectiva dos data warehouses muda constantemente, e as soluções baseadas na nuvem oferecem desempenho, flexibilidade e escalabilidade excepcionais. O Google BigQuery e o Amazon Redshift são as principais soluções nesse campo.
Os recursos avançados de processamento, análise e armazenamento de dados dos dois data warehouses baseados em nuvem permitem que os profissionais de dados gerenciem seus dados com mais eficácia e eficiência.
Neste artigo, farei uma comparação detalhada dessas plataformas, incluindo seus recursos, benefícios, desvantagens e práticas recomendadas. Vamos examinar os detalhes e ajudar você a identificar a melhor opção para suas necessidades!
O que é BigQuery?
O Google BigQuery é um data warehouse totalmente gerenciado e sem servidor oferecido pelo Google Cloud Platform (GCP). O BigQuery foi projetado para lidar com grandes conjuntos de dados, permitir análises em tempo real e dar suporte a fluxos de trabalho de aprendizado de máquina com o mínimo de gerenciamento de infraestrutura. Sua arquitetura sem servidor permite que você use consultas SQL para analisar seus dados.
O BigQuery apresenta dados em tabelas, linhas e colunas, suportando a semântica de transações de banco de dados (ACID). O armazenamento do BigQuery é replicado automaticamente em vários locais para proporcionar alta disponibilidade.
Interface GCP: Interface principal do console do BigQuery.
Recursos principais do BigQuery:
- Arquitetura sem servidor: Você não precisa se preocupar com o gerenciamento da infraestrutura. O BigQuery elimina essa necessidade ao provisionar automaticamente os recursos com base nas demandas de consulta.
- Análise em tempo real com inserções de streaming: O BigQuery lida facilmente com dados em tempo real, o que o torna ideal para sistemas orientados por eventos. Esse recurso permite que você obtenha insights de dados de streaming.
- Aprendizado de máquina incorporado: O BigQuery ML permite que você crie, treine e implante modelos de aprendizado de máquina no ambiente do BigQuery usando SQL.
- Integração nativa com os serviços do GCP: O BigQuery se integra a outros serviços do Google Cloud, como Pub/Sub, Cloud Storage e Dataflow, aumentando sua versatilidade.
Casos de uso do BigQuery:
- Consultas ad-hoc para conjuntos de dados enormes: O BigQuery foi criado para lidar com conjuntos de dados enormes, que variam de terabytes a petabytes. Isso significa que você pode analisar com eficiência grandes quantidades de dados sem se preocupar com problemas de infraestrutura e desempenho.
- Análise em tempo real para sistemas orientados por eventos: O BigQuery oferece suporte a arquiteturas orientadas a eventos, em que os dados são enviados ao sistema à medida que os eventos ocorrem. Usando o BigQuery, você pode monitorar e analisar fluxos de dados ao vivo para obter insights acionáveis.
- Treinamento e implantação de modelos de ML: O Google BigQuery oferece recursos integrados de aprendizado de máquina (ML) que permitem aos usuários criar, treinar e implantar esse modelo diretamente no ambiente do BigQuery, sem a ajuda de nenhuma ferramenta de terceiros.
O que é Redshift?
O Amazon Redshift é uma solução de data warehouse baseada em nuvem que faz parte de uma plataforma maior de computação em nuvem, a Amazon Web Services (AWS). Com a arquitetura baseada em cluster do Redshift, os usuários podem acessar e analisar cargas de trabalho previsíveis em grande escala sem a necessidade de gerenciar a infraestrutura por conta própria.
O Redshift permite que os usuários carreguem dados e comecem a fazer consultas imediatamente usando o editor de consultas v2 do Amazon Redshift ou a ferramenta de business intelligence (BI) de sua preferência. O serviço oferece a melhor relação preço-desempenho e recursos SQL familiares em um ambiente de administração zero e fácil de usar.
Interface AWS: Interface principal do console do Amazon Redshift.
Recursos principais do Redshift:
- Armazenamento colunar para análises de alto desempenho: O Redshift usa uma arquitetura de armazenamento colunar, projetada para otimizar o desempenho de consultas analíticas em grandes conjuntos de dados, permitir a compactação eficiente e reduzir as operações de E/S.
- Integração perfeita com o ecossistema da AWS: O Redshift se integra aos serviços do AWS, como Amazon S3, Glue e Athena, aumentandosua versatilidade e tornando-o uma ferramenta robusta para análise e gerenciamento de dados.
- Redshift Spectrum: O Amazon Redshift amplia seus recursos analíticos, permitindo que você analise grandes quantidades de dados armazenados no bucket do Amazon S3 juntamente com os dados em seu cluster Redshift.
- Suporte a consultas SQL complexas: O Redshift oferece suporte completo a SQL, permitindo que os usuários realizem transformações e análises avançadas de dados.
Casos de uso do Redshift:
- Fluxos de trabalho com muito ETL: O Redshift é o melhor para lidar com fluxos de trabalho de ETL complexos, queenvolvem a extração de dados de várias fontes, transformando-os em um formato adequado e carregando-os em um data warehouse para análise.
- Armazenamento de dados em nível empresarial: As grandes organizações não precisam se preocupar ao lidar com dados estruturados e semiestruturados robustos. O Redshift oferece suporte ao armazenamento de dados em nível empresarial, oferecendo recursos sólidos, como escalabilidade exclusiva, alto desempenho, recursos de segurança robustos e integração com os serviços da AWS.
- Relatórios de BI: Quando você deseja visualizar ou relatar seus dados de forma significativa, o Redshift foi projetado para se integrar a ferramentas de inteligência de negócios (BI), como Tableau e Looker, permitindo que os usuárioscriem painéis interativos e relatórios detalhados.
Diferenças entre o BigQuery e o Redshift
Após uma breve visão geral desses dois data warehouses em nuvem, vamos examinar atentamente suas diferenças em diferentes áreas.
Arquitetura
A arquitetura da plataforma descreve como os sistemas devem funcionar. Aqui, destacarei a distinção entre o modelo de preços baseado em consultas e sem servidor do BigQuery e a abordagem baseada em cluster do Redshift.
BigQuery
Se você preferir uma abordagem sem intervenção com escalonamento automático, o BigQuery é a opção ideal para você usar em data warehousing.
O BigQuery permite que você não gerencie nenhuma infraestrutura; o Google cuida de tudo, desde o provisionamento até o dimensionamento. Com o BigQuery, você paga apenas pelas consultas que executa e pelo armazenamento que usa. Essa abordagem de preço de pagamento conforme o uso é econômica e ajuda você a não incorrer em custos de recursos ociosos.
Arquitetura do BigQuery (Fonte: Google Cloud blog).
Redshift
Se você precisar de mais controle sobre sua infraestrutura e puder gerenciar seus clusters de forma eficaz, o Amazon Redshift será mais adequado para você. O Redshift exige que você configure e gerencie clusters escolhendo o tipo de instância, o número de nós e a configuração. Isso dá a você controle sobre a infraestrutura, mas, na minha experiência, também aumenta a complexidade.
O Redshift oferece uma abordagem de preço reservado e sob demanda. Com as instâncias reservadas, você recebe um desconto e se compromete com uma capacidade específica por um período predeterminado (como um ou três anos). O preço sob demanda permite que você pague pela capacidade que usa por hora, mas o gerenciamento inadequado pode torná-lo mais caro.
Arquiteto do Amazon Redshifture (Fonte: AWS).
Desempenho
Tanto o Google BigQuery quanto o Amazon Redshift proporcionam um desempenho impressionante para consultas em grande escala, mas têm melhor desempenho em casos diferentes. Vejamos como as duas plataformas gerenciam o desempenho de consultas em grande escala, destacando o desempenho otimizado do BigQuery para consultas ad-hoc e o controle do Redshift sobre clusters para cargas de trabalho previsíveis.
BigQuery
O BigQuery foi desenvolvido para lidar facilmente com cargas de trabalho dinâmicas devido à sua arquitetura sem servidor. Isso permite que o BigQuery dimensione automaticamente as cargas de trabalho, possibilitando alto desempenho para consultas ad-hoc em grande escala. O armazenamento colunar do BigQuery é altamente eficiente para consultas analíticas. Esse formato reduz a quantidade de dados lidos do disco, acelerando o desempenho da consulta.
Redshift
O Redshift pode ser uma opção melhor se você puder gerenciar clusters para obter um desempenho confiável em ambientes com cargas de trabalho previsíveis. Você pode ajustar os clusters para obter um desempenho de consulta consistente, garantindo que seus recursos sejam otimizados para os requisitos de negócios.
O Redshift oferece várias opções de ajuste de desempenho, como chaves de classificação e distribuição, para otimizar a execução de consultas. Esse recurso pode levar a um melhor desempenho para cargas de trabalho previsíveis, mas somente se você souber o que está fazendo! Em minha experiência, a curva de aprendizado pode ser íngreme.
Estrutura de custos
Compreender as estruturas de preço e custo é essencial ao selecionar um data warehouse, pois queremos ser responsáveis por cada dólar que gastamos.
Vamos analisar como o modelo de pagamento por consulta e as despesas de armazenamento do Google BigQuery se comparam ao preço baseado em cluster do Amazon Redshift com economia de instância reservada:
Fator de custo |
BigQuery |
Redshift |
Nível gratuito |
10 GB gratuitos por mês |
Não há um nível gratuito, mas você pode fazer um teste gratuito de dois meses |
Custos de armazenamento |
US$ 20 por TB para armazenamento lógico ativo, US$ 10 para armazenamento de longo prazo |
US$ 0,025 por GB por mês para SSD, US$ 0,08 por GB para RA3 |
Custos de consulta |
US$ 5 por TB para consultas sob demanda |
Com base no uso da instância de computação e no armazenamento |
Calcular custos |
Cobranças baseadas no cálculo da capacidade (por slot-hora) |
Cobrança por hora (preços sob demanda ou reservados) |
Dimensionamento |
Dimensionamento automático com autoscaler |
Dimensionamento manual com gerenciamento de nós |
Custos de backup |
Cobranças por armazenamento de longo prazo além do nível gratuito |
Incluído para backups básicos, custos adicionais para mais instantâneos |
Custos adicionais |
Nenhum para backups ou dimensionamento |
Cobranças por escalonamento de simultaneidade após a avaliação gratuita |
Escalabilidade
Um dos fatores mais importantes que devemos considerar ao selecionar nosso data warehouse é a escalabilidade.
Vamos examinar como o BigQuery aumenta automaticamente a capacidade de armazenamento e computação em resposta à demanda e como o Redshift exige o dimensionamento manual do cluster, o que pode levar mais tempo.
BigQuery
O BigQuery é a plataforma preferida quando você tem certeza de que sua empresa se expandirá junto com suas cargas de trabalho e infraestruturas. A funcionalidade de dimensionamento automático do BigQuery alivia esse fardo, economizando tempo e esforço para que você possa se concentrar totalmente na análise de dados.
Redshift
Em circunstâncias ideais, o Redshift será melhor se sua empresa tiver engenheiros de dados suficientes. Embora o Redshift exija um gerenciamento mais ativo, ele pode ser vantajoso para a sua empresa, principalmente se você precisar de um controle mais preciso e quiser gerenciar recursos.
A desvantagem é que o gerenciamento exige muito tempo, mesmo que isso dê a você liberdade. Seu fluxo de trabalho pode se tornar mais complexo devido à necessidade de planejar, acompanhar o desempenho e agir quando a escala for necessária.
Integração do ecossistema
Tanto o Google BigQuery quanto o Amazon Redshift oferecem benefícios específicos para seus ecossistemas ao se integrarem com suas plataformas de computação em nuvem.
BigQuery
O BigQuery funciona sem problemas para equipes que usam o GCP e seus serviços, como o Google Compute Engine, o Cloud Storage e o Cloud Run; portanto, pode ser vantajoso usar o BigQuery para manter seus pipelines de dados no mesmo ambiente.
Essa integração com o conjunto de ferramentas e serviços do Google faz com que o BigQuery seja a opção preferida para o armazenamento de dados se a sua empresa já usa o ecossistema do Google, pois ele oferece um fluxo de trabalho suave com seus serviços.
Redshift
O Amazon Redshift se sincronizará bem com outros serviços no ecossistema da AWS. Ele pode ser integrado ao Amazon S3, ao AWS Lambda e ao AWS Glue, oferecendo a você acesso fácil a outros serviços e recursos do AWS. Na minha opinião, essa é uma grande vantagem!
Facilidade de uso
A principal diferença entre o Google BigQuery e o Amazon Redshift é a responsabilidade operacional que esses serviços impõem aos seus clientes.
BigQuery
Como não precisamos nos preocupar com o gerenciamento da infraestrutura subjacente, o Google cuida de tudo, desde o provisionamento até o dimensionamento, usando o BigQuery. Esse recurso faz com que o BigQuery se destaque para empresas com poucos engenheiros de infraestrutura que tentam evitar responsabilidades operacionais.
Redshift
O Redshift, por outro lado, exige mais conhecimento técnico e experiência. Se a sua equipe tiver engenheiros de infraestrutura, haverá menos problemas para lidar com backups, dimensionamento manual e provisionamento de clusters. Como empresa, isso dá a você controle e flexibilidade sobre sua infraestrutura.
Quando usar o BigQuery
Há vários casos de uso e cenários em que o Google BigQuery se torna a solução de armazenamento de dados ideal para você. Escolha o BigQuery se você:
- Você já usa os serviços do Google Cloud.
Como foi desenvolvido no Google Cloud Platform, o BigQuery é mais compatível com pessoas que investem muito no GCP. Suponha que você tenha a maioria dos seus recursos no Google Cloud Platform, como o Google Compute Engine, o Cloud Storage e o Cloud Run. Usar seus pipelines de dados no mesmo ambiente pode ser benéfico.
- Exigir análises em tempo real ou consultas ad-hoc.
O BigQuery é uma ferramenta poderosa para lidar com grandes conjuntos de dados para consultas ad-hoc ou análises em tempo real. Como você não precisa se preocupar com o gerenciamento da infraestrutura, isso garante que suas consultas sejam processadas com rapidez e eficiência; sua carga de trabalho é dimensionada automaticamente, independentemente do tamanho ou da complexidade dos seus dados.
- Falta de recursos de DevOps para gerenciar a infraestrutura.
Se a sua equipe não tiver os recursos de DevOps necessários, o BigQuery é o vencedor absoluto. Você não precisa se preocupar com os aspectos técnicos do gerenciamento de infraestruturas; o Google faz isso por você. Isso ajuda você a se concentrar apenas nos insights dos dados.
Quando usar o Redshift
Há alguns cenários e casos de uso em que o Amazon Redshift é a solução de armazenamento de dados de escolha clara. Escolha o Redshift se você:
- Investir pesadamente no ecossistema da AWS.
Se a sua organização implantou seus recursos e se integrou ao ecossistema do AWS, o Redshift é uma opção natural. O Amazon Redshift funcionará com outros serviços da AWS, como o Amazon S3, o AWS Lambda e o AWS Glue, possibilitando que você conte apenas com a AWS para o gerenciamento de dados, como armazenamento de dados, processamento e necessidades de automação.
- Exigir desempenho consistente para padrões de consulta previsíveis.
O Redshift é compatível com cargas de trabalho pesadas que exigem desempenho consistente para padrões de consulta previsíveis e uma execução suave e eficiente. Como os clusters do Redshift são personalizáveis e você pode controlar a infraestrutura, é possível ajustar o Redshift para atender a quaisquer requisitos específicos de desempenho.
- Ter fluxos de trabalho com grande volume de ETL e recursos sólidos de gerenciamento de infraestrutura.
Se a sua equipe lida com fluxos de trabalho de ETL complexos com engenheiros de dados que gerenciam a infraestrutura, então o Redshift é a opção certa. Isso é adequado para empresas com experiência em DevOps para lidar com fluxos de trabalho pesados; você terá controle sobre dimensionamento, backups e desempenho.
BigQuery vs. Redshift: Tabela de resumo
Agora que analisamos alguns componentes importantes de ambas as ferramentas, vamos analisar seus principais destaques. Isso deve ajudar você a decidir qual ferramenta utilizar para suas necessidades específicas:
Recursos |
BigQuery |
Redshift |
Arquitetura |
A arquitetura sem servidor significa que você não precisa gerenciar nenhuma infraestrutura. |
Opera em uma arquitetura baseada em cluster, na qual você precisa gerenciar os clusters manualmente. |
Desempenho |
Pode lidar com grandes conjuntos de dados rapidamente, especialmente com análises em tempo real ou consultas ad hoc. |
Conhecido por seu desempenho confiável com padrões de consulta previsíveis. |
Estrutura de custos |
Ele usa um modelo de pagamento por consulta, o que significa que você paga pelos dados processados por cada consulta. |
Ele usa instâncias reservadas para descontos de custo, em que você paga uma quantidade específica de recursos de computação antecipadamente. |
Escalabilidade |
A escalabilidade automática é um dos recursos mais fortes do BigQuery. |
O dimensionamento manual é necessário, portanto, você deve gerenciar o redimensionamento do cluster, a alocação de recursos e o ajuste de desempenho. |
Integração do ecossistema |
A profunda integração com os serviços do Google Cloud Platform (GCP) faz dele a melhor opção para as equipes que já trabalham no ecossistema do Google. |
Integra-se perfeitamente ao ambiente do Amazon Web Services (AWS) e seus serviços para equipes que já usam o ecossistema do AWS. |
Facilidade de uso |
A arquitetura sem servidor e totalmente gerenciada do BigQuery simplifica o processo sem exigir habilidades profundas de gerenciamento de infraestrutura. |
O Redshift requer um gerenciamento mais prático. Você precisa monitorar e gerenciar clusters, dimensionamento e desempenho. |
Conclusão
Este artigo explorou as principais comparações entre o BigQuery e o Redshift, duas soluções de armazenamento de dados na nuvem com pontos fortes e desvantagens exclusivas. A melhor opção depende de suas necessidades, incluindo volume de dados, padrões de consulta e orçamento.
Se você estiver interessado em se aprofundar nessas plataformas, confira Introdução ao Redshift e Introdução ao BigQuery no DataCamp. Esses cursos práticos ajudarão você a dominar os fundamentos de cada ferramenta e a adquirir habilidades práticas para trabalhar de forma eficaz com data warehouses modernos.
Perguntas frequentes
Posso usar o BigQuery e o Redshift no mesmo ecossistema de dados?
Sim, você pode integrar as duas plataformas em um único ecossistema de dados, dependendo dos seus casos de uso específicos. Por exemplo, o BigQuery pode lidar com análises ad-hoc em conjuntos de dados maciços, enquanto o Redshift pode servir como seu principal data warehouse para tarefas estruturadas de business intelligence. Ferramentas de integração de dados como Apache Airflow, dbt ou Fivetran facilitam o gerenciamento de fluxos de trabalho entre os dois.
Como o BigQuery e o Redshift lidam com formatos de dados semiestruturados como JSON?
Ambas as plataformas podem processar dados semiestruturados, mas suas abordagens são diferentes. O BigQuery tem suporte nativo para JSON e estruturas aninhadas, permitindo que você consulte campos diretamente usando SQL. O Redshift exige que você use o Redshift Spectrum para consultar arquivos JSON externos ou achatar os dados em tabelas relacionais para obter melhor desempenho.
Há setores ou casos de uso específicos em que o BigQuery ou o Redshift são claramente melhores?
O BigQuery é geralmente preferido para setores com volumes de dados flutuantes, como mídia e publicidade, devido à sua natureza sem servidor e sob demanda. O Redshift se destaca em setores como o financeiro ou o de saúde, em que cargas de trabalho previsíveis e painéis de controle em tempo real são essenciais. No entanto, a escolha sempre depende das prioridades de sua empresa.
Qual é a curva de aprendizado para usar o BigQuery em comparação com o BigQuery? Redshift para um iniciante?
A interface e a natureza sob demanda do BigQuery o tornam amigável para iniciantes, especialmente para usuários familiarizados com o Google Cloud. O Redshift pode exigir uma curva de aprendizado mais acentuada, pois envolve a configuração de clusters e o gerenciamento manual do dimensionamento, embora ferramentas como o Amazon QuickSight possam simplificar seu uso para análise.
Como os custos de armazenamento evoluem à medida que os conjuntos de dados crescem no BigQuery em comparação com o BigQuery? Redshift?
O BigQuery cobra com base na quantidade de dados armazenados e consultados, portanto, os custos podem aumentar significativamente se você consultar grandes conjuntos de dados com frequência. Os custos de armazenamento do Redshift dependem do tamanho e do tipo de cluster que você escolher, tornando-o mais previsível, mas exigindo uma otimização inicial para o controle de custos.
Emmanuel Akor é um engenheiro de nuvem e DevOps especializado em aproveitar as tecnologias de nuvem e as ferramentas de DevOps para conduzir projetos impactantes. Formado em Ciência da Computação pela Babcock University e ex-Co-Líder de Nuvem do GDSC, Emmanuel combina excelência acadêmica com experiência prática. Como redator de conteúdo técnico, ele se destaca por compartilhar conhecimento e colaborar com as equipes.
Saiba mais sobre engenharia de dados e tecnologias de nuvem com os cursos a seguir!
curso
Data Warehousing Concepts
curso
Understanding Cloud Computing
blog
Contratos de dados desmistificados: Tudo o que você precisa saber

Mike Shakhomirov
24 min

blog
Analista de dados versus analista de negócios: Quais são as diferenças?
blog
O que é o Power BI? - Guia do Power BI para iniciantes
Wendy Gittleson
12 min
blog
As 10 principais ferramentas de ciência de dados a serem usadas em 2024
blog
R vs. SQL - o que devo aprender?
tutorial