Pular para o conteúdo principal

Guia do BigQuery para iniciantes

Saiba o que é o BigQuery, como ele funciona, suas diferenças em relação aos data warehouses tradicionais e como usar o console do BigQuery para consultar conjuntos de dados públicos fornecidos pelo Google.
Actualizado 16 de jan. de 2025  · 9 min de leitura

Minha exposição ao big data começou há mais de 10 anos como engenheiro de software trabalhando na Ad-Tech. Naquela época, os conjuntos de dados começaram a crescer rapidamente e a explodir em tamanho.

Ao mesmo tempo, essa foi uma grande oportunidade, mas também um desafio.

As consultas para responder a perguntas básicas, mas críticas, sobre relatórios passaram a levar horas. Como resposta, comecei a usar bancos de dados orientados por colunas, como o BigQuery, em 2013.

Esses bancos de dados baseados na nuvem nos permitiram executar cargas analíticas de forma eficiente e econômica e dimensionar recursos, se necessário.

Nos últimos anos, liderei uma grande equipe de engenheiros de dados que construiu um data warehouse BigQuery de mais de 10 PB para acompanhar o rápido crescimento de um catálogo de produtos para o lar e as crescentes necessidades analíticas.

Agora, como CTO da DataCamp, lidero diferentes equipes de engenharia e conteúdo para impulsionar e permitir que nossos usuários aprendam e pratiquem exatamente essas habilidades (entre muitas outras). Estou convencido de que os data warehouses em nuvem, como o BigQuery, podem tornar muitos fluxos de trabalho muito mais eficientes e robustos. É por isso que quero compartilhar minhas experiências com você neste tutorial.

Neste guia, você aprenderá o que é o BigQuery, como ele funciona e suas diferenças em relação aos data warehouses tradicionais. Você aprenderá a usar o console do BigQuery para consultar conjuntos de dados públicos fornecidos pelo Google com um exemplo prático de como consultar o Google Trends para saber mais sobre tópicos populares.

O que é BigQuery?

O BigQuery é um data warehouse totalmente gerenciado desenvolvido pelo Google que ajuda a gerenciar e analisar dados. A arquitetura sem servidor da ferramenta permite que as organizações obtenham insights sobre seus negócios e respondam a perguntas rapidamente. O mecanismo analítico escalável e distribuído do BigQuery também permite que os usuários consultem petabytes de dados usando SQL.

As interfaces do BigQuery incluem a interface do console do Google Cloud e a ferramenta de linha de comando do BigQuery. Além disso, ele fornece aos desenvolvedores bibliotecas de clientes para linguagens populares, como C#, Go, Java, Node.js, PHP, Python e Ruby.

O BigQuery oferece recursos integrados de aprendizado de máquina e permite o uso de modelos treinados externamente no VertexAI do Google Cloud Platform (GCP) e até mesmo a importação de modelos personalizados treinados fora do BigQuery.

Este tutorial é apropriado para analistas de dados, engenheiros de dados e administradores de data warehouse como uma introdução ao BigQuery. Se, depois deste tutorial, você quiser se aprofundar no BigQuery, nosso curso de introdução ao BigQuery é um bom lugar para começar.

Torne-se um engenheiro de dados

Torne-se um engenheiro de dados por meio do aprendizado avançado de Python
Comece a aprender de graça

Armazém de dados tradicional vs. na nuvem

Um data warehouse tradicional é implantado no local, normalmente exigindo altos custos iniciais, uma equipe qualificada para gerenciá-lo e um planejamento adequado para atender à crescente demanda devido à natureza rígida do dimensionamento tradicional de recursos do data center.

Por outro lado, uma solução de data warehouse em nuvem é gerenciada e hospedada por um provedor de serviços em nuvem.

Vantagens dos data warehouses em nuvem

Normalmente, um data warehouse na nuvem tem várias vantagens em relação aos data warehouses tradicionais:

  • Eles foram criados para serem dimensionados e aproveitarem a flexibilidade do ambiente de nuvem
  • Eles melhoraram a velocidade e o desempenho
  • Preços flexíveis e um ambiente de nuvem permitem a otimização de custos (por exemplo, redução de escala em períodos de baixa demanda)
  • Eles podem ser total ou parcialmente gerenciados, o que reduz os custos operacionais.

Bancos de dados orientados por linhas e colunas

Exemplo de um banco de dados orientado por linhas:

image20.jpg

Exemplo de um banco de dados orientado por colunas:

image17.png

Os bancos de dados orientados por linhas são adequados para cargas de trabalho com pesquisas de linhas completas, inserção de novos registros e manipulação. Por outro lado, isso os torna pouco adequados para cargas de trabalho analíticas. Por exemplo, a consulta de algumas colunas de uma tabela com dezenas de colunas resultaria na leitura de uma grande quantidade de dados desnecessários (isso é comum em cargas de trabalho analíticas, como previsão de produtos, análise ad-hoc e muito mais).

Os bancos de dados orientados por linhas geralmente são adequados para o processamento de transações on-line (OLTP) e os bancos de dados orientados por colunas para o processamento analítico on-line (OLAP).

OLTP vs. OLAP

  • OLTP é um tipo de sistema de banco de dados usado em aplicativos orientados a transações. "On-line" significa que se espera que esses sistemas respondam às solicitações dos usuários e as processem em tempo real (ou seja, processem transações).
  • O termo contrasta com o processamento analítico on-line (OLAP), que se concentra na análise de dados.

Resumo da comparação:

 

Banco de dados orientado por linhas

Banco de dados orientado por colunas

Armazenamento

Por Row

Por Coluna

Recuperação de dados

Registros completos

Colunas reveladoras

Aplicação típica

OLTP

OLAP

Operações rápidas

Inserção, atualizações, pesquisas

Consultas para fins de relatório

Carregar dados

Normalmente, um registro por vez

Normalmente em lote

Opções populares

Postgres, MySQL, Oracle, Microsoft SQL Server

Snowflake, Google BigQuery, Amazon Redshift

Como o BigQuery funciona?

Um dos principais recursos do BigQuery é a separação do mecanismo de computação e do armazenamento para que ambos possam ser dimensionados separadamente, conforme necessário e sob demanda. Isso permite que os usuários consultem terabytes de dados em segundos e petabytes em minutos.

Quando o BigQuery executa uma consulta, o mecanismo de consulta distribui o trabalho em paralelo, examinando as tabelas relevantes no armazenamento, mesclando os resultados e retornando o conjunto de dados final.

image13.png

Como começar a usar o BigQuery

Nesta seção, abordaremos como acessar o BigQuery e como usar a sandbox do BigQuery. Normalmente, uma sandbox é um ambiente de teste isolado e que permite fácil experimentação. O sandbox do BigQuery permite que você experimente o BigQuery sem fornecer um cartão de crédito ou criar uma conta de cobrança para o seu projeto.

O BigQuery pode ser acessado por meio do Google Cloud Console. Você precisará fazer login com uma conta de e-mail do Gsuite (ou criar uma). Uma vez conectado, você verá uma tela de boas-vindas:

image4.png

Você pode encontrar o BigQuery na barra de menu à esquerda. Ao clicar nele, você será levado à tela abaixo:

image1.png

Usando o sandbox do BigQuery

Para usar a sandbox do BigQuery, primeiro crie um projeto, clicando em "Selecionar projeto".

image14.png

Em seguida, você deve clicar em "New Project":

image3.png

Você precisará fornecer um nome de projeto; para este guia, estamos usando datacamp-guide-project

image7.png

Um aviso de sandbox agora é exibido na página do BigQuery, mostrando que você ativou com êxito o sandbox do BigQuery.

image16.png

Com a sandbox do BigQuery agora ativada, você pode usar seu novo projeto para carregar dados e fazer consultas, bem como consultar conjuntos de dados públicos do Google.

Criar um conjunto de dados e uma tabela

Antes de criar uma tabela, você precisa criar um conjunto de dados em seu novo projeto. Um conjunto de dados é um contêiner de nível superior usado para organizar e controlar o acesso a um conjunto de tabelas e exibições. Para criar um conjunto de dados, clique no ícone "Ações" do projeto:

image18.png

Para fins deste guia, preencheremos "Dataset ID" com "main".

image8.png

Você pode criar uma tabela usando SQL. O BigQuery usa o GoogleSQL, que é compatível com ANSI.

create table datacamp-guide-project.main.users ( id INT64 not null, first_name STRING NOT NULL, middle_name STRING, -- can be null last_name STRING NOT NULL, active_account BOOL NOT NULL, ); 

Você também pode usar a interface do Console do BigQuery:

image19.png

Observação: Não é possível inserir dados em um ambiente sandbox. Se quiser experimentar a inserção de dados, você precisa ativar a avaliação gratuita. As próximas seções se concentram na consulta de conjuntos de dados públicos fornecidos como parte do Google Cloud.

Consultar um conjunto de dados público usando o Console BigQuery

Para consultar um conjunto de dados públicos, siga as etapas abaixo:

1. Clique em "Add" (Adicionar) ao lado de Explorer.

image10.png

2. Em seguida, escolha um conjunto de dados.

image2.png

3. Pesquise por "Google Trends" e escolha Google Trends e, em seguida, clique no botão "View dataset" (Exibir conjunto de dados).

image6.png

4. bigquery-public-data aparecerá com uma longa lista de conjuntos de dados. Inicie o bigquery-public-data para que ele se torne "fixo" no explorador

image5.png

Aproveitaremos a tabela top_terms:

image12.png

Clique na tabela top_terms para abrir e inspecione a tabela Details e Preview para saber mais sobre os dados do top_terms.

image9.png

image21.png

Você pode consultar o conjunto de dados, como no exemplo abaixo, para buscar termos classificados na primeira posição nas últimas duas semanas:

SELECT
    term
FROM bigquery-public-data.google_trends.top_terms WHERE -- Filter only for first rank rank = 1 -- Filter to the last 2 weeks. AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK) GROUP BY term 

Resultados (podem variar):

image11.png

Próximas etapas

Agora você está pronto para começar a usar o BigQuery. O Google Cloud oferece uma avaliação gratuita de US$ 300. A BigQuery oferece várias opções de pagamento. Para consultas, você obtém 1 TB gratuito por mês e, além disso, custa US$ 6,25 por TB. Você pode encontrar mais informações sobre preços na página de preços.

Para os interessados em obter uma compreensão abrangente da engenharia de dados, incluindo o trabalho com data warehouses baseados em nuvem, como o BigQuery, o DataCamp oferece uma trilha de aprendizado de engenheiro de dados que abrange desde o básico até tópicos avançados.

Você também pode conferir nossa folha de dicas para comparar o AWS, o Azure e o Google Cloud Platform e obter mais informações sobre as ferramentas disponíveis.

Obtenha a certificação para a função de engenheiro de dados dos seus sonhos

Nossos programas de certificação ajudam você a se destacar e a provar que suas habilidades estão prontas para o trabalho para possíveis empregadores.

Obtenha sua certificação
Timeline mobile.png

Eduardo Oliveira's photo
Author
Eduardo Oliveira
LinkedIn

Diretor de Tecnologia da DataCamp e Gerente Geral da Plataforma de Aprendizagem. Na minha função, gerencio as equipes que se concentram em desenvolver a tecnologia e o currículo que impulsiona a experiência dos alunos do DataCamp.

Temas

Comece a trabalhar com engenharia de dados hoje mesmo!

programa

Engenheiro de dados

40 horas hr
Adquira habilidades sob demanda para ingerir, limpar e gerenciar dados com eficiência, além de programar e monitorar pipelines, destacando você no campo da engenharia de dados.
Ver DetalhesRight Arrow
Iniciar curso
Certificação disponível

curso

Introdução à engenharia de dados

4 hr
115.8K
Aprenda sobre o mundo da engenharia de dados neste curso de curta duração, que aborda ferramentas e tópicos como ETL e computação em nuvem.
Ver maisRight Arrow