programa
Guia do BigQuery para iniciantes
Minha exposição ao big data começou há mais de 10 anos como engenheiro de software trabalhando na Ad-Tech. Naquela época, os conjuntos de dados começaram a crescer rapidamente e a explodir em tamanho.
Ao mesmo tempo, essa foi uma grande oportunidade, mas também um desafio.
As consultas para responder a perguntas básicas, mas críticas, sobre relatórios passaram a levar horas. Como resposta, comecei a usar bancos de dados orientados por colunas, como o BigQuery, em 2013.
Esses bancos de dados baseados na nuvem nos permitiram executar cargas analíticas de forma eficiente e econômica e dimensionar recursos, se necessário.
Nos últimos anos, liderei uma grande equipe de engenheiros de dados que construiu um data warehouse BigQuery de mais de 10 PB para acompanhar o rápido crescimento de um catálogo de produtos para o lar e as crescentes necessidades analíticas.
Agora, como CTO da DataCamp, lidero diferentes equipes de engenharia e conteúdo para impulsionar e permitir que nossos usuários aprendam e pratiquem exatamente essas habilidades (entre muitas outras). Estou convencido de que os data warehouses em nuvem, como o BigQuery, podem tornar muitos fluxos de trabalho muito mais eficientes e robustos. É por isso que quero compartilhar minhas experiências com você neste tutorial.
Neste guia, você aprenderá o que é o BigQuery, como ele funciona e suas diferenças em relação aos data warehouses tradicionais. Você aprenderá a usar o console do BigQuery para consultar conjuntos de dados públicos fornecidos pelo Google com um exemplo prático de como consultar o Google Trends para saber mais sobre tópicos populares.
O que é BigQuery?
O BigQuery é um data warehouse totalmente gerenciado desenvolvido pelo Google que ajuda a gerenciar e analisar dados. A arquitetura sem servidor da ferramenta permite que as organizações obtenham insights sobre seus negócios e respondam a perguntas rapidamente. O mecanismo analítico escalável e distribuído do BigQuery também permite que os usuários consultem petabytes de dados usando SQL.
As interfaces do BigQuery incluem a interface do console do Google Cloud e a ferramenta de linha de comando do BigQuery. Além disso, ele fornece aos desenvolvedores bibliotecas de clientes para linguagens populares, como C#, Go, Java, Node.js, PHP, Python e Ruby.
O BigQuery oferece recursos integrados de aprendizado de máquina e permite o uso de modelos treinados externamente no VertexAI do Google Cloud Platform (GCP) e até mesmo a importação de modelos personalizados treinados fora do BigQuery.
Este tutorial é apropriado para analistas de dados, engenheiros de dados e administradores de data warehouse como uma introdução ao BigQuery. Se, depois deste tutorial, você quiser se aprofundar no BigQuery, nosso curso de introdução ao BigQuery é um bom lugar para começar.
Torne-se um engenheiro de dados
Armazém de dados tradicional vs. na nuvem
Um data warehouse tradicional é implantado no local, normalmente exigindo altos custos iniciais, uma equipe qualificada para gerenciá-lo e um planejamento adequado para atender à crescente demanda devido à natureza rígida do dimensionamento tradicional de recursos do data center.
Por outro lado, uma solução de data warehouse em nuvem é gerenciada e hospedada por um provedor de serviços em nuvem.
Vantagens dos data warehouses em nuvem
Normalmente, um data warehouse na nuvem tem várias vantagens em relação aos data warehouses tradicionais:
- Eles foram criados para serem dimensionados e aproveitarem a flexibilidade do ambiente de nuvem
- Eles melhoraram a velocidade e o desempenho
- Preços flexíveis e um ambiente de nuvem permitem a otimização de custos (por exemplo, redução de escala em períodos de baixa demanda)
- Eles podem ser total ou parcialmente gerenciados, o que reduz os custos operacionais.
Bancos de dados orientados por linhas e colunas
Exemplo de um banco de dados orientado por linhas:
Exemplo de um banco de dados orientado por colunas:
Os bancos de dados orientados por linhas são adequados para cargas de trabalho com pesquisas de linhas completas, inserção de novos registros e manipulação. Por outro lado, isso os torna pouco adequados para cargas de trabalho analíticas. Por exemplo, a consulta de algumas colunas de uma tabela com dezenas de colunas resultaria na leitura de uma grande quantidade de dados desnecessários (isso é comum em cargas de trabalho analíticas, como previsão de produtos, análise ad-hoc e muito mais).
Os bancos de dados orientados por linhas geralmente são adequados para o processamento de transações on-line (OLTP) e os bancos de dados orientados por colunas para o processamento analítico on-line (OLAP).
OLTP vs. OLAP
- OLTP é um tipo de sistema de banco de dados usado em aplicativos orientados a transações. "On-line" significa que se espera que esses sistemas respondam às solicitações dos usuários e as processem em tempo real (ou seja, processem transações).
- O termo contrasta com o processamento analítico on-line (OLAP), que se concentra na análise de dados.
Resumo da comparação:
Banco de dados orientado por linhas |
Banco de dados orientado por colunas |
||||||
Armazenamento |
Por Row |
Por Coluna |
|||||
Recuperação de dados |
Registros completos |
Colunas reveladoras |
|||||
Aplicação típica |
OLTP |
OLAP |
|||||
Operações rápidas |
Inserção, atualizações, pesquisas |
Consultas para fins de relatório |
|||||
Carregar dados |
Normalmente, um registro por vez |
Normalmente em lote |
|||||
Opções populares |
Postgres, MySQL, Oracle, Microsoft SQL Server |
Snowflake, Google BigQuery, Amazon Redshift |
Como o BigQuery funciona?
Um dos principais recursos do BigQuery é a separação do mecanismo de computação e do armazenamento para que ambos possam ser dimensionados separadamente, conforme necessário e sob demanda. Isso permite que os usuários consultem terabytes de dados em segundos e petabytes em minutos.
Quando o BigQuery executa uma consulta, o mecanismo de consulta distribui o trabalho em paralelo, examinando as tabelas relevantes no armazenamento, mesclando os resultados e retornando o conjunto de dados final.
Como começar a usar o BigQuery
Nesta seção, abordaremos como acessar o BigQuery e como usar a sandbox do BigQuery. Normalmente, uma sandbox é um ambiente de teste isolado e que permite fácil experimentação. O sandbox do BigQuery permite que você experimente o BigQuery sem fornecer um cartão de crédito ou criar uma conta de cobrança para o seu projeto.
O BigQuery pode ser acessado por meio do Google Cloud Console. Você precisará fazer login com uma conta de e-mail do Gsuite (ou criar uma). Uma vez conectado, você verá uma tela de boas-vindas:
Você pode encontrar o BigQuery na barra de menu à esquerda. Ao clicar nele, você será levado à tela abaixo:
Usando o sandbox do BigQuery
Para usar a sandbox do BigQuery, primeiro crie um projeto, clicando em "Selecionar projeto".
Em seguida, você deve clicar em "New Project":
Você precisará fornecer um nome de projeto; para este guia, estamos usando datacamp-guide-project
Um aviso de sandbox agora é exibido na página do BigQuery, mostrando que você ativou com êxito o sandbox do BigQuery.
Com a sandbox do BigQuery agora ativada, você pode usar seu novo projeto para carregar dados e fazer consultas, bem como consultar conjuntos de dados públicos do Google.
Criar um conjunto de dados e uma tabela
Antes de criar uma tabela, você precisa criar um conjunto de dados em seu novo projeto. Um conjunto de dados é um contêiner de nível superior usado para organizar e controlar o acesso a um conjunto de tabelas e exibições. Para criar um conjunto de dados, clique no ícone "Ações" do projeto:
Para fins deste guia, preencheremos "Dataset ID" com "main".
Você pode criar uma tabela usando SQL. O BigQuery usa o GoogleSQL, que é compatível com ANSI.
create table datacamp-guide-project.main.users ( id INT64 not null, first_name STRING NOT NULL, middle_name STRING, -- can be null last_name STRING NOT NULL, active_account BOOL NOT NULL, );
Você também pode usar a interface do Console do BigQuery:
Observação: Não é possível inserir dados em um ambiente sandbox. Se quiser experimentar a inserção de dados, você precisa ativar a avaliação gratuita. As próximas seções se concentram na consulta de conjuntos de dados públicos fornecidos como parte do Google Cloud.
Consultar um conjunto de dados público usando o Console BigQuery
Para consultar um conjunto de dados públicos, siga as etapas abaixo:
1. Clique em "Add" (Adicionar) ao lado de Explorer.
2. Em seguida, escolha um conjunto de dados.
3. Pesquise por "Google Trends" e escolha Google Trends e, em seguida, clique no botão "View dataset" (Exibir conjunto de dados).
4. bigquery-public-data aparecerá com uma longa lista de conjuntos de dados. Inicie o bigquery-public-data para que ele se torne "fixo" no explorador
Um exemplo prático usando o conjunto de dados do Google Trends
Aproveitaremos a tabela top_terms
:
Clique na tabela top_terms
para abrir e inspecione a tabela Details e Preview para saber mais sobre os dados do top_terms
.
Você pode consultar o conjunto de dados, como no exemplo abaixo, para buscar termos classificados na primeira posição nas últimas duas semanas:
SELECT
term
FROM bigquery-public-data.google_trends.top_terms WHERE -- Filter only for first rank rank = 1 -- Filter to the last 2 weeks. AND refresh_date >= DATE_SUB(CURRENT_DATE(), INTERVAL 2 WEEK) GROUP BY term
Resultados (podem variar):
Próximas etapas
Agora você está pronto para começar a usar o BigQuery. O Google Cloud oferece uma avaliação gratuita de US$ 300. A BigQuery oferece várias opções de pagamento. Para consultas, você obtém 1 TB gratuito por mês e, além disso, custa US$ 6,25 por TB. Você pode encontrar mais informações sobre preços na página de preços.
Para os interessados em obter uma compreensão abrangente da engenharia de dados, incluindo o trabalho com data warehouses baseados em nuvem, como o BigQuery, o DataCamp oferece uma trilha de aprendizado de engenheiro de dados que abrange desde o básico até tópicos avançados.
Você também pode conferir nossa folha de dicas para comparar o AWS, o Azure e o Google Cloud Platform e obter mais informações sobre as ferramentas disponíveis.
Obtenha a certificação para a função de engenheiro de dados dos seus sonhos
Nossos programas de certificação ajudam você a se destacar e a provar que suas habilidades estão prontas para o trabalho para possíveis empregadores.


Diretor de Tecnologia da DataCamp e Gerente Geral da Plataforma de Aprendizagem. Na minha função, gerencio as equipes que se concentram em desenvolver a tecnologia e o currículo que impulsiona a experiência dos alunos do DataCamp.
Comece a trabalhar com engenharia de dados hoje mesmo!
curso
Introdução à engenharia de dados
curso