curso
O que é um histograma de frequência? Um guia abrangente para iniciantes
Os histogramas são comumente usados na análise de dados para representar graficamente a distribuição de um conjunto de dados. Eles nos permitem visualizar como os dados são distribuídos em diferentes valores, ajudando a descobrir padrões, tendências e anomalias.
Este artigo apresenta os histogramas de frequência e ajuda você a criar um, passo a passo. Também aprenderemos sobre diferentes tipos de histogramas, algumas tecnologias populares para criá-los, erros comuns a serem evitados e práticas recomendadas a serem seguidas.
O que é um histograma de frequência?
Um histograma de frequência é uma representação gráfica da distribuição de um conjunto de dados. Um histograma é construído a partir de uma série de compartimentos, essencialmente intervalos que abrangem o intervalo dos dados. Cada compartimento tem uma frequência, a contagem de pontos de dados dentro desse intervalo. Os compartimentos são plotados no eixo horizontal, enquanto as frequências são plotadas no eixo vertical, resultando em uma representação semelhante a um gráfico de barras. A altura de cada barra corresponde à frequência dos pontos de dados naquele compartimento.
Os histogramas são comuns porque atendem a várias finalidades essenciais na análise de dados:
- Resumir grandes conjuntos de dados: Ao lidar com grandes volumes de dados, os histogramas fornecem um resumo claro e conciso, permitindo que você compreenda rapidamente a distribuição geral sem se perder em pontos de dados individuais.
- Detectar discrepâncias: Os histogramas visualizam a distribuição de dados e facilitam a identificação de discrepâncias; pontos de dados que se desviam significativamente do restante dos dados. Esses valores discrepantes podem indicar erros, anomalias ou fenômenos significativos que merecem uma investigação mais aprofundada.
- Entender os padrões de distribuição de dados: Os histogramas ajudam a identificar padrões como enviesamento (assimetria da distribuição de dados), modalidade (o número de picos na distribuição) e propagação (o intervalo de dados). Esse entendimento é fundamental para a modelagem estatística, pois informa a escolha de modelos e suposições.
- Análise comparativa: Os histogramas também são úteis para comparar diferentes conjuntos de dados. Ao traçar histogramas lado a lado, podemos comparar visualmente suas distribuições, revelando semelhanças e diferenças que podem não ser aparentes apenas com os dados brutos.
Como já entendemos os histogramas de frequência e sua finalidade na análise de dados, vamos aprender a criar um usando um exemplo.
Como criar um histograma de frequência
Considere um cenário em que você, como analista de dados, é encarregado de analisar os dados de vendas diárias de uma loja de varejo no último mês.
Sua meta é entender a distribuição das vendas diárias para identificar padrões, avaliar o desempenho e fornecer insights para ajudar no gerenciamento de estoque e nas estratégias de vendas. Como parte da análise, você decidiu que um histograma pode ajudar a obter insights.
Aqui estão as etapas que você pode seguir para criar seu histograma de frequência:
Etapa 1: Colete seu conjunto de dados
Digamos que você se conectou com a equipe de dados da sua organização e recuperou os dados dos bancos de dados de vendas da sua organização. Você organizou os dados em um formato tabular, conforme abaixo:
Conjunto de dados de vendas. Imagem do autor.
Etapa 2: Determine os compartimentos
Em seguida, escolha os compartimentos apropriados com base no intervalo e na distribuição dos dados.
Depois de analisar os dados, você percebe que o menor valor é 20, o maior é 135 e você tem 30 observações. Usando a regra da raiz quadrada (aprenderemos mais sobre esse tópico mais tarde), √30 ≈ 5,5, você poderia usar seis compartimentos. Devemos dividir o intervalo de 115 em seis compartimentos, o que resulta em uma largura de compartimento de aproximadamente 19 unidades.
Para simplificar, vamos usar compartimentos de 20 unidades de largura:
- 20–39
- 40–59
- 60–79
- 80–99
- 100–119
- 120–139
Etapa 3: Calcule as frequências em cada compartimento
Vamos contar o número de observações em cada intervalo e tabulá-las conforme mostrado abaixo:
Cálculo de frequências em cada compartimento. Imagem do autor.
Etapa 4: Trace o histograma
Desenhe uma linha horizontal (eixo x) para os compartimentos e uma linha vertical (eixo y) para as frequências. Para cada compartimento, desenhe uma barra cuja altura corresponda à frequência.
Seu histograma deve ser parecido com o seguinte:
Plotagem do histograma. Imagem do autor.
Etapa 5: Rotule e formate
Rotule o eixo x como "Unidades vendidas" e o eixo y como "Frequência". Adicione um título, como "Histograma de dados de vendas diárias". Certifique-se de que as barras estejam uniformemente espaçadas e distintas para uma visualização clara.
O diagrama completo deve ter a seguinte aparência:
Rotulagem e formatação do histograma. Imagem do autor.
É isso! Você criou o histograma de frequência para sua análise.
Diferentes tipos de histogramas de frequência
Há diferentes tipos de histogramas de frequência, cada um oferecendo pequenas variações na forma como os dados são representados.
- Histograma de frequência: Um histograma de frequência tradicional exibe as frequências absolutas dos pontos de dados em compartimentos especificados. Como vimos acima, ele ajuda a entender a distribuição e a concentração dos pontos de dados e também é o tipo de histograma mais comumente usado.
- Histograma de frequência relativa: Um histograma de frequência relativa exibe as frequências relativas (proporções) dos pontos de dados em compartimentos especificados, em vez de mostrar a contagem absoluta de pontos de dados em cada compartimento. Esse tipo de histograma é particularmente útil para comparar diferentes conjuntos de dados porque normaliza os dados, facilitando a comparação de distribuições com diferentes contagens totais.
- Histograma de frequência cumulativa: Um histograma de frequência cumulativa mostra os totais cumulativos, ajudando você a entender como as frequências se acumulam no intervalo de dados. Ele é útil para identificar percentis e entender o impacto cumulativo.
Essas variações de histograma permitem que você descubra diferentes insights, dependendo dos cenários que encontrar em seus projetos analíticos; portanto, saber que esses tipos existem pode ser útil.
Tecnologias que são boas para criar histogramas de frequência
Embora tenhamos aprendido a criar histogramas manualmente acima, você pode fazer isso com várias ferramentas e tecnologias, cada uma com diferentes recursos e capacidades.
Aqui estão algumas tecnologias populares para a criação de histogramas:
- Microsoft Excel ou Google Sheets: O Microsoft Excel é um aplicativo de planilha eletrônica amplamente utilizado com ferramentas de gráficos incorporadas. O Google Sheets é um aplicativo de planilha baseado na nuvem com recursos de gráficos semelhantes aos do Excel. Ambas as ferramentas são comumente usadas em projetos analíticos e oferecem o recurso de criação de histogramas. Você pode aprender a criar histogramas em nosso tutorial Visualizando dados no Excel.
- PowerBI: O PowerBI é uma ferramenta de business intelligence que permite que os usuários visualizem dados e compartilhem insights com toda a organização. Os histogramas estão entre seu conjunto de recursos de visualização. O curso Análise exploratória de dados no PowerBI pode ajudar você a aprender a criar histogramas de forma interativa e a realizar outras tarefas de análise.
- Python: O Python, uma linguagem de programação popular, oferece vários pacotes de visualização, como matplotlib, seaborn, plotly e muitos outros, que podem criar histogramas. No curso Introdução à ciência de dados em Python, você se aprofunda na criação de um histograma (e outras visualizações) de forma prática.
- R: O R é outra linguagem de programação de ciência de dados popular que é adequada para a criação de histogramas devido aos seus recursos avançados de análise de dados e às extensas bibliotecas de visualização, como o ggplot2. Este tutorial em seis etapas do R ensinará a você como criar histogramas.
- Tableau: O Tableau é outro software de BI que ajuda os usuários a transformar dados brutos em painéis interativos e compartilháveis e pode ser usado para criar histogramas. O curso Análise de dados no Tableau aborda o processo detalhado de criação de histogramas.
Obviamente, essa lista não é exaustiva, e há muitas outras ferramentas on-line disponíveis para você criar histogramas. Sinta-se à vontade para usá-las e adotar a ferramenta que melhor se adapte às necessidades de seu projeto analítico.
Erros comuns e práticas recomendadas
Como os histogramas são vistos como um dos diagramas analíticos básicos, nunca os aprendemos formalmente, o que muitas vezes leva a erros ao criá-los. Aqui estão alguns erros comuns e as práticas recomendadas para evitá-los:
1. Escolher a largura do compartimento (e o número de compartimentos)
A escolha de larguras de compartimento inadequadas pode afetar significativamente a aparência e a precisão do histograma.
Os compartimentos muito amplos podem simplificar demais os dados, agrupando muitos pontos de dados, mascarando padrões e variações importantes dentro dos dados. Isso dificulta a visualização de detalhes e nuances mais finos na distribuição.
Por outro lado, compartimentos estreitos significam que cada compartimento abrange um intervalo muito pequeno de valores de dados, o que pode resultar em muitos compartimentos com muito poucos pontos de dados em cada um. Esse nível de detalhe pode ser desnecessário e sobrecarregar o visualizador com muitas informações, o que dificulta a descoberta de padrões ou tendências significativas nos dados.
Tamanhos de compartimento inconsistentes levarão a uma visualização enganosa e dificultarão a interpretação dos histogramas.
Práticas recomendadas
Primeiro, verifique se todos os compartimentos do histograma têm a mesma largura. Essa consistência permite uma comparação direta das frequências em diferentes intervalos.
Várias diretrizes podem ajudar a determinar a largura apropriada do compartimento (e o número de compartimentos):
- Regra da raiz quadrada: Essa regra sugere que você use a raiz quadrada do número de pontos de dados como o número de compartimentos. Por exemplo, se você tiver 100 pontos de dados, usaria √100 = 10 compartimentos. Esse método oferece uma maneira simples e geralmente eficaz de decidir sobre as larguras dos compartimentos.
- Fórmula de Sturges: Essa fórmula calcula o número de compartimentos, considerando o número de pontos de dados. Esse método é particularmente útil para conjuntos de dados maiores, fornecendo um equilíbrio entre poucos e muitos compartimentos.
A regra de Sturges. Fonte: Wikipedia
Na prática, a melhor largura de compartimento é encontrada por meio de ajustes iterativos. Comece com uma largura de compartimento baseada em diretrizes e, em seguida, ajuste para cima ou para baixo enquanto avalia o histograma resultante quanto à clareza e à informatividade.
2. Rotulagem e dimensionamento
Um erro comum é você se concentrar apenas no diagrama e não tanto nos rótulos e nas escalas.
Os espectadores podem não entender o que o histograma representa se os eixos estiverem rotulados de forma incorreta ou inadequada.
Ao comparar vários histogramas, o dimensionamento inconsistente no eixo y pode distorcer a comparação. Suponha que um histograma use uma escala do eixo y de 0 a 100 e outro use de 0 a 50; as alturas das barras não serão diretamente comparáveis. Essa inconsistência pode induzir os espectadores a pensar que algumas diferenças ou semelhanças significativas não estão realmente presentes.
A escala inconsistente em um único histograma também pode deturpar os dados. Se o eixo y começar em um número diferente de zero ou usar intervalos irregulares, ele poderá exagerar ou minimizar as diferenças aparentes entre as frequências de compartimentos, levando a conclusões incorretas sobre a distribuição de dados.
Práticas recomendadas
Sempre rotule o eixo x e o eixo y de forma clara e precisa. Especifique o que cada eixo representa e inclua unidades de medida, se aplicável. Inclua um título descritivo que forneça contexto para o histograma.
Use uma escala consistente para o eixo y, especialmente ao comparar vários histogramas. Isso garante que a altura das barras reflita com precisão a frequência ou a frequência relativa e permite comparações significativas. Certifique-se de que o eixo y comece em zero para fornecer uma representação verdadeira da distribuição de dados. Se começar do zero não for prático, indique claramente o ponto de partida e use intervalos consistentes.
3. Lidar com valores discrepantes
Os valores discrepantes são pontos de dados que ficam significativamente fora do grupo principal de dados, afetando a forma da distribuição de dados. Um erro comum é simplesmente excluir e ignorar os valores discrepantes.
Excluí-los pode ocultar a verdadeira natureza da distribuição, como a presença de uma cauda longa ou assimetria (obliquidade). Um conjunto de dados com alguns valores extremamente altos pode apresentar uma distribuição distorcida se os valores discrepantes forem incluídos, mas parecerá mais simétrico se eles forem removidos.
Às vezes, os valores discrepantes podem representar fenômenos significativos ou percepções importantes. Por exemplo, nos dados de vendas, um valor discrepante pode representar uma compra excepcionalmente grande que pode indicar uma campanha de marketing bem-sucedida ou um pedido em massa. Ignorar esses pontos pode fazer com que você deixe de lado informações valiosas.
Práticas recomendadas
Inclua valores discrepantes no histograma para apresentar uma visão completa da distribuição de dados. Certifique-se de que a escala do eixo y acomode esses valores discrepantes sem comprimir excessivamente os dados principais.
Se os valores discrepantes forem excluídos por motivos específicos (por exemplo, erros, valores extremos irrelevantes), explique claramente no texto ou na legenda que os acompanha. Isso garante transparência e ajuda os espectadores a entender a lógica por trás da exclusão.
Seguir essas práticas recomendadas garante que o histograma comunique as informações pretendidas aos espectadores e ajuda você com análises de dados futuras em projetos de análise.
Conclusão
Este artigo apresentou a você os histogramas de frequência, os diferentes tipos e sua importância na análise de dados. Depois de criar histogramas manualmente, listamos algumas ferramentas e tecnologias populares que você pode usar para criar histogramas. Também aprendemos alguns erros comuns a serem evitados e as práticas recomendadas a serem seguidas.
Incentivamos você a colocar suas habilidades à prova e criar e interpretar histogramas de vários conjuntos de dados para adquirir proficiência. Praticar tarefas de análise e analisar os resultados pode ajudar você a se tornar proficiente em análise de dados.
Bom aprendizado!
Perguntas frequentes
Como determino o número apropriado de compartimentos para meu histograma?
O número apropriado de compartimentos pode ser determinado usando diretrizes, como a regra da raiz quadrada ou a fórmula de Sturges. Ajuste o número de compartimentos com base no contexto específico e no conjunto de dados para garantir que o histograma não seja muito simplificado nem muito complexo.
Por que devo usar larguras de compartimento consistentes em meu histograma?
As larguras de compartimento consistentes são cruciais porque garantem uma representação uniforme e precisa da distribuição de dados. Larguras de compartimento inconsistentes podem distorcer a representação, dificultando a comparação de frequências entre compartimentos e podendo levar a interpretações incorretas dos dados.
Qual é a diferença entre um histograma de frequência e um histograma de frequência relativa?
Um histograma de frequência mostra a contagem absoluta de pontos de dados em cada compartimento, enquanto um histograma de frequência relativa exibe a proporção de pontos de dados em relação ao número total de pontos de dados. Os histogramas de frequência relativa são úteis para comparar diferentes conjuntos de dados por meio da normalização das frequências, facilitando a comparação de distribuições com diferentes contagens totais.
Como lidar com valores discrepantes em meu histograma?
A inclusão de valores discrepantes em seu histograma fornece uma visão completa da distribuição de dados. Se os valores discrepantes forem excluídos, isso pode levar a uma compreensão errônea do intervalo e da variabilidade reais dos dados. Se você optar por excluir os valores discrepantes por motivos específicos, forneça uma explicação clara e uma justificativa para a exclusão, a fim de garantir transparência e integridade na representação dos dados.
Aprenda com o DataCamp
curso
Introduction to R
curso
Introduction to Tableau
blog
O que é análise de dados? Um guia especializado com exemplos
blog
O que é um banco de dados gráfico? Um guia para iniciantes
tutorial
Como fazer um histograma ggplot2 no R
Kevin Babitz
15 min
tutorial
Histogramas no Matplotlib
tutorial
Guia do cientista de dados para processamento de sinais
tutorial