Pular para o conteúdo principal

Média vs. Média. Mediana: Conhecendo a diferença

Explore as diferenças entre média e mediana, aprenda suas aplicações na análise de dados e saiba como escolher a medida certa para diferentes cenários.
Actualizado 31 de jan. de 2025  · 8 min de leitura

Ao interpretar dados, a escolha da medida correta de tendência central pode ser decisiva para sua análise. Entre as métricas mais comuns estão amédia e amediana , que são dois conceitos aparentemente simples que têm implicações profundas na interpretação dos dados. Enquanto a média nos dá a média aritmética, a mediana é o ponto central em um conjunto ordenado de valores, de modo que metade das observações esteja em ambos os lados. Mas qual deles é mais confiável? A resposta geralmente depende da distribuição dos seus dados, da presença de outliers e da história que você está tentando contar.

Neste artigo, explicarei as diferenças entre a média e a mediana, seus pontos fortes e fracos e como você pode escolher a opção certa para diferentes cenários. Também explorarei como as distribuições distorcidas e os outliers afetam essas medidas, fornecendo exemplos práticos e visuais para ajudar você a entender esses conceitos fundamentais. Também mergulharemos em ideias mais avançadas.

Definições de média e mediana

Para entender completamente as diferenças entre a média e a mediana, vamos examinar cada uma dessas medidas e destacar suas principais propriedades.

Qual é a média?

A média pode ser vista como o "ponto de equilíbrio" (ou centro de massa) dos dados. Ele considera todos os pontos de dados em um conjunto de dados e fornece um único valor que representa a média. Mais exatamente,a média é calculada pela soma de todos os valores em um conjunto de dados e, em seguida, dividida pelo número de valores.

Qual é a mediana?

A mediana é o valor médio quando os dados são classificados. Ao contrário da média, ela é mais robusta em relação a valores discrepantes, fornecendo uma medida melhor da tendência central para dados distorcidos.

E quanto ao modo?

A moda é outra medida de tendência central, representando o valor que ocorre com mais frequência em um conjunto de dados. Por exemplo, nesta série: 

1, 3, 3, 6, 8, 9

o modo é 3 porque ele aparece duas vezes.

Como calcular a média e a mediana

Ler uma definição é uma coisa, mas calcular é outra. Nesta seção, detalharei as etapas de cálculo de cada medida e destacarei suas diferenças computacionais.

Como encontrar a média

A média é a média aritmética de um conjunto de dados e é calculada da seguinte forma:

  1. Somar os valores: Some todos os números em seu conjunto de dados.
  2. Divida pelo número total de valores: Pegue a soma total e divida-a pela contagem de valores.

Aqui está o processo representado como uma equação geral:

equação média

Como encontrar a média. Imagem do autor

Por exemplo, considere um conjunto de dados de pontuações de exames:

78, 85, 92, 88, 70
  1. Etapa 1 (soma): 78 + 85 + 92 + 88 + 70 = 413
  2. Etapa 2 (Dividir): 413 ÷ 5 = 82.6 

A pontuação média é 82.6.

Como encontrar a mediana

A mediana é o valor médio de um conjunto de dados quando organizado em ordem crescente. Aqui está como você pode encontrá-lo:

  1. Classifique os dados: Organize os valores do menor para o maior.
  2. Identifique o valor médio: Se o conjunto de dados contiver um número ímpar de valores, a mediana será o valor do meio; se o conjunto de dados contiver um número par de valores, a mediana será a média dos dois valores do meio.

E aqui estão essas etapas representadas como equações: 

equação mediana

Fórmula mediana. Imagem do autor

Também criei um visual para destacar o processo.

mediana ilustrada

Como encontrar a mediana. Imagem do autor

Aqui está um exemplo de conjunto de dados com um número ímpar de valores:

70, 78, 85, 88, 92
  1. Etapa 1 (Classificar): Já resolvido.
  2. Etapa 2 (valor médio): O terceiro valor é 85.

A mediana é 85.

Aqui está outro exemplo, mas com um número par de valores:

70, 78, 85, 88
  1. Etapa 1 (Classificar): Já resolvido.
  2. Etapa 2 (Média dos valores médios): (78 + 85) ÷ 2 = 81.5

A mediana é 81.5.

Por que a diferença é importante: Outliers e Skew

Embora tanto a média quanto a mediana descrevam o centro de um conjunto de dados, seu comportamento diverge significativamente na presença de distribuições distorcidas e outiers. Entender essa diferença é muito importante para interpretar os dados com precisão e evitar conclusões enganosas.

Impacto dos outliers

Os valores atípicos são valores significativamente mais altos ou mais baixos do que o restante dos dados. Eles podem influenciar fortemente a média, mas têm pouco ou nenhum efeito sobre a mediana.

Vamos considerar um conjunto de dados de rendas mensais (em milhares):

3, 3.5, 4, 4.5, 5, 6, 50

A renda média aqui é de 10.85kque é fortemente distorcida pelo valor extremo de 50k.

Por outro lado, o valor mediano é 4.5ko que, na minha opinião, é uma representação muito mais típica da renda desse grupo.

Distribuições distorcidas

A média e a mediana também diferem em sua representação de dados em distribuições distorcidas (conjuntos de dados que não são simétricos).

Por exemplo, emm distribuições com distorção à direita (por exemplo, renda ou preços de imóveis), a maioria dos valores está agrupada na extremidade inferior, com alguns valores extremos puxando a cauda para a direita.

  • Média: Desloca-se em direção à cauda, resultando em um valor maior que a mediana.
  • Mediana: Permanece mais próximo do grupo de valores típicos, refletindo melhor o caso "típico".

Considere a renda: 

30k, 35k, 40k, 45k, 50k, 100k, 200k
  • Média: 71,4 mil (puxado para cima por 100 mil e 200 mil).
  • Mediana: 45 mil (mais próximo da maioria das rendas).

Por que isso é importante

  • Em dados distorcidos: A mediana costuma ser mais representativa de um ponto de dados "típico" porque não é puxada por valores extremos.
  • Em dados simétricos: A média e a mediana serão praticamente idênticas, portanto, qualquer uma delas pode ser usada como medida de tendência central.

Uma coisa que você deve tirar disso é que é importante sempre examinar a distribuição dos seus dados antes de decidir se vai usar a média ou a mediana. Ferramentas como histogramas e gráficos de caixa podem ajudar a visualizar a assimetria e identificar exceções. Falaremos sobre isso mais adiante. Além disso, quero dizer que examinar a diferença entre a média e a mediana é uma forma de avaliar a assimetria.

Escolha da média ou da mediana em diferentes cenários

Ao analisar dados, a decisão de usar a média ou a mediana depende das características do seu conjunto de dados e dos insights que você está tentando extrair. Abaixo você encontra uma tabela de referência rápida para orientar sua escolha:

Use a média quando Use a mediana quando
A distribuição dos dados é aproximadamente normal (simétrica). Os dados são altamente distorcidos (por exemplo, renda, valores de propriedade).
Os valores atípicos são mínimos ou irrelevantes para a análise. Existem valores atípicos que podem distorcer os resultados se forem incluídos.
Você precisa de uma medida que seja sensível a cada ponto de dados, como na modelagem preditiva ou no cálculo de totais. Você deseja refletir o valor "típico" em vez do "centro matemático" do conjunto de dados.

Aqui está uma dica prática que realmente ajudará você: Sempre comece com uma análise visual dos seus dados (por exemplo, um histograma ou gráfico de caixa) para verificar a simetria, a assimetria e a presença de outliers. Isso ajudará você a decidir se a média ou a mediana é mais adequada para o seu cenário.

Visualizando a média versus o valor de mercado Mediana

As visualizações são ferramentas poderosas para você entender o comportamento da média e da mediana em diferentes conjuntos de dados. Eles podem demonstrar claramente como essas medidas respondem a outliers e distribuições distorcidas, ajudando a informar melhores decisões baseadas em dados.

exemplo de gráfico de barras

Imagine um pequeno conjunto de dados de rendas em milhares:

30, 35, 40, 45, 50, 55, 1000

O gráfico de barras a seguir demonstra como um único valor extremo pode afetar drasticamente a média, deixando a mediana relativamente estável. Nesse caso, a maioria dos pontos de dados se agrupa entre 30 e 55, mas a presença de um outlier (1000) puxa a média para cima.

média vs. mediana em um gráfico de barras

Gráfico de barras mostrando o efeito de um outlier na média versus mediana. Imagem do autor

exemplo de histograma

Em uma distribuição com inclinação para a direita (como renda ou preços de imóveis), a média geralmente é puxada para a cauda longa de valores altos, enquanto a mediana permanece mais próxima do ponto de dados "típico". Isso faz com que a mediana seja uma medida melhor da tendência central nesses casos.

O histograma abaixo mostra uma distribuição de renda simulada em que a média (linha tracejada vermelha) é significativamente maior do que a mediana (linha tracejada verde) devido à distorção.

média vs. mediana em um histograma

Histograma mostrando uma distribuição com inclinação para a direita. Imagem do autor

Você pode notar como a inclinação para a direita estica a cauda, criando uma clara diferença entre a média e a mediana.

exemplo de gráfico de caixa

Um gráfico de caixa é uma excelente maneira de visualizar o impacto dos outliers na mediana. Abaixo, comparamos dois grupos: um com outliers e outro sem. A mediana (linha vertical dentro da caixa) permanece estável mesmo com a presença de valores extremos, mas o intervalo geral dos dados é fortemente afetado pela discrepância.

média vs. mediana no gráfico de caixa

Gráfico de caixa mostrando o efeito de outliers na mediana. Imagem do autor

Essas visualizações destacam como a média e a mediana respondem a diferentes características de dados, fornecendo clareza sobre quando usar cada medida. Se você estiver analisando dados distorcidos, conjuntos de dados com tendência a discrepâncias ou comparando grupos, recursos visuais como esses podem facilitar muito a compreensão de relações complexas.

Algumas ideias mais avançadas

Vejamos agora algumas ideias mais avançadas se você estiver curioso para saber mais.

Imputação média vs. mediana

Agora, se você for um cientista de dados e precisar preencher lacunas em seus dados, talvez tenha que escolher um método de imputação. Você deve estar se perguntando: qual é a diferença prática entre a imputação média e a imputação mediana?

Como você pode imaginar, a imputação média substitui os valores ausentes pela média dos dados disponíveis, que, como já dissemos, podem ser distorcidos por valores extremos. A imputação mediana, por outro lado, substitui os valores ausentes pelo valor médio do conjunto de dados.

Uma regra prática útil é observar a distribuição de seus dados. Se a distribuição dos seus dados fosse distorcida, com muitos valores ausentes, e você tivesse usado a imputação de média, poderia ter alterado a distribuição dos seus dados!

Média vs. mediana: paramétrica ou não paramétrica?

Em muitos métodos paramétricos, a média (e a variação) são parâmetros centrais. Por exemplo, um modelo de regressão linear simples pressupõe que os erros são normalmente distribuídos em torno de uma média. Quando seus dados atendem à suposição de normalidade, a média amostral é um estimador natural e se encaixa bem em estruturas paramétricas.

Agora, a mediana tem uma orientação não paramétrica e, na verdade, eu diria que é a medida não paramétrica por excelência da tendência central. Muitos testes baseados em classificação, como o Mann-Whitney, comparam efetivamente medianas (ou distribuições) em vez de médias. Portanto, se seus dados apresentarem uma forte inclinação ou contiverem outliers, o foco na mediana se alinhará mais naturalmente com as estatísticas não paramétricas. 

Tudo isso para dizer que entender a distinção entre média e mediana não é apenas uma questão de descrever os dados corretamente, mas também é importante no teste de hipóteses

Teste de estabilidade média vs. mediana

Ao decidir se você deve usar uma média ou uma mediana, uma questão fundamental é a estabilidade de nossas estatísticas para um determinado conjunto de dados. O bootstrapping é uma opção que nos permitiria estimar empiricamente a distribuição de amostragem da média e da mediana por meio da reamostragem repetida (com substituição) dos dados originais.

Você poderia destacar as diferenças na estabilidade média e mediana empiricamente. Você poderia introduzir alguns outliers em um conjunto de dados e, em seguida, executar novamente um procedimento de bootstrap, permitindo assim que você mostre visualmente como a distribuição da média muda mais drasticamente do que a da mediana. Além disso, o bootstrapping pode tornar isso concreto, mostrando quão grandes ou pequenos podem ser os intervalos de confiança em cenários realistas. Leia nosso tutorial sobre aplicação de métodos bootstrap para saber mais.

Média vs. mediana como problemas de otimização

Deixe-me apresentar uma definição alternativa, mas igualmente verdadeira: A média é o valor que minimiza a soma dos desvios quadrados dos dados, enquanto a mediana é o valor que minimiza a soma dos desvios absolutos.

Dê uma olhada nesta equação:

equação média como soma dos desvios ao quadrado

Se você tomar a derivada dessa equação em relação a e resolver, você descobrirá que o valor de minimização é simplesmente a média aritmética. Isso é importante porque, em muitos métodos estatísticos, como a regressão ols, minimizamos os erros ao quadrado por conveniência matemática e para estar em conformidade com as suposições de erros normalmente distribuídos.

Agora, considere uma ideia diferente: Em vez de elevar cada desvio ao quadrado, medimos o erroabsoluto entre m e cada ponto de dados:

equação da mediana como soma dos desvios absolutos

Aqui, queremos encontrar m que minimize esse desvio absoluto total. Acontece que (analisando a derivada da perda absoluta ou por um argumento geométrico) a solução é a mediana do conjunto de dados.

Intuitivamente, se estiver à esquerda da mediana, há mais pontos de dados à direita puxando-a para cima. Somente a mediana é onde a atração da esquerda e da direita se equilibra, minimizando a distância absoluta total.

Complexidade computacional média vs. mediana

Por fim, direi que a média é computacionalmente mais simples em escala. Isso significa que você pode computá-lo de forma incremental à medida que os dados são transmitidos, sem a necessidade de classificação.

A mediana geralmente requer classificação. A classificação de um grande conjunto de dados pode ser computacionalmente cara, especialmente com milhões de valores. Para conjuntos de dados muito grandes, algoritmos aproximados (como algoritmos de fluxo contínuo ou baseados em quantis) podem ser usados para estimar a mediana com mais eficiência. Nosso novo curso Concepts in Computer Science é um ótimo recurso para você aprender sobre esses assuntos.

Próximas etapas

Como você viu, a média é a média aritmética de um conjunto de dados, o que a torna sensível a valores extremos, enquanto a mediana representa o valor médio em um conjunto de dados ordenado. A escolha certa pode fazer toda a diferença, mas, dito isso, em análises do mundo real, geralmente é melhor informar a média e a mediana juntamente com estatísticas adicionais, como moda, desvio padrão e percentis. Essa é a melhor maneira, pois fornece uma visão abrangente.

Se você quiser se aprofundar nos conceitos estatísticos, há várias áreas nas quais vale a pena se concentrar. Comece lendo sobre variações mais avançadas da média, como a média aparada, a média geométrica e a média ponderada, cada uma com sua finalidade.  Eu também faria nosso curso de Introdução à Estatística sem tecnologia. 

Então, para realmente se tornar um especialista, você deverá escolher e dominar uma ferramenta. Nosso curso Introduction to Statistics in R e o curso de carreira Statistician in R são pontos de partida muito informativos se você quiser usar o R, que é uma linguagem popular para ciência de dados e estatística. Se você prefere trabalhar com planilhas e uma linguagem de programação como Python, nosso curso Introduction to Statistics in Google Sheets e Introduction to Statistics in Python oferece uma abordagem prática da análise estatística usando fórmulas e bibliotecas poderosas.


Samuel Shaibu's photo
Author
Samuel Shaibu
LinkedIn

Profissional experiente em dados e escritor que tem paixão por capacitar aspirantes a especialistas no espaço de dados.

Média vs. Média. Perguntas frequentes sobre a mediana

Qual é a principal diferença entre a média e a mediana?

A média é a média aritmética de todos os pontos de dados, enquanto a mediana é o valor médio quando os dados são classificados.

Quando devo usar a mediana em vez da média?

Use a mediana quando seus dados estiverem distorcidos ou contiverem valores discrepantes que possam distorcer a média.

A média e a mediana podem ser iguais?

Sim, eles podem ser os mesmos em uma distribuição perfeitamente simétrica, como uma distribuição normal.

Há situações em que nem a média nem a mediana são suficientes?

Sim, para distribuições multimodais ou conjuntos de dados com vários picos, nenhum deles pode ser representativo. Nesses casos, medidas adicionais como modo ou percentis podem ser mais apropriadas.

Por que a média é mais afetada por outliers do que a mediana?

Para responder a essa pergunta, considere como a média é calculada: A média é a soma de todos os valores de dados dividida pelo número de observações. Um outlier (um valor extremamente alto ou baixo) influencia fortemente essa soma, afastando a média do que pode ser considerado um valor típico.

Agora, considere como a mediana é calculada: A mediana é o valor médio em um conjunto de dados ordenado. Depende apenas da ordenação dos dados, não do tamanho dos pontos individuais. Um único valor discrepante não muda a posição do valor médio na lista ordenada e, portanto, quase não afeta a mediana.

Como você pensa em escolher entre a média e a mediana?

Vamos dar uma olhada em algumas considerações importantes:

  • Quando a precisão é fundamental: A média considera todos os pontos de dados, o que a torna ideal para cálculos que exigem todos os valores (por exemplo, consumo médio de combustível em todos os veículos).
  • Quando a robustez é necessária: A mediana oferece mais confiabilidade em conjuntos de dados distorcidos ou quando valores extremos podem distorcer a média. Por exemplo, a mediana é geralmente preferida para informar a renda familiar, a fim de evitar deturpação devido a algumas pessoas com renda muito alta.
Temas

Aprenda com a DataCamp

curso

Data Analysis in Excel

3 hr
71.9K
Learn how to analyze data with PivotTables and intermediate logical functions before moving on to tools such as what-if analysis and forecasting.
Ver DetalhesRight Arrow
Iniciar curso
Ver maisRight Arrow
Relacionado

blog

Analista de dados versus analista de negócios: Quais são as diferenças?

Quais são as principais diferenças entre um analista de dados e um analista de negócios? Leia tudo sobre eles neste guia completo.
Austin Chia's photo

Austin Chia

8 min

blog

O que é análise de dados? Um guia especializado com exemplos

Explore o mundo da análise de dados com nosso guia abrangente. Saiba mais sobre sua importância, processo, tipos, técnicas, ferramentas e as principais carreiras em 2023
Matt Crabtree's photo

Matt Crabtree

10 min

blog

Análise de esportes: Como diferentes esportes usam a análise de dados

Descubra como funciona a análise esportiva e como diferentes esportes usam dados para fornecer insights significativos. Além disso, descubra o que é necessário para se tornar um analista de dados esportivos.
Kurtis Pykes 's photo

Kurtis Pykes

13 min

blog

Como analisar dados para sua empresa em 5 etapas

Descubra as diferentes etapas para analisar dados e extrair valor deles, bem como os métodos e técnicas envolvidos no processo.
Javier Canales Luna's photo

Javier Canales Luna

14 min

Artificial Intelligence Concept Art

blog

Guia de casos de uso de ciência de dados

Conheça os casos de uso da ciência de dados e descubra como ela pode ser implementada em vários setores para impulsionar o crescimento e a tomada de decisões.
Elena Kosourova's photo

Elena Kosourova

16 min

tutorial

Testes T no tutorial do R: Saiba como realizar testes T

Determine se há uma diferença significativa entre as médias dos dois grupos usando t.test() no R.
Abid Ali Awan's photo

Abid Ali Awan

10 min

Ver maisVer mais