curso
Média geométrica: Uma medida para crescimento e composição
Você já calculou a média dos retornos anuais de seus investimentos e descobriu que o retorno geral real não corresponde exatamente à média? Esse cenário comum em finanças destaca a importância de compreender e aplicar a média geométrica - uma medida útil que muitas vezes se mostra mais apropriada do que a média aritmética amplamente utilizada ao lidar com taxas de alteração e efeitos compostos.
Neste tutorial, exploraremos o conceito de média geométrica e sua função na análise de dados, especialmente em áreas como finanças, biologia e ciência de dados. Também examinaremos cenários em que ela supera outras medidas de tendência central.
O que é a média geométrica?
A média geométrica é um tipo de média que é particularmente útil quando você trabalha com conjuntos de números positivos, especialmente aqueles que envolvem multiplicação ou crescimento exponencial. Diferentemente da média aritmética mais comum, que adiciona números e divide pela contagem, a média geométrica é particularmente adequada para lidar com conjuntos de dados que envolvem relações multiplicativas ou crescimento exponencial.
Aqui estão alguns dos campos em que a média geométrica é valiosa:
- Finanças: É comumente usado para calcular taxas médias de retorno em vários períodos. Ao contrário da média aritmética, a média geométrica leva em conta a composição, o que a torna mais precisa para cálculos financeiros.
- Biologia: Nos estudos de crescimento populacional, a média geométrica é usada para calcular as taxas médias de crescimento ao longo do tempo.
- Geometria: Uma de suas aparições mais elegantes é em triângulos retângulos, onde a altitude da hipotenusa incorpora a média geométrica dos segmentos que ela cria nessa hipotenusa. Além disso, a média geométrica representa o comprimento do lado de um quadrado que teria a mesma área de um determinado retângulo, fornecendo uma maneira de "quadrar" áreas retangulares.
Como você pode ver, a média geométrica é uma ferramenta valiosa tanto para cálculos cotidianos quanto para conceitos matemáticos mais abstratos.
Como calcular a média geométrica
Há vários métodos para calcular a média geométrica, cada um com suas próprias vantagens, dependendo da situação.
A fórmula da média geométrica
A maneira mais direta de calcular a média geométrica é usar a fórmula padrão:
Aqui, x₁, x₂, ..., xₙ são os números positivos no conjunto de dados e n é a contagem de números. Para obter a média geométrica, multiplicamos todos os valores e tiramos a enésima raiz do produto, em que n é o número de valores. Vamos mostrar isso por meio de um exemplo. Considere os números 2, 4 e 8. Para encontrar sua média geométrica:
- Multiplique os números: 2 * 4 * 8 = 64
- Pegue a raiz cúbica (já que há 3 números): ∛64 ≈ 4
A média geométrica de 2, 4 e 8 é 4. Esse resultado nos diz que, se tivéssemos três números iguais, cada um igual a 4, o produto deles seria o mesmo que o produto dos números originais. Essencialmente, 4 é o fator de crescimento consistente em todos os três valores.
Cálculo da média geométrica pela adição de logaritmos
Para conjuntos de dados maiores ou para evitar erros de estouro ao lidar com números muito grandes, podemos usar logaritmos. Esse método simplifica a multiplicação em adição e torna os cálculos mais fáceis de gerenciar. Aqui, primeiro pegamos o logaritmo de cada número, calculamos a média aritmética desses logaritmos e, em seguida, pegamos o antilogaritmo (exponencial) dessa média. Vamos usar o mesmo exemplo acima.
- Use logaritmos (base 10): log(2) ≈ 0,3010, log(4) ≈ 0,6021, log(8) ≈ 0,9031
- Calcule a média aritmética: (0.3010 + 0.6021 + 0.9031) / 3 ≈ 0.6021
- Pegue o antilog: (10^x) = 10^0.6021 ≈ 4
Esse método nos dá o mesmo resultado que o método de cálculo direto. Você pode usar logaritmos de qualquer base (como logaritmos naturais com base e), desde que use a mesma base em todo o cálculo. A média geométrica final será a mesma.
Média geométrica em ciência de dados e aprendizado de máquina
A média geométrica é uma medida estatística útil com várias aplicações importantes em ciência de dados e aprendizado de máquina. Aqui estão três casos de uso importantes em que a média geométrica se mostra valiosa.
Taxas de crescimento e análise de séries temporais
Na ciência de dados, geralmente analisamos as taxas de crescimento ao longo do tempo, como na dinâmica populacional, nas tendências de mercado ou nas taxas de adoção de usuários. A média geométrica é ideal para essas situações porque captura com precisão a natureza composta do crescimento. Ao contrário da média aritmética, que simplesmente calcula a média das taxas sem considerar como o crescimento de cada ano se baseia no último, a média geométrica leva em conta esse efeito de composição.
Imagine que você está analisando a taxa de crescimento anual da base de usuários de uma startup ao longo de cinco anos: 20%, 15%, 25%, 10% e 30%. Embora a média aritmética (20%) possa parecer uma solução rápida, ela não leva em conta o efeito de composição. A média geométrica ((1,20 * 1,15 * 1,25 * 1,10 * 1,30)^(1/5) - 1 ≈ 19,77%) fornece uma taxa de crescimento média mais precisa que, se aplicada consistentemente a cada ano, resultaria no mesmo valor final que as taxas de crescimento variadas reais.
Análise estatística de dados enviesados
Na ciência de dados, geralmente lidamos com conjuntos de dados que são positivamente distorcidos devido a processos multiplicativos, como níveis de renda, medições biológicas ou determinados indicadores financeiros. Nesses casos, o uso da média aritmética pode ser enganoso, pois ela é sensível a valores extremos (outliers), que podem distorcer a representação da tendência central.
A média geométrica é particularmente útil ao lidar com dados que seguem uma distribuição log-normal. Aqui está o motivo:
- Minimiza a influência de valores discrepantes: A média geométrica reduz o impacto de valores extremamente altos ou baixos, fornecendo um valor central mais representativo para dados distorcidos.
- Lida com relacionamentos multiplicativos: É apropriado para dados em que os valores são combinados de forma multiplicativa em vez de aditiva.
Considere um conjunto de dados de renda familiar em uma região onde a maioria das famílias ganha entre US$ 30.000 e US$ 60.000, mas algumas ganham mais de US$ 1 milhão.
- Renda média aritmética: Isso será muito influenciado pelos valores atípicos de alta renda, o que pode sugerir uma renda média muito maior do que a que a maioria das pessoas ganha.
- Renda média geométrica: Isso fornece um valor central que reflete a renda típica com mais precisão, minimizando a influência dos valores extremos.
Ao usar a média geométrica nesses casos, os cientistas de dados podem obter uma medida mais precisa da tendência central, o que leva a melhores percepções e análises mais confiáveis. Isso faz com que a média geométrica seja uma ferramenta essencial ao trabalhar com distribuições de dados distorcidas em vários campos.
Métricas de avaliação para conjuntos de dados desequilibrados
Em tarefas de classificação, frequentemente encontramos conjuntos de dados desequilibrados, nos quais alguns grupos são representados por um número muito maior de exemplos do que outros. Nesses casos, as métricas de avaliação tradicionais, como a precisão, podem ser enganosas. É nesse ponto que a pontuação média geométrica, ou média G, torna-se uma ferramenta valiosa.
O G-Mean é a raiz do produto da sensibilidade por classe (recall). Para classificação binária, é a raiz quadrada do produto da sensibilidade e da especificidade. Para problemas de várias classes, é uma raiz superior do produto da sensibilidade de cada classe.
O G-Mean visa equilibrar a precisão em todas as classes, o que o torna particularmente útil para conjuntos de dados desequilibrados. No entanto, é importante observar que o G-Mean é indefinido quando qualquer classe tem sensibilidade zero, limitando sua aplicabilidade em cenários de desequilíbrio extremo. Na prática, versões modificadas ou métricas alternativas podem ser usadas para resolver essa limitação.
Para saber mais sobre como a média geométrica e outras medidas estatísticas são aplicadas no aprendizado de máquina, considere explorar nossa carreira de Cientista de Aprendizado de Máquina com Python, que oferece aulas aprofundadas que abrangem conceitos e técnicas essenciais de aprendizado de máquina, com insights práticos e experiência prática.
Torne-se um cientista de ML
Média geométrica vs. Outros meios
Ao analisar dados, o tipo de média que você escolher afetará a representação e a interpretação dos resultados. A média aritmética, a média geométrica e a média harmônica são três tipos diferentes de médias, cada uma adequada a tipos específicos de dados e contextos. Entender as diferenças entre elas ajuda você a selecionar a medida certa para o seu conjunto de dados.
Média geométrica vs. média aritmética
A média aritmética é a média mais comumente usada e é calculada pela soma de todos os números em um conjunto de dados e dividida pelo número de números. Ele é mais adequado para processos aditivos em que os valores são combinados por meio de adição. Ele é apropriado para conjuntos de dados que não contêm outliers extremos ou distribuições distorcidas. Essa média é comumente usada no cálculo de pontuações médias, temperaturas e outras quantidades em que os valores são somados para formar um total.
Por outro lado, a média geométrica é ideal para processos multiplicativos em que os valores são inter-relacionados multiplicativamente. Ele é adequado para analisar taxas de crescimento, porcentagens e índices. A média geométrica é usada com frequência em cálculos financeiros, como taxas médias de retorno, taxas de crescimento biológico e cenários que envolvem composição, pois ela considera com precisão os efeitos do crescimento ou decaimento exponencial.
Média geométrica vs. média harmônica
A média harmônica é calculada como o recíproco da média aritmética dos recíprocos dos valores dos dados. É especialmente útil ao lidar com dados que são taxas ou proporções e quando valores menores precisam de mais ênfase. A média harmônica é melhor aplicada em situações em que os pontos de dados são definidos em relação a alguma unidade (como tempo ou distância) e você deseja encontrar uma taxa média.
Por exemplo, a média harmônica é ideal para calcular velocidades médias ao percorrer a mesma distância em velocidades diferentes. Como o tempo varia inversamente com a velocidade, a média harmônica considera com precisão o tempo gasto em cada velocidade, fornecendo uma média real. Ele enfatiza a influência dos valores mais baixos, garantindo que as velocidades mais lentas (que levam mais tempo) tenham um impacto maior na velocidade média geral.
Por outro lado, enquanto a média geométrica lida com relações multiplicativas e é adequada para taxas de crescimento e mudanças proporcionais, a média harmônica se concentra em taxas e proporções em que a relação recíproca é fundamental.
O que você deve considerar com a média geométrica
Ao decidir se você deve usar a média geométrica para analisar dados, é importante entender suas vantagens e possíveis limitações. A média geométrica é uma ferramenta poderosa para determinados tipos de dados, mas pode não ser apropriada em todas as situações.
Vantagens da média geométrica
- Melhor para conjuntos de dados multiplicativos: A média geométrica é ideal para dados que envolvem processos multiplicativos, como taxas de crescimento, porcentagens, proporções e índices. Ele capta com precisão o efeito composto das mudanças ao longo do tempo ou em diferentes fatores.
- Reduz o impacto dos valores atípicos: Em comparação com a média aritmética, a média geométrica reduz a influência de valores extremamente grandes (outliers) em um conjunto de dados. Isso o torna uma medida melhor de tendência central para distribuições de dados distorcidos, especialmente quando os dados são positivamente distorcidos devido a alguns valores grandes.
Limitações da média geométrica
- Não é possível lidar com números negativos ou valores zero: A média geométrica só é definida para números reais positivos. Ele não pode ser calculado se qualquer valor no conjunto de dados for zero ou negativo, pois envolve a obtenção de raízes do produto dos valores, e o logaritmo de zero ou de um número negativo é indefinido no sistema de números reais.
- Pode não ser intuitivo para todos os conjuntos de dados: Em alguns contextos, a média geométrica pode não fornecer uma medida de tendência central facilmente interpretável, especialmente para conjuntos de dados que não envolvem relações multiplicativas. Para processos aditivos ou dados em que os valores são combinados por meio de adição, a média aritmética pode ser mais intuitiva e apropriada.
Sensibilidade a valores extremos
Para entender como a média geométrica lida com exceções de forma diferente da média aritmética, vamos comparar dois conjuntos de dados de retorno de investimento ao longo de cinco anos: Conjunto A com retornos de 5%, 7%, 9%, 6% e 8%, e Conjunto B com um retorno extremo de 50% no último ano.
- Média aritmética
- Conjunto A: Retorno médio de 7%.
- Conjunto B: O alto retorno de 50% aumenta a média para 15,4%, demonstrando como as médias aritméticas são facilmente distorcidas por valores discrepantes.
- Média geométrica
- Conjunto A: Taxa média de crescimento de 6,83%.
- Conjunto B: O retorno extremo eleva a média de forma mais moderada para 14,84%, mostrando a capacidade da média geométrica de equilibrar valores extremos ao enfatizar o crescimento consistente.
Pode parecer pouco, mas, na análise financeira, essa diferença é grande. Ao contrário da média aritmética, que pode exagerar as médias quando há valores discrepantes, a média geométrica fornece uma taxa de crescimento equilibrada que respeita os efeitos de composição.
Conclusão: Por que a média geométrica é importante
Espero que, depois de ler isso, você tenha uma apreciação da média geométrica, que é especialmente valiosa em campos que lidam com relações multiplicativas e efeitos de composição. Como você viu, ela pode representar com precisão a tendência central em cenários que envolvem taxas, proporções e crescimento exponencial, e esse recurso a distingue da média aritmética. Isso o torna importante em finanças, ao calcular retornos de investimentos, em biologia, ao considerar a análise de crescimento populacional, e em ciência de dados de forma mais geral, sempre que precisamos lidar com conjuntos de dados distorcidos e avaliar modelos de aprendizado de máquina em dados desequilibrados.
Inscreva-se em nosso curso de carreira de Cientista de Aprendizado de Máquina com Python para continuar aprendendo e conseguir um cargo nas empolgantes áreas de ciência de dados e aprendizado de máquina.
Como um profissional experiente em ciência de dados, machine learning e IA generativa, Vinod se dedica a compartilhar conhecimento e capacitar aspirantes a cientistas de dados para que tenham sucesso nesse campo dinâmico.
Perguntas frequentes sobre a média geométrica
Qual é a definição mais simples de média geométrica?
A média geométrica é a raiz n-ésima do produto de n números.
Qual é a diferença entre a média geométrica e a média aritmética?
Enquanto a média aritmética é calculada pela adição de números e divisão pela contagem, a média geométrica é calculada pela multiplicação de números e pela raiz n-ésima.
Quando devo usar a média geométrica em vez da média aritmética?
Use a média geométrica ao lidar com proporções, porcentagens ou taxas de crescimento, especialmente em vários períodos. É particularmente útil para conjuntos de dados com crescimento ou decaimento exponencial.
A média geométrica pode ser usada com números negativos?
Não, a média geométrica só é definida para números reais positivos. Ele não pode ser calculado se qualquer valor no conjunto de dados for zero ou negativo, pois envolve a extração de raízes do produto dos valores.
Qual é a relação entre a média geométrica e os logaritmos?
A média geométrica pode ser calculada usando logaritmos, o que é especialmente útil para grandes conjuntos de dados ou ao lidar com números muito grandes. Ao obter o logaritmo de cada número, calcular sua média aritmética e, em seguida, obter o antilogaritmo do resultado, você pode obter a média geométrica.
Como a média geométrica lida com os outliers em comparação com a média aritmética?
A média geométrica é menos sensível a valores extremos ou discrepantes do que a média aritmética. Ele tende a atenuar o efeito de valores muito grandes, tornando-o uma medida mais robusta de tendência central para distribuições de dados distorcidos, especialmente aqueles com distorção positiva.
Aprenda com a DataCamp
curso
Introduction to Data Visualization with ggplot2
curso
Introduction to Statistics
blog
ROI da ciência de dados: Como calcular e maximizar
blog
Guia de casos de uso de ciência de dados
blog
Como analisar dados para sua empresa em 5 etapas
tutorial
Entendendo a assimetria e a curtose e como traçá-las
tutorial
Teste de qui-quadrado em planilhas
Avinash Navlani
10 min
tutorial