curso
Media frente a Mediana: Conocer la diferencia
A la hora de interpretar los datos, elegir la medida correcta de tendencia central puede hacer o deshacer tu análisis. Entre las métricas más comunes están lamedia y la mediana , que son dos conceptos aparentemente sencillos pero que tienen profundas implicaciones en la interpretación de los datos. Mientras que la media nos da la media aritmética, la mediana es el punto central de un conjunto ordenado de valores, de forma que la mitad de las observaciones se encuentran a ambos lados. Pero, ¿cuál es más fiable? La respuesta suele depender de la distribución de tus datos, la presencia de valores atípicos y la historia que intentas contar.
En este artículo, desglosaré las diferencias entre la media y la mediana, sus puntos fuertes y débiles, y cómo elegir la correcta para distintos escenarios. También analizaré cómo afectan a estas medidas las distribuciones sesgadas y los valores atípicos, proporcionando ejemplos prácticos y visuales para ayudarte a comprender estos conceptos fundamentales. También nos adentraremos en ideas más avanzadas.
Definiciones de media y mediana
Para comprender bien las diferencias entre la media y la mediana, veamos cada una de estas medidas y destaquemos sus propiedades clave.
¿Cuál es la media?
La media puede considerarse como el "punto de equilibrio" (o centro de masa) de los datos. Es considera todos los puntos de datos de un conjunto de datos y proporciona un único valor que representa la media. Más exactamente, ta media se calcula sumando todos los valores de un conjunto de datos y dividiéndolos por el número de valores.
¿Qué es la mediana?
La mediana es el valor medio cuando se ordenan los datos. A diferencia de la media, es más robusta frente a los valores atípicos, proporcionando una mejor medida de la tendencia central para los datos sesgados.
¿Y el modo?
La moda es otra medida de tendencia central, que representa el valor que aparece con más frecuencia en un conjunto de datos. Por ejemplo, en esta serie:
1, 3, 3, 6, 8, 9
el modo es 3 porque aparece dos veces.
Cómo calcular la media y la mediana
Leer una definición es una cosa, pero calcularla es otra. En esta sección, desglosaré los pasos para calcular cada medida y destacaré sus diferencias computacionales.
Cómo hallar la media
La media es la media aritmética de un conjunto de datos y se calcula del siguiente modo:
- Suma los valores: Suma todos los números de tu conjunto de datos.
- Divídelo por el Número Total de Valores: Toma la suma total y divídela por el recuento de valores.
He aquí el proceso representado como una ecuación general:
Cómo encontrar la media. Imagen del autor
Como ejemplo, considera un conjunto de datos de calificaciones de exámenes:
78, 85, 92, 88, 70
- Paso 1 (Suma): 78 + 85 + 92 + 88 + 70 = 413
- Paso 2 (Dividir): 413 ÷ 5 = 82.6
La puntuación media es 82.6.
Cómo hallar la mediana
La mediana es el valor medio de un conjunto de datos ordenados de forma ascendente. He aquí cómo encontrarlo:
- Ordena los Datos: Ordena los valores de menor a mayor.
- Identifica el Valor Medio: Si el conjunto de datos contiene un número impar de valores, la mediana es el valor del medio; si el conjunto de datos contiene un número par de valores, la mediana es la media de los dos valores del medio.
Y aquí están esos pasos representados como ecuaciones:
Fórmula de la mediana. Imagen del autor
También creé un elemento visual para resaltar el proceso.
Cómo hallar la mediana. Imagen del autor
Aquí tienes un conjunto de datos de ejemplo con un número impar de valores:
70, 78, 85, 88, 92
- Paso 1 (Clasificar): Ya está solucionado.
- Paso 2 (Valor medio): El tercer valor es 85.
La mediana es de 85.
Aquí tienes otro ejemplo, pero con un número par de valores:
70, 78, 85, 88
- Paso 1 (Clasificar): Ya está solucionado.
- Paso 2 (Media de los valores medios): (78 + 85) ÷ 2 = 81.5
La mediana es 81.5.
Por qué es importante la diferencia: Valores atípicos y sesgo
Mientras que tanto la media como la mediana describen el centro de un conjunto de datos, su comportamiento diverge significativamente en presencia de outiers y distribuciones sesgadas. Comprender esta diferencia es muy importante para interpretar con precisión los datos y evitar conclusiones erróneas.
Impacto de los valores atípicos
Los valores atípicos son valores significativamente superiores o inferiores al resto de los datos. Pueden influir mucho en la media, pero tienen poco o ningún efecto en la mediana.
Consideremos un conjunto de datos de ingresos mensuales (en miles):
3, 3.5, 4, 4.5, 5, 6, 50
La renta media aquí es de 10.85kmuy sesgada por el valor extremo de 50k.
Por otra parte, el valor mediano es de 4.5kque es, en mi opinión, una representación mucho más típica de los ingresos de este grupo.
Distribuciones asimétricas
La media y la mediana también difieren en su representación de datos en distribuciones sesgadas (conjuntos de datos que no son simétricos).
Por ejemplon las distribuciones sesgadas a la derecha (por ejemplo, la renta o el precio de la vivienda), la mayoría de los valores se agrupan en el extremo inferior, con unos pocos valores extremos que tiran de la cola hacia la derecha.
- Media: Se desplaza hacia la cola, dando lugar a un valor superior a la mediana.
- Mediana: Permanece más cerca del grupo de valores típicos, reflejando mejor el caso "típico".
Ten en cuenta los ingresos:
30k, 35k, 40k, 45k, 50k, 100k, 200k
- Media: 71,4k (tirado al alza por 100k y 200k).
- Mediana: 45k (más cercano a la mayoría de los ingresos).
Por qué es importante
- En datos sesgados: La mediana suele ser más representativa de un punto de datos "típico" porque no se ve arrastrada por los valores extremos.
- En datos simétricos: La media y la mediana serán casi idénticas, por lo que cualquiera de ellas puede utilizarse como medida de tendencia central.
Una cosa que debes sacar de esto es que es importante examinar siempre la distribución de tus datos antes de decidir si utilizas la media o la mediana. Herramientas como los histogramas y los gráficos de caja pueden ayudar a visualizar la asimetría y a identificar los valores atípicos. Los trataremos más adelante. Además, quiero decir que examinar la diferencia entre la media y la mediana es una forma de evaluar la asimetría.
Elegir la Media o la Mediana en Diferentes Escenarios
Al analizar los datos, decidir si utilizar la media o la mediana depende de las características de tu conjunto de datos y de los conocimientos que intentas extraer. A continuación encontrarás una tabla de referencia rápida para orientarte en tu elección:
Utiliza la media cuando | Utiliza la mediana cuando |
---|---|
La distribución de los datos es aproximadamente normal (simétrica). | Los datos están muy sesgados (por ejemplo, ingresos, valor de la propiedad). |
Los valores atípicos son mínimos o irrelevantes para el análisis. | Los valores atípicos están presentes y podrían distorsionar los resultados si se incluyeran. |
Necesitas una medida que sea sensible a cada punto de datos, como en el modelado predictivo o al calcular totales. | Quieres reflejar el valor "típico" en lugar del "centro matemático" del conjunto de datos. |
Aquí tienes un consejo práctico que te ayudará mucho: Empieza siempre con un análisis visual de tus datos (por ejemplo, un histograma o un diagrama de cajas) para comprobar la simetría, la asimetría y la presencia de valores atípicos. Esto te ayudará a decidir si la media o la mediana se ajustan mejor a tu situación.
Visualizar la media frente a la media Mediana
Las visualizaciones son potentes herramientas para comprender el comportamiento de la media y la mediana en distintos conjuntos de datos. Pueden demostrar claramente cómo responden estas medidas a los valores atípicos y a las distribuciones sesgadas, ayudando a tomar mejores decisiones basadas en los datos.
ejemplo de diagrama de barras
Imagina un pequeño conjunto de datos de ingresos en miles:
30, 35, 40, 45, 50, 55, 1000
El siguiente gráfico de barras demuestra cómo un único valor extremo puede afectar drásticamente a la media, mientras que deja la mediana relativamente estable. En este caso, la mayoría de los puntos de datos se agrupan entre 30 y 55, pero la presencia de un valor atípico (1000) tira de la media hacia arriba.
Gráfico de barras que muestra el efecto de un valor atípico en la media frente a la mediana. Imagen del autor
ejemplo de histograma
En una distribución sesgada a la derecha (como los ingresos o los precios de la vivienda), la media suele desplazarse hacia la larga cola de valores altos, mientras que la mediana permanece más cerca del punto de datos "típico". Esto hace que la mediana sea una mejor medida de la tendencia central en estos casos.
El histograma siguiente muestra una distribución de ingresos simulada en la que la media (línea discontinua roja) es significativamente mayor que la mediana (línea discontinua verde) debido a la asimetría.
Histograma que muestra una distribución sesgada a la derecha. Imagen del autor
Puedes observar cómo la desviación a la derecha estira la cola, creando una clara diferencia entre la media y la mediana.
ejemplo de diagrama de caja
Un diagrama de cajas es una forma excelente de visualizar el impacto de los valores atípicos en la mediana. A continuación, comparamos dos grupos: uno con valores atípicos y otro sin ellos. La mediana (línea vertical dentro del recuadro) permanece estable incluso con la presencia de valores extremos, pero el rango general de los datos se ve muy afectado por el valor atípico.
Diagrama de cajas que muestra el efecto de los valores atípicos sobre la mediana. Imagen del autor
Estas visualizaciones destacan cómo responden la media y la mediana a las diferentes características de los datos, proporcionando claridad sobre cuándo utilizar cada medida. Ya sea analizando datos sesgados, conjuntos de datos con valores atípicos o comparando grupos, las ayudas visuales como éstas pueden hacer que las relaciones complejas sean mucho más fáciles de comprender.
Algunas ideas más avanzadas
Veamos ahora algunas ideas más avanzadas, si tienes curiosidad por saber más.
Imputación media frente a mediana
Ahora bien, si eres un científico de datos y necesitas rellenar lagunas en tus datos, puede que tengas que elegir un método de imputación. Puede que ahora te estés preguntando, ¿cuál es la diferencia práctica entre la imputación de la media y la de la mediana?
Como puedes suponer, la imputación media sustituye los valores perdidos por la media de los datos disponibles, que, como hemos dicho, pueden estar sesgados por valores extremos. La imputación de la mediana, en cambio, sustituye los valores perdidos por el valor medio del conjunto de datos.
Una regla práctica útil es observar la distribución de tus datos. Si la distribución de tus datos fuera sesgada, con muchos valores perdidos, y hubieras utilizado la imputación de medias, ¡podrías haber alterado la distribución de tus datos!
Media frente a mediana: ¿paramétrica o no paramétrica?
En muchos métodos paramétricos, la media (y la varianza) son parámetros centrales. Por ejemplo, un modelo de regresión lineal simple supone que los errores se distribuyen normalmente en torno a una media. Cuando tus datos cumplen el supuesto de normalidad, la media muestral es un estimador natural y se ajusta bien a los marcos paramétricos.
Ahora bien, la mediana tiene una orientación no paramétrica, y en realidad probablemente diría que es la medida no paramétrica por excelencia de la tendencia central. Muchas pruebas basadas en rangos, como la de Mann-Whitney, comparan efectivamente medianas (o distribuciones) en lugar de medias. Por tanto, si tus datos muestran una fuerte asimetría o contienen valores atípicos, centrarte en la mediana se ajusta de forma más natural a la estadística no paramétrica.
Todo esto quiere decir que comprender la distinción entre la media y la mediana no sólo sirve para describir correctamente los datos, sino que también es importante en la comprobación de hipótesis.
Prueba de estabilidad media frente a mediana
Al decidir si utilizar una media o una mediana, una cuestión clave es lo estables que son nuestras estadísticas para un conjunto de datos determinado. El bootstrapping es una opción que nos permitiría estimar empíricamente la distribución muestral tanto de la media como de la mediana volviendo a muestrear repetidamente (con reemplazo) a partir de los datos originales.
Podrías poner de relieve empíricamente las diferencias entre la estabilidad media y la mediana. Podrías introducir unos cuantos valores atípicos en un conjunto de datos y luego volver a ejecutar un procedimiento bootstrap, lo que te permitiría mostrar visualmente cómo la distribución de la media se desplaza más drásticamente que la de la mediana. Además, el bootstrapping puede concretarlo mostrando lo grandes o pequeños que pueden ser tus intervalos de confianza en escenarios realistas. Lee nuestro tutorial sobre la aplicación de métodos bootstrap para saber más.
Media vs. mediana como problemas de optimización
Permíteme ofrecer ahora una definición alternativa pero igualmente cierta: La media es el valor que minimiza la suma de las desviaciones al cuadrado de los datos, mientras que la mediana es el valor que minimiza la suma de las desviaciones absolutas.
Echa un vistazo a esta ecuación:
Si tomas la derivada de esta ecuación respecto a mponla a cero y resuelve, verás que el valor minimizador es simplemente la media aritmética. Esto es importante porque en muchos métodos estadísticos, como la regresión ols, minimizamos los errores al cuadrado por comodidad matemática y para ajustarnos a los supuestos de errores distribuidos normalmente.
Considera ahora una idea diferente: En lugar de elevar al cuadrado cada desviación, medimos el errorabsoluto entre m y cada punto de datos:
Aquí queremos encontrar m que minimice esta desviación absoluta total. Resulta (analizando la derivada de la pérdida absoluta, o mediante un argumento geométrico) que la solución es lamediana del conjunto de datos.
Intuitivamente, si m está a la izquierda de la mediana, hay más puntos de datos a la derecha tirando de ella para desplazarse. Sólo en la mediana se equilibra la atracción de la izquierda y la derecha, minimizando la distancia absoluta total.
Complejidad computacional media frente a mediana
Por último, diré que la media es computacionalmente más sencilla a escala. Esto significa que puedes calcularlo de forma incremental a medida que entran los datos, sin necesidad de ordenarlos.
La mediana a menudo requiere clasificación. Ordenar un gran conjunto de datos puede ser costoso desde el punto de vista informático, especialmente con millones de valores. Para conjuntos de datos muy grandes, se pueden utilizar algoritmos aproximados (como los algoritmos basados en flujos o cuantiles) para estimar la mediana de forma más eficiente. Nuestro nuevo curso Conceptos de Informática es un gran recurso para aprender estas cosas.
Próximos pasos
Como has visto, la media es la media aritmética de un conjunto de datos, lo que la hace sensible a los valores extremos, mientras que la mediana representa el valor medio en un conjunto de datos ordenados. La elección correcta puede marcar la diferencia pero, dicho esto, en los análisis del mundo real, a menudo es mejor informar de la media y la mediana junto con estadísticas adicionales como la moda, la desviación típica y los percentiles. Es la mejor manera, porque proporciona una imagen completa.
Si tienes ganas de profundizar en los conceptos estadísticos, hay varias áreas en las que merece la pena centrarse. Empieza leyendo sobre variaciones más avanzadas de la media, como la media recortada, la media geométrica y la media ponderada, que tienen cada una su propósito. También tomaría nuestro curso de Introducción a la Estadística, agnóstico desde el punto de vista tecnológico.
Luego, para convertirte realmente en un experto, querrás elegir y dominar una herramienta. Nuestro curso Introducción a la Estadística en R y la carrera de Estadístico en R son dos puntos de partida muy informativos si quieres utilizar R, que es un lenguaje popular para la ciencia de datos y la estadística. Si prefieres trabajar con hojas de cálculo y un lenguaje de programación como Python, nuestro curso Introducción a la Estadística en Google Sheets e Introducción a la Estadística en Python proporciona un enfoque práctico del análisis estadístico mediante fórmulas y potentes bibliotecas.
Escritora y profesional de los datos con experiencia a la que le apasiona capacitar a los aspirantes a expertos en el espacio de los datos.
Media frente a Preguntas frecuentes sobre la mediana
¿Cuál es la principal diferencia entre la media y la mediana?
La media es la media aritmética de todos los puntos de datos, mientras que la mediana es el valor medio cuando se ordenan los datos.
¿Cuándo debo utilizar la mediana en lugar de la media?
Utiliza la mediana cuando tus datos estén sesgados o contengan valores atípicos que puedan distorsionar la media.
¿Pueden coincidir la media y la mediana?
Sí, pueden ser iguales en una distribución perfectamente simétrica, como una distribución normal.
¿Hay situaciones en las que ni la media ni la mediana son suficientes?
Sí, para distribuciones multimodales o conjuntos de datos con múltiples picos, ninguno de los dos puede ser representativo. En tales casos, medidas adicionales como la moda o los percentiles podrían ser más apropiadas.
¿Por qué la media se ve más afectada por los valores atípicos que la mediana?
Para responder a esta pregunta, considera cómo se calcula la media: La media es la suma de todos los valores de los datos dividida por el número de observaciones. Un valor atípico (un valor extremadamente alto o bajo) influye mucho en esa suma, alejando la media de lo que podría considerarse un valor típico.
Considera ahora cómo se calcula la mediana: La mediana es el valor medio de un conjunto de datos ordenados. Sólo depende de la ordenación de los datos, no de lo grandes o pequeños que sean los puntos individuales. Un único valor atípico no desplaza la posición del valor medio en la lista ordenada y, por tanto, apenas afecta a la mediana.
¿Cómo se te ocurre elegir entre la media y la mediana?
Veamos algunas consideraciones clave:
- Cuando la precisión es fundamental: La media tiene en cuenta todos los puntos de datos, por lo que es ideal para cálculos que requieren todos los valores (por ejemplo, el consumo medio de combustible de todos los vehículos).
- Cuando se necesita robustez: La mediana ofrece más fiabilidad en conjuntos de datos sesgados o cuando los valores extremos pueden distorsionar la media. Por ejemplo, a menudo se prefiere la mediana a la hora de informar sobre los ingresos de los hogares para evitar tergiversaciones debidas a unos pocos que ganan mucho.
Aprende con DataCamp
curso
Trend Analysis in Power BI
curso
Exploratory Data Analysis in R

blog
¿Qué es el análisis de datos? Una guía experta con ejemplos
blog
Cómo analizar datos para tu empresa en 5 pasos

blog
11 técnicas de visualización de datos para cada caso de uso con ejemplos
blog
Intervalos de confianza frente a intervalos de predicción: Comprender la diferencia

Arun Nanda
25 min
blog
Análisis deportivo: Cómo utilizan el análisis de datos los distintos deportes
tutorial