Course
¿Qué es un histograma de frecuencias? Guía completa para principiantes
Los histogramas se utilizan habitualmente en el análisis de datos para representar gráficamente la distribución de un conjunto de datos. Nos permiten visualizar cómo se distribuyen los datos en diferentes valores, y ayudan a descubrir patrones, tendencias y anomalías.
Este artículo presenta los histogramas de frecuencias y te ayuda a crear uno paso a paso. También aprenderemos sobre los distintos tipos de histogramas, algunas tecnologías populares para crearlos, errores comunes que hay que evitar y las prácticas recomendadas.
¿Qué es un histograma de frecuencias?
Un histograma de frecuencias es una representación gráfica de la distribución de un conjunto de datos. Un histograma se construye a partir de una serie de bins, esencialmente intervalos que cubren el intervalo de los datos. Cada bin tiene una frecuencia, el número de puntos de datos de ese intervalo. Los bins se representan en el eje horizontal, mientras que las frecuencias se representan en el eje vertical, lo que da lugar a una representación similar a un diagrama de barras. La altura de cada barra corresponde a la frecuencia de los puntos de datos de ese bin.
Los histogramas son habituales porque sirven para varios fines críticos en el análisis de datos:
- Resumir grandes conjuntos de datos: Cuando tratamos con grandes volúmenes de datos, los histogramas proporcionan un resumen claro y conciso, que nos permite captar rápidamente la distribución global sin perdernos en los puntos de datos individuales.
- Detectar valores atípicos: Los histogramas visualizan la distribución de los datos y facilitan la detección de valores atípicos (puntos de datos que se desvían significativamente del resto de los datos). Estos valores atípicos pueden indicar errores, anomalías o fenómenos significativos que merece la pena investigar más a fondo.
- Comprender los patrones de distribución de datos: Los histogramas ayudan a identificar patrones como la asimetría estadística (asimetría de la distribución de los datos), la moda (el número de picos de la distribución) y la dispersión (el intervalo de los datos). Esta comprensión es crucial para los modelos probabilísticos, ya que da forma a la elección de modelos y supuestos.
- Análisis comparativo: Los histogramas también son útiles para comparar distintos conjuntos de datos. Trazando histogramas uno al lado del otro, podemos comparar visualmente sus distribuciones, lo que revela similitudes y diferencias que pueden no ser evidentes a partir de los datos brutos por sí solos.
Ya que hemos comprendido los histogramas de frecuencias y su finalidad en el análisis de datos, vamos a aprender a crear uno utilizando un ejemplo.
Cómo crear un histograma de frecuencias
Piensa en una situación en la que tú, como analista de datos, tienes la tarea de analizar los datos de ventas diarias de una tienda durante el último mes.
Tu objetivo es comprender la distribución de las ventas diarias para identificar patrones, evaluar el rendimiento y proporcionar información que ayude en la gestión del inventario y las estrategias de ventas. Como parte del análisis, has decidido que un histograma puede ayudar a obtener información.
Estos son los pasos que podrías seguir para crear tu histograma de frecuencias:
Paso 1: Recopila tu conjunto de datos
Supongamos que te has conectado con el equipo de datos de tu organización y has recuperado los datos de las bases de datos de ventas de tu organización. Has organizado los datos en formato tabular como se indica a continuación:
Conjunto de datos de ventas. Imagen del autor.
Paso 2: Determina los bins
A continuación, elige los bins adecuados en función del intervalo y la distribución de los datos.
Tras analizar los datos, te das cuenta de que el valor menor es 20, el mayor es 135 y tienes 30 observaciones. Utilizando la regla de la raíz cuadrada (aprenderemos más sobre este tema más adelante), √30 ≈ 5,5, podrías utilizar seis bins. Debemos dividir el intervalo de 115 en 6 bins, lo que lleva a una anchura de bin de aproximadamente 19 unidades.
Para simplificar, vamos a utilizar bins de 20 unidades de anchura:
- 20-39
- 40-59
- 60-79
- 80-99
- 100-119
- 120-139
Paso 3: Calcula las frecuencias en cada bin
Contemos el número de observaciones de cada intervalo y tabulémoslas como se muestra a continuación:
Cálculo de frecuencias en cada bin. Imagen del autor.
Paso 4: Traza el histograma
Dibuja una línea horizontal (eje X) para los bins y una línea vertical (eje Y) para las frecuencias. Para cada bin, dibuja una barra cuya altura corresponda a la frecuencia.
Tu histograma debería tener un aspecto parecido a este:
Trazado del histograma. Imagen del autor.
Paso 5: Etiqueta y aplica formato
Etiqueta el eje X como "Units Sold" y el eje Y como "Frequency". Añade un título como "Histogram of Daily Sales Data". Asegúrate de que las barras estén espaciadas uniformemente y sean distintas para una visualización clara.
El diagrama completo debe tener este aspecto:
Etiquetado y aplicación de formato del histograma. Imagen del autor.
Eso es. Has creado el histograma de frecuencias para tu análisis.
Diferentes tipos de histogramas de frecuencias
Hay diferentes tipos de histogramas de frecuencias, cada uno de los cuales ofrece ligeras variaciones en la forma de representar los datos.
- Histograma de frecuencias: Un histograma de frecuencias tradicional muestra las frecuencias absolutas de los puntos de datos dentro de bins especificados. Como hemos vimos, ayuda a comprender la distribución y la concentración de los puntos de datos y es también el tipo de histograma más utilizado.
- Histograma de frecuencias relativas: Un histograma de frecuencias relativas muestra las frecuencias relativas (proporciones) de puntos de datos dentro de bins especificados, en lugar de mostrar el número absoluto de puntos de datos de cada bin. Este tipo de histograma es especialmente útil para comparar diferentes conjuntos de datos, porque normaliza los datos, lo que facilita la comparación de distribuciones con recuentos totales diferentes.
- Histograma de frecuencias acumuladas: Un histograma de frecuencias acumuladas muestra los totales acumulados, lo que ayuda a comprender cómo se acumulan las frecuencias a lo largo del intervalo de datos. Es útil para identificar percentiles y comprender el impacto acumulativo.
Estas variaciones del histograma te permiten descubrir distintos datos en función de las situaciones que encuentres en tus proyectos de análisis; por eso, conocer la existencia de estos tipos puede ser útil.
Tecnologías adecuadas para crear histogramas de frecuencias
Aunque hemos aprendido a crear histogramas manualmente, puedes hacerlo con diferentes herramientas y tecnologías, cada una con características y capacidades diferentes.
Aquí tienes algunas tecnologías populares para crear histogramas:
- Microsoft Excel u Hojas de cálculo de Google: Microsoft Excel es una aplicación de hoja de cálculo muy utilizada con herramientas de gráficos integradas. Hojas de cálculo de Google es una aplicación de hoja de cálculo en la nube con capacidades de gráficos similares a las de Excel. Ambas herramientas se utilizan habitualmente en proyectos de análisis y ofrecen la posibilidad de crear histogramas. Puedes aprender a crear histogramas en nuestro tutorial Visualizar datos en Excel.
- PowerBI: PowerBI es una herramienta de inteligencia empresarial que permite a los usuarios visualizar datos y compartir información en toda la organización. Entre sus funciones de visualización se encuentran los histogramas. El curso Análisis exploratorio de datos con PowerBI puede ayudarte a aprender a crear histogramas de forma interactiva y a realizar otras tareas de análisis.
- Python: Python, un popular lenguaje de programación, ofrece varios paquetes de visualización, como matplotlib, seaborn, plotly y muchos más, que pueden crear histogramas. El curso Introducción a la ciencia de datos en Python profundiza en la creación de un histograma (y otras visualizaciones) de forma práctica.
- R: R es otro popular lenguaje de programación de ciencia de datos muy adecuado para crear histogramas debido a sus avanzadas capacidades de análisis de datos y a sus amplias bibliotecas de visualización, como ggplot2. Este tutorial de seis pasos en R te enseñará a crear histogramas.
- Tableau: Tableau es otro software de BI que ayuda a los usuarios a transformar los datos brutos en paneles interactivos compartibles, y puede utilizarse para crear histogramas. El curso Analizar datos en Tableau cubre el proceso detallado de creación de histogramas.
Por supuesto, esta lista no es exhaustiva, y existen muchas otras herramientas en línea para crear histogramas. Puedes utilizarlas y adoptar la herramienta que mejor se adapte a las necesidades de tu proyecto de análisis.
Errores comunes y prácticas recomendadas
Como los histogramas se perciben como uno de los diagramas básicos de análisis, nunca los aprendemos formalmente, lo que a menudo lleva a cometer errores al crearlos. He aquí algunos errores comunes y las prácticas recomendadas para evitarlos:
1. Elegir la anchura de los bins (y el número de bins)
Elegir anchuras de bin inadecuadas puede afectar significativamente al aspecto y la exactitud del histograma.
Los bins demasiado anchos pueden simplificar excesivamente los datos al agrupar demasiados puntos de datos, ocultando patrones y variaciones importantes de los datos. Esto dificulta ver los detalles y matices de la distribución.
Por otra parte, los bins estrechos significan que cada bin cubre un intervalo muy pequeño de valores de datos, lo que puede dar lugar a muchos bins con muy pocos puntos de datos en cada uno. Este nivel de detalle podría ser innecesario y abrumar con demasiada información, dificultando el descubrimiento de patrones o tendencias significativos en los datos.
Los tamaños de bin incoherentes darán lugar a una visualización engañosa y dificultarán la interpretación de los histogramas.
Prácticas recomendadas
En primer lugar, asegúrate de que todos los bins de tu histograma tengan la misma anchura. Esta coherencia permite comparar directamente las frecuencias en distintos intervalos.
Hay varias pautas que pueden ayudar a determinar la anchura adecuada de los bins (y el número de bins):
- Regla de la raíz cuadrada: Esta regla sugiere utilizar la raíz cuadrada del número de puntos de datos como número de bins. Por ejemplo, si tienes 100 puntos de datos, utilizarías √100 = 10 bins. Este método proporciona una forma sencilla y generalmente eficaz de decidir la anchura de los bins.
- Regla de Sturges: Esta regla calcula el número de bins teniendo en cuenta el número de puntos de datos. Este método es especialmente útil para conjuntos de datos grandes, ya que proporciona un equilibrio entre muy pocos bins y demasiados bins.
Regla de Sturges. Fuente: Wikipedia
En la práctica, la mejor anchura de bin se encuentra mediante un ajuste iterativo. Empieza con una anchura de bin basada en pautas y, a continuación, ajústala hacia arriba o hacia abajo evaluando el histograma resultante para ver si es claro e informativo.
2. Etiquetado y escalado
Un error frecuente es centrarse solo en el diagrama, y no tanto en las etiquetas y las escalas.
Las personas que vean el histograma pueden no entender lo que representa si los ejes están etiquetados de forma incorrecta o inadecuada.
Al comparar varios histogramas, una escala incoherente en el eje Y puede distorsionar la comparación. Supongamos que un histograma utiliza una escala de 0 a 100 en el eje Y y otro usa una escala de 0 a 50: las alturas de las barras no serán directamente comparables. Esta incoherencia puede llevar a pensar que algunas diferencias o similitudes significativas realmente no existen.
Una escala incoherente en un mismo histograma también puede tergiversar los datos. Si el eje Y empieza en un número distinto de cero o utiliza intervalos irregulares, puede exagerar o minimizar las diferencias entre las frecuencias de bins, lo que lleva a conclusiones incorrectas sobre la distribución de los datos.
Prácticas recomendadas
Etiqueta siempre el eje X y el eje Y con claridad y exactitud. Especifica lo que representa cada eje e incluye las unidades de medida si procede. Incluye un título descriptivo que proporcione contexto al histograma.
Utiliza una escala coherente para el eje Y, sobre todo cuando compares varios histogramas. Esto garantiza que la altura de las barras refleje con exactitud la frecuencia o la frecuencia relativa y permite realizar comparaciones significativas. Asegúrate de que el eje Y empiece en cero para ofrecer una representación real de la distribución de los datos. Si empezar en cero es poco práctico, indica claramente el punto de partida y utiliza intervalos coherentes.
3. Gestión de valores atípicos
Los valores atípicos son puntos de datos que quedan significativamente fuera del grupo principal de datos, lo que afecta a la forma de la distribución de los datos. Un error frecuente es limitarse a excluir e ignorar los valores atípicos.
Excluirlos puede ocultar la verdadera naturaleza de la distribución, como la presencia de una larga cola o una asimetría (asimetría estadística). Un conjunto de datos con unos cuantos valores extremadamente altos puede mostrar una distribución sesgada si se incluyen los valores atípicos, pero parecerá más simétrico si se eliminan.
Los valores atípicos a veces pueden representar fenómenos significativos o información importante. Por ejemplo, en los datos de ventas, un valor atípico podría representar una compra inusualmente grande que podría indicar el éxito de una campaña de marketing o un pedido masivo. Ignorar estos puntos puede significar pasar por alto información valiosa.
Prácticas recomendadas
Incluye los valores atípicos en el histograma para presentar una visión completa de la distribución de los datos. Asegúrate de que la escala del eje Y incluya estos valores atípicos sin comprimir demasiado los datos principales.
Si se excluyen los valores atípicos por razones específicas (p. ej., errores, valores extremos irrelevantes), explícalo claramente en el texto o la leyenda adjuntos. Esto garantiza la transparencia y ayuda a comprender la razón de su exclusión.
Seguir estas prácticas recomendadas garantiza que tu histograma transmita la información deseada y te ayuda con el análisis posterior de los datos en los proyectos de análisis.
Conclusión
Este artículo te ha presentado los histogramas de frecuencias, sus diferentes tipos y su importancia en el análisis de datos. Después de crear histogramas manualmente, hemos enumerado algunas herramientas y tecnologías populares que puedes utilizar para crear histogramas. También hemos aprendido algunos errores comunes que hay que evitar y las prácticas recomendadas que hay que seguir.
Te animamos a que pongas a prueba tus habilidades y crees e interpretes histogramas a partir de varios conjuntos de datos para adquirir destreza. Practicar tareas de análisis y analizar los resultados puede ayudarte a dominar el análisis de datos.
¡Feliz aprendizaje!
Preguntas frecuentes
¿Cómo determino el número adecuado de bins para mi histograma?
El número adecuado de bins puede determinarse utilizando pautas como la regla de la raíz cuadrada o la regla de Sturges. Ajusta el número de bins en función del contexto y el conjunto de datos para garantizar que el histograma no sea ni demasiado simple ni demasiado complejo.
¿Por qué debo utilizar anchuras de bin coherentes en mi histograma?
Unas anchuras de bin coherentes son cruciales porque garantizan una representación uniforme y exacta de la distribución de los datos. Las anchuras de bin incoherentes pueden distorsionar la representación, dificultando la comparación de frecuencias entre bins y pudiendo conducir a interpretaciones incorrectas de los datos.
¿Qué diferencia hay entre un histograma de frecuencias y un histograma de frecuencias relativas?
Un histograma de frecuencias muestra el número absoluto de puntos de datos en cada bin, mientras que un histograma de frecuencias relativas muestra la proporción de puntos de datos con relación al número total de puntos de datos. Los histogramas de frecuencias relativas son útiles para comparar distintos conjuntos de datos normalizando las frecuencias, lo que facilita la comparación de distribuciones con recuentos totales distintos.
¿Cómo puedo gestionar los valores atípicos de mi histograma?
Incluir los valores atípicos en tu histograma proporciona una visión completa de la distribución de los datos. Si se excluyen los valores atípicos, se pueden malinterpretar el intervalo y la variabilidad de los datos. Si decides excluir los valores atípicos por razones específicas, proporciona una explicación clara de su exclusión para garantizar la transparencia y la exhaustividad en la representación de los datos.
Aprende con DataCamp
Course
Introducción a R
Course
Introducción a Tableau
blog
¿Qué es el análisis de datos? Una guía experta con ejemplos
blog
11 técnicas de visualización de datos para cada caso de uso con ejemplos
tutorial
Histogramas en Matplotlib
tutorial
Cómo hacer un histograma en R básico: 6 pasos con ejemplos
Kevin Babitz
10 min
tutorial
Cómo hacer un histograma ggplot2 en R
Kevin Babitz
15 min
tutorial