curso
Distribución Gaussiana: Guía completa
Pocos conceptos son tan fundamentales y ampliamente aplicables en estadística y ciencia de datos como la distribución de Gauss. También conocida como distribución normal, este modelo matemático sustenta innumerables métodos estadísticos y técnicas de análisis de datos.
Esta completa guía desentraña el concepto de las distribuciones gaussianas, explorando sus propiedades, aplicaciones e importancia en el análisis moderno de datos. Examinaremos por qué son tan frecuentes en los fenómenos naturales y cómo se utilizan en diversos campos, desde las finanzas a la fabricación.
Si eres nuevo en estadística o quieres repasar los conceptos básicos, nuestro curso de Introducción a la Estadística proporciona una base excelente. Para quienes estén preparados para aplicar estos conceptos en lenguajes de programación específicos, nuestros cursos de Pensamiento Estadístico en Python (Parte 1) y Fundamentos de Estadística con R te ayudarán a apreciar las muchas formas en que aparece la distribución gaussiana en la estadística descriptiva e inferencial.
¿Qué es una Distribución Gaussiana?
Una distribución gaussiana, también conocida como distribución normal, es una distribución de probabilidad continua caracterizada por su curva en forma de campana. Se define mediante dos parámetros:
- μ (mu): La media o valor esperado de la distribución
- σ (sigma): La desviación típica, que mide la dispersión de la distribución
La función de densidad de probabilidad (FDP) de una distribución gaussiana viene dada por:
Dónde:
- x es la variable
- e es el número de Euler (aproximadamente 2,71828)
- π (pi) es la constante matemática pi (aproximadamente 3,14159)
Visualizar la distribución gaussiana
Para ilustrar el concepto de distribución gaussiana, considera la distribución del peso al nacer de los bebés nacidos a término en una gran población:
Algunas observaciones clave de este gráfico son
- El peso al nacer de la mayoría de los bebés se agrupa en torno a un valor medio (el pico de la curva).
- Menos bebés tienen pesos al nacer que se desvíen significativamente de esta media.
- Muy pocos bebés tienen pesos al nacer extremos (muy altos o muy bajos).
El teorema central del límite
El predominio de las distribuciones gaussianas en la naturaleza y la estadística puede explicarse por el teorema del límite central (CLT). La CLT establece que la distribución de las medias muestrales se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra (por ejemplo, n ≥ 30), independientemente de la distribución de la población subyacente.
Un aspecto clave de la CLT es que esta convergencia a una distribución normal se produce con relativa rapidez a medida que aumenta el tamaño de la muestra. Para la mayoría de los fines prácticos, incluso muestras de tamaño moderado (por ejemplo, n ≥ 30) son suficientes para que las medias muestrales se aproximen a una distribución normal. Esto es cierto incluso si la propia población está sesgada.
La distribución gaussiana estándar
Dentro de la clase de distribuciones gaussianas, hay un caso especial conocido como distribución gaussiana estándar, también conocida más comúnmente como distribución normal estándar. Se trata de una distribución gaussiana en la que:
- La media (μ) es exactamente 0.
- La desviación típica (σ) es exactamente 1.
La función de densidad de probabilidad de una distribución gaussiana estándar viene dada por la fórmula siguiente.
Observa que la fórmula de la función de densidad de probabilidad gaussiana estándar se simplifica a partir de la forma general debido a los valores específicos asignados a la media y a la desviación típica. Ahora, visualicemos la distribución gaussiana estándar.
gaussiana Distribución gaussiana estándar. Imagen del autor
La distribución gaussiana estándar, mostrada en nuestra visualización, sirve como punto de referencia en estadística. En nuestro visual, puedes ver cómo la Gaussiana estándar es una versión estandarizada de cualquier distribución Gaussiana. El proceso de normalización desplaza la media a 0 y escala la desviación típica a 1, conservando las propiedades fundamentales de la distribución.
Propiedades de las distribuciones gaussianas
Veamos ahora algunas de las propiedades de las distribuciones gaussianas.
Simetría y curva de campana
El sello distintivo de una distribución gaussiana es su forma de campana simétrica. Esta simetría significa que los datos tienen la misma probabilidad de caer por encima o por debajo de la media, lo que resulta especialmente útil para predecir probabilidades y hacer inferencias sobre los datos. Como se muestra en la siguiente visualización, todas las distribuciones gaussianas mantienen esta característica forma de campana, independientemente de su media o desviación típica.
gaussianas Distribuciones gaussianas visualizadas. Imagen del autor
Alineación de la media, la mediana y la moda
En una distribución gaussiana perfecta, la media (promedio), la mediana (valor medio) y la moda (valor más frecuente) son iguales. Esta alineación proporciona una indicación clara de la tendencia central de los datos, lo que resulta valioso para resumir conjuntos de datos. En nuestra visualización, puedes ver cómo el pico de cada curva representa este punto central.
Desviación típica y dispersión de datos
La desviación típica de una distribución gaussiana nos indica la dispersión de los datos respecto a la media. Sigue un patrón predecible:
- Aproximadamente el 68% de los datos están dentro de una desviación típica de la media.
- Aproximadamente el 95% se sitúa dentro de las dos desviaciones típicas.
- Aproximadamente el 99,7% se sitúa dentro de las tres desviaciones típicas.
Esta norma, conocida como regla 68-95-99,7se aplica a todas las distribuciones gaussianas, independientemente de su media o desviación típica.
Aplicaciones prácticas de las distribuciones gaussianas
Las distribuciones gaussianas son algo más que un concepto teórico: tienen amplias aplicaciones en diversos campos.
Inferencia estadística y comprobación de hipótesis
Muchas pruebas estadísticas, como las pruebas t y ANOVA, suponen que los datos se distribuyen normalmente. Estas pruebas ayudan a los investigadores a determinar si existen diferencias significativas entre los grupos o si los efectos observados se deben probablemente al azar. El supuesto de normalidad permite a los investigadores calcular los valores p y los intervalos de confianza, proporcionando un marco para extraer conclusiones de los datos y tomar decisiones con conocimiento de causa.
El supuesto de normalidad es tan importante que se han desarrollado técnicas de remuestreo como el bootstrapping para generar distribuciones de remuestreo de distribución normal a partir de datos no normales, lo que facilita la construcción de intervalos de confianza y la realización de otros análisis estadísticos. Nuestro tutorial sobre las pruebas de hipótesis muestra cómo realizar estas pruebas en varios escenarios, incluidas las situaciones en las que los datos se distribuyen normalmente.
Algoritmos de aprendizaje automático
Muchas técnicas de aprendizaje automático se basan en supuestos de normalidad, por lo que las distribuciones gaussianas son fundamentales para su funcionamiento e interpretación. En la regresión lineal, por ejemplo, normalmente queremos ver que los valores y (variable dependiente) siguen una distribución normal para tener confianza en nuestras estimaciones. Además, pretendemos que los residuos (las diferencias entre los valores observados y los predichos) tengan una distribución normal. Estos supuestos de normalidad sustentan las pruebas estadísticas utilizadas para evaluar la fiabilidad del modelo y los intervalos de confianza de sus predicciones.
Además, los científicos especializados en aprendizaje automático pueden preferir trabajar con datos que sigan una distribución gaussiana por razones de eficiencia computacional. Una distribución gaussiana puede contribuir indirectamente a la eficiencia computacional en determinados algoritmos, especialmente los que suponen o dependen de que los datos estén distribuidos normalmente.
- Estimación eficiente de parámetros: En una distribución gaussiana, la media y la varianza son estadísticos suficientes, lo que significa que describen completamente la distribución. Esto reduce la necesidad de un modelado complejo de los momentos superiores, acelerando la estimación de los parámetros.
- Convergencia del algoritmo: Los algoritmos como el descenso de gradiente, utilizados para la optimización en el aprendizaje automático, convergen más rápidamente si los datos se distribuyen normalmente.
- Complejidad computacional reducida en algunos algoritmos: Algoritmos como el Bayes ingenuo gaussiano están diseñados específicamente para datos distribuidos normalmente y pueden ser computacionalmente eficientes cuando se cumple el supuesto.
Conviértete en un Científico ML
Cosas a tener en cuenta con las distribuciones gaussianas
Aunque las distribuciones gaussianas son increíblemente útiles, es importante ser consciente de algunos errores comunes.
No todos los datos se distribuyen normalmente
Muchos fenómenos naturales y sociales siguen otras distribuciones. Comprueba siempre tus datos antes de suponer que se distribuyen normalmente. Por ejemplo, las distribuciones de la renta suelen estar sesgadas a la derecha, siguiendo una distribución logarítmica normal en lugar de una normal. Del mismo modo, los tiempos de espera y la abundancia de especies en ecología suelen seguir distribuciones exponenciales o de ley de potencia.
Incluso algunas distribuciones que esperas que sean normales no lo son necesariamente. Por ejemplo, la edad de todos los habitantes de un barrio no se distribuiría normalmente porque algunas generaciones tienen más hijos, entre otras razones. Por último, debemos decir que algunas distribuciones parecen normales pero no lo son. La distribución de Pareto, por ejemplo, tiene una cola de ley de potencia, y la distribución de Cauchy no tiene media ni varianza definidas.
Valores atípicos y extremos
En una distribución gaussiana, los valores extremos son raros, pero no imposibles. No descartes automáticamente los puntos de datos inusuales: podrían contener información valiosa. La regla 68-95-99,7 nos dice que aproximadamente el 0,3% de los datos de una distribución normal caerán más allá de tres desviaciones típicas de la media. En un conjunto de datos de 1000 puntos, esto significa que unos 3 puntos podrían ser muy extremos sin violar los supuestos de normalidad.
El tamaño de la muestra importa
El teorema del límite central requiere un tamaño de muestra suficientemente grande para funcionar eficazmente. Ten cuidado al aplicar supuestos de distribución normal a conjuntos de datos pequeños. Aunque no existe un límite universal, muchos estadísticos sugieren un tamaño mínimo de muestra de 30 para que el teorema del límite central se aplique razonablemente bien. Sin embargo, esto puede variar en función de la distribución subyacente de la población. Para distribuciones muy asimétricas, puedes necesitar muestras aún mayores.
Otras distribuciones a tener en cuenta
Aunque las distribuciones gaussianas son ampliamente aplicables, a veces son más apropiadas otras distribuciones.
Distribución t de Student
La distribución t de Student se parece a la distribución normal, pero tiene colas más gruesas, lo que significa que da más probabilidad a los valores extremos alejados de la media. Esta característica la hace especialmente útil en los siguientes supuestos:
- Muestras pequeñas: Cuando se trata de conjuntos de datos pequeños (normalmente menos de 30 observaciones), la estimación de la desviación típica de la población resulta menos fiable. La distribución t tiene en cuenta esta mayor incertidumbre.
- Población desconocida Desviación típica: Si se desconoce la desviación típica de la población -lo que suele ocurrir-, la distribución t proporciona un modelo más preciso de la distribución muestral de la media muestral.
- Valores atípicos y colas pesadas: Los datos propensos a valores extremos o atípicos se benefician de las colas más gruesas de la distribución t, que proporcionan un mejor ajuste que la distribución normal.
A medida que aumenta el tamaño de la muestra, la distribución t converge a la distribución normal. Esto se debe al teorema del límite central, que afirma que la distribución muestral de la media muestral se aproxima a la normalidad a medida que crece el tamaño de la muestra, independientemente de la distribución de la población.
Distribución logarítmica normal
La distribución logarítmica normal es aplicable para modelizar datos sesgados positivamente y que no pueden tomar valores negativos. Se caracteriza por lo siguiente
- Procesos multiplicativos: Cuando los datos resultan de la multiplicación de muchos factores positivos independientes (por ejemplo, el interés compuesto), la distribución log-normal suele ser adecuada.
- Datos sesgados: Variables como los ingresos, los precios de las acciones y ciertas medidas biológicas (como la longitud de los organismos o los tiempos de reacción) suelen ser asimétricas hacia la derecha, por lo que la distribución log-normal se ajusta mejor.
- Valores no negativos: Como la función exponencial nunca da resultados negativos, las variables con distribución log-normal son estrictamente positivas, lo que se ajusta bien a los escenarios del mundo real, donde los valores negativos son imposibles o carecen de sentido.
Matemáticamente, una variable X está distribuida log-normalmente si ln(X) está distribuida normalmente. Esta propiedad permite utilizar técnicas de distribución normal en datos transformados logarítmicamente, lo que simplifica el análisis y la interpretación.
Distribución gaussiana multivariante
La distribución gaussiana multivariante, también conocida como distribución normal multivariante, es una extensión de la distribución normal univariante a dimensiones superiores. Se caracteriza por:
- Variables correlacionadas múltiples: Describe la distribución conjunta de dos o más variables aleatorias distribuidas normalmente que pueden estar correlacionadas.
- Contornos elípticos: En dos dimensiones, sus contornos de densidad de probabilidad forman elipses. En dimensiones superiores, se convierten en elipsoides.
- Definido por el Vector Media y la Matriz de Covarianza: En lugar de una media y una varianza únicas, utiliza un vector de medias y una matriz de covarianzas para captar las relaciones entre las variables.
La distribución multivariante gaussiana se utiliza ampliamente en algoritmos de aprendizaje automático, como los modelos de mezcla gaussiana, para tareas de agrupación y estimación de la densidad. También se emplea a menudo en la modelización financiera, donde ayuda a comprender y predecir el comportamiento conjunto de los rendimientos de múltiples activos.
Conclusión
Las distribuciones gaussianas desempeñan un papel fundamental en el análisis estadístico y la ciencia de datos. Su amplia aplicabilidad y sus propiedades bien comprendidas las convierten en una herramienta indispensable en diversos campos, desde el control de calidad en la fabricación hasta la evaluación de riesgos en las finanzas.
Sin embargo, es importante recordar que, aunque la distribución gaussiana se utiliza mucho, no es una solución universal. Saber cuándo emplear distribuciones alternativas, como la distribución t de Student o la distribución log-normal, es clave para mejorar la precisión y fiabilidad de tus análisis. Al alinear tu elección de distribución con las propiedades inherentes de tus datos, garantizas inferencias más válidas y una mejor toma de decisiones.
Para aquellos que buscan profundizar en su comprensión de la probabilidad y sus aplicaciones en la ciencia de datos, nuestro curso Fundamentos de la Probabilidad en Python ofrece una inmersión completa en estos conceptos. Si te sientes más cómodo con R, el curso Introducción a la Estadística en R proporciona una base sólida en conceptos estadísticos utilizando la programación en R.
Como profesional experto en Ciencia de Datos, Aprendizaje Automático e IA Generativa, Vinod se dedica a compartir conocimientos y a capacitar a los aspirantes a científicos de datos para que tengan éxito en este dinámico campo.
Preguntas sobre la distribución de Gauss
¿Qué es una distribución gaussiana (normal)?
Una distribución gaussiana, también conocida como distribución normal, es una distribución de probabilidad continua caracterizada por una curva simétrica en forma de campana. Se define mediante dos parámetros: la media (promedio) y la desviación típica (dispersión o variabilidad). La media determina el centro de la distribución, mientras que la desviación típica controla la anchura de la curva.
¿Qué es la distribución normal estándar?
La distribución normal estándar es un caso especial de la distribución gaussiana con una media de cero y una desviación típica de uno. Se utiliza para simplificar los cálculos y permite utilizar tablas z estándar para hallar probabilidades y valores críticos. Cualquier distribución normal puede transformarse en una distribución normal estándar mediante puntuaciones z.
¿Por qué se llama "curva de campana"?
La distribución gaussiana suele denominarse curva de campana debido a su forma característica. Cuando se representa gráficamente, forma una curva simétrica en forma de campana que alcanza su punto máximo en la media. Los lados de la curva se estrechan a medida que los valores se alejan de la media en cualquier dirección.
¿Cuándo no debe utilizarse la distribución de Gauss?
No debe utilizarse cuando los datos están muy sesgados, tienen colas pesadas (curtosis) o están acotados (por ejemplo, no pueden tomar valores negativos cuando la gaussiana los permite). En casos de tamaños de muestra pequeños, valores atípicos o cuando el proceso subyacente de generación de datos no se ajusta a los supuestos de normalidad, pueden ser más apropiadas distribuciones alternativas. Evalúa siempre las características de los datos antes de suponer su normalidad.
¿Qué es el teorema del límite central y cómo se relaciona con las distribuciones gaussianas?
El teorema del límite central afirma que la distribución de las medias muestrales se aproxima a una distribución normal a medida que aumenta el tamaño de la muestra. Esto es cierto independientemente de la distribución subyacente de la población. El teorema explica por qué muchos fenómenos naturales tienden a seguir una Distribución Gaussiana y permite una aplicación más amplia de las técnicas basadas en la distribución normal.
¿Qué es una distribución gaussiana multivariante?
Una distribución gaussiana multivariante es una extensión de la distribución normal univariante a dimensiones superiores, que describe la distribución conjunta de dos o más variables aleatorias correlacionadas y distribuidas normalmente. Se caracteriza por un vector de media y una matriz de covarianza, en lugar de una media y una varianza únicas.
¿Qué es la asimetría y la curtosis de una distribución gaussiana?
Una distribución perfectamente gaussiana tiene una asimetría de cero. Esto significa que es perfectamente simétrica, con los lados izquierdo y derecho de la distribución reflejándose en torno a la media. La curtosis de una distribución gaussiana es 3, que suele utilizarse como punto de referencia. El exceso de curtosis (curtosis menos 3) es 0 para una distribución gaussiana.
Aprende con DataCamp
curso
Multivariate Probability Distributions in R
curso
Sampling in Python
tutorial
Tutorial de ecuación normal para regresión lineal
tutorial
Comprender la regresión logística en el tutorial de Python

Avinash Navlani
10 min
tutorial
Tutorial de Lasso y regresión Ridge en Python

DataCamp Team
10 min
tutorial
Aprendizaje automático de datos categóricos con el tutorial de Python
tutorial
Introducción a k-Means Clustering con scikit-learn en Python
Kevin Babitz
21 min
tutorial