Saltar al contenido principal
InicioBlogCiencia de datos

Intervalos de confianza frente a intervalos de predicción: Comprender la diferencia

Este artículo te enseña el significado, las diferencias y los casos de uso adecuados de los intervalos de predicción y los intervalos de confianza en los análisis estadísticos y de regresión. También te muestra cómo implementar estos intervalos en R.
Actualizado 28 ago 2024  · 25 min leer

Los estudios estadísticos, tanto si implican la determinación de parámetros poblacionales como la predicción de variables dependientes, siempre conllevan cierta incertidumbre. La causa fundamental de esta incertidumbre es el proceso de muestreo. No es realista considerar a toda la población cuando se realiza un análisis estadístico. Por tanto, es necesario elegir una muestra representativa, ya sea para estimar un parámetro de la población, como la media, o para construir un modelo de regresión. 

Para aprender o repasar estos conceptos básicos, consulta el curso introductorio a la estadística de DataCamp.

El valor real del parámetro poblacional no suele ser exactamente igual al valor estimado a partir de la muestra: esta diferencia es el error típico. Para tener en cuenta este error, es convencional estimar un valor esperado y luego especificar un intervalo que se espera que contenga el valor real.

Del mismo modo, los estudios de regresión también se basan en muestras aleatorias en lugar de en toda la población. La relación entre las variables dependientes e independientes, estimada por el estudio de regresión sobre la muestra, no es exactamente igual a la verdadera relación entre esas variables en toda la población. Por lo tanto, el valor predicho de un punto de datos individual no es exactamente igual a su valor real. Se espera que el valor verdadero se encuentre dentro de algún intervalo del valor predicho. 

Este artículo explica el significado de ambos tipos de intervalos y los métodos matemáticos subyacentes que se utilizan para calcularlos. Analiza ejemplos prácticos de cuándo utilizar cada intervalo. Por último, ilustra con ejemplos prácticos cómo calcular intervalos de confianza y de predicción en el lenguaje de programación R. 

¿Qué es un intervalo de confianza?

Un intervalo de confianza es el intervalo que se espera -con cierto nivel de confianza- que contenga el valor verdadero de un parámetro poblacional, como la media poblacional. 

Intervalos de confianza en la inferencia estadística 

Un parámetro poblacional es una propiedad numérica de toda la población. La media (de toda la población) es un ejemplo de parámetro poblacional. El valor real de los coeficientes de regresión entre dos variables es otro ejemplo de parámetro poblacional. La estadística inferencial consiste en estudiar los puntos de datos de una muestra aleatoria para estimar un parámetro poblacional. 

Supongamos, hipotéticamente, que eres horticultor o agricultor de naranjas y quieres saber qué grosor adquieren los naranjos a los 100 días de vida. Es imposible estudiar todos los naranjos de 100 días. Así pues, seleccionas al azar unos cuantos árboles de 100 días y mides su circunferencia (grosor). La media de estas medidas te da la media muestral. Quieres utilizar esta media muestral para obtener la media poblacional.

Una población de naranjos. Creado con DALL-E.

La media muestral es una estimación puntual del parámetro poblacional (en este caso, el parámetro de interés es la media). Este curso de DataCamp sobre estadística inferencial trata estos conceptos con más detalle. 

La media muestral es representativa de la media poblacional, pero no exactamente igual a ella. Se espera que la media poblacional se encuentre dentro de un intervalo determinado de la media muestral, que se denomina intervalo de confianza. 

  • Cuanto mayor sea la muestra, más representativa será de la población; por tanto las muestras más grandes dan lugar a intervalos de confianza más estrechos.
  • Además, cuanto menor sea el grado de varianza de los datos, más se acercará la estimación puntual al parámetro verdadero. Así, cuanto menor sea la desviación típica, más estrecho será el intervalo.

Intervalos de confianza en regresión

En el apartado anterior se explicaron los intervalos de confianza en estadística inferencial. La regresión también implica el uso de intervalos de confianza. 

Como ejemplo, considera una variación del mismo ejemplo del naranjo:

  • No quieras medir una muestra de naranjos de 100 días. 
  • Ya tienes mediciones de una muestra de circunferencias de naranjos a los 30 días, 60 días, 90 días, 120 días, etc. 
  • Quieres utilizar esta información para estimar la circunferencia media de los árboles de 100 días.

Para ello, utiliza un análisis de regresión. El conjunto de datos sobre el que ejecutas la regresión se basa en una muestra de naranjos. Por tanto, la media estimada de la muestra (circunferencia media de los naranjos de 100 días) no será exactamente igual a la media de la población. El valor verdadero de la media poblacional se encuentra dentro de un intervalo de confianza de la media muestral estimada. 

En secciones posteriores se muestran y explican las expresiones matemáticas del intervalo de confianza. 

¿Qué es un intervalo de predicción?

Un intervalo de predicción es el intervalo que se espera -con cierto nivel de confianza- que contenga el valor verdadero de un punto de datos individual, basándose en una predicción realizada mediante un análisis de regresión. 

Considera otra variación del ejemplo de regresión mencionado anteriormente:

  • No quieres estimar la circunferencia media de árboles de 100 días (como en el ejemplo anterior).
  • En cambio, tienes un naranjo concreto de 100 días cuya circunferencia deseas predecir (sin medirla realmente). 

Utiliza la misma fórmula de regresión que antes. El valor estimado (es decir, el valor esperado) de la circunferencia individual es el mismo que la circunferencia media estimada. Sin embargo, debes tener en cuenta la mayor variabilidad de los puntos de datos individuales, porque estás prediciendo un valor individual (y no una media). Por tanto, el intervalo de predicción es mayor que el intervalo de confianza. 

Más adelante en el artículo, verás las fórmulas de estos intervalos y aprenderás a utilizar R para calcularlos.

Diferencias entre intervalos de predicción e intervalos de confianza

Los dos conceptos -intervalos de predicción e intervalos de confianza- están estrechamente relacionados. Un mismo análisis puede implicar a menudo el uso de ambos tipos de intervalos. Por tanto, es útil compararlos cara a cara. 

Finalidad e interpretación

Cuando necesitas conocer un parámetro poblacional, como la media, utilizas una muestra para estimar dicho parámetro. Como el tamaño de la muestra suele ser mucho menor que el de la población, la estimación del parámetro de la muestra es imperfecta. El intervalo de confianza es el rango (de la estimación muestral) que se espera que contenga el parámetro poblacional. 

Los coeficientes de regresión también se consideran parámetros poblacionales. Como se estiman a partir de una muestra (y no de toda la población), estos parámetros contienen cierto error. Así, los coeficientes de regresión también pueden expresarse con un intervalo de confianza. 

Además, puedes utilizar la regresión para predecir cualquiera de las dos cosas:

  • El valor medio de una variable dependiente (como el peso medio de los perros de 2 años) o
  • El valor de un punto de datos individual (como un perro individual de 2 años). 

El primero utiliza un intervalo de confianza, y el segundo, un intervalo de predicción. En el apartado siguiente se explica esta diferencia con más detalle.

Cálculo y amplitud del intervalo

Cálculo del intervalo de confianza para la inferencia estadística 

Como ya se ha explicado, el intervalo de confianza es proporcional a la desviación típica e inversamente proporcional al tamaño de la muestra. El intervalo de confianza de la media de la población, 𝛍, se expresa como:

En la expresión anterior:

  • x es la media muestral, la estimación, que puedes medir
  • 𝛍 es la media poblacional, el parámetro poblacional que quieres estimar. 
  • n es el tamaño de la muestra
  • s es la desviación típica de la muestra
  • t es el valor crítico de la distribución T de Student en
    • Nivel de significación de 1 - α
    • n-1 grados de libertad
    • Puedes encontrar los valores T de las tablas estandarizadas: busca en Google "Tabla T de Student". 

Por tanto, el rango de 𝛍 es:

Comprender los niveles de confianza y los niveles de significación 

Observa también que el tamaño del intervalo es proporcional al valor t. Si quieres un grado de confianza (certeza) extremadamente alto de que el valor real se encuentra dentro del intervalo dado, ese intervalo tiene que ser muy grande. Cuanto menor sea el grado de confianza, más estrecho será el intervalo. Pero un grado de confianza muy bajo no es muy útil. Así que, en la práctica, es habitual elegir niveles de confianza del 90%, 95%, 99%, etc. 

Si tienes un nivel de confianza del 95%, te lleva a un nivel de significación del 5%. Suponiendo un intervalo de dos caras, tienes que encontrar el valor crítico t al 2,5% (0,025). 

Conceptualmente, todos los intervalos se expresan del siguiente modo:

Observa que, en todos los casos, cuanto mayor es el error, más amplio es el intervalo. Este error se calcula de forma diferente según el caso de uso. Para la inferencia, el error es la desviación típica. Para la regresión, el error se muestra en las secciones siguientes. 

Cálculo del intervalo de confianza para la regresión 

Cuando predices el valor medio de la variable dependiente, estimas su rango utilizando el intervalo de confianza. Por ejemplo, quieres predecir un intervalo para el peso medio de los perros de 2 años en función de su edad. Esto se llama intervalo de confianza de la respuesta media. También se considera un parámetro poblacional porque es una propiedad de toda la población. El intervalo se expresa como

En la expresión anterior:

  • y0 es el valor verdadero del parámetro predicho.
  • y0 es el valor predicho utilizando la relación de regresión.
  • El valor t crítico se explica en la sección anterior
  • n es el tamaño de la muestra
  • (x0 -x) es la diferencia entre el valor medio de x y x0para el que intentas predecir y0. Observa que cuanto mayor sea esta diferencia, mayor será el intervalo. Así, se obtienen intervalos estrechos (y predicciones más precisas) para valores de xpróximos a la media de la muestra .
  • SSx es la desviación al cuadrado de la muestra de valores x. Se expresa como:

 

  • SE es el error típico de la estimación. Es la raíz cuadrada del error cuadrático medio (ECM). El MSE es la varianza del error. Así pues, el SE es análogo a la desviación típica del error. El MSE se basa en el error residual. Se expresa como: 

En la expresión anterior, el término sumatorio también se denomina suma de cuadrados de los residuos. El residuo es la diferencia entre el valor real de y y el valor predicho de y. 

Utilizando el MSE en lugar del SE, el intervalo de confianza de la respuesta media también puede escribirse como:

Compara la expresión anterior con la relación conceptual mostrada anteriormente. 

Observa que el error tiene en cuenta

  • La diferencia entre los valores reales y previstos de y.
  • La diferencia entre el valor medio de x y el valor de xopara el que quieres generar la predicción
  • La dispersión global de x (respecto a su media)

Cálculo del intervalo de predicción para la regresión 

Para predecir el valor exacto de un punto de datos individual (no la media), estima su rango utilizando el intervalo de predicción. Por ejemplo, quieres predecir el intervalo del peso real de un perro concreto de 2 años en función de su edad. Esto se denomina intervalo de predicción, y se expresa como:

Compáralo con el intervalo de confianza mostrado anteriormente:

Observa que ambas expresiones son bastante similares. La única diferencia es el término de error adicional en el intervalo de predicción. El intervalo de predicción tiene un término MSE adicional dentro de la raíz cuadrada que el intervalo de confianza. Esto es para tener en cuenta la variabilidad de los valores y, que quieres predecir. Esto hace que el intervalo de predicción sea más amplio que el intervalo de confianza. 

El esquema siguiente muestra los intervalos de confianza y predicción en relación con la estimación puntual (valor predicho).

Comparar los intervalos de confianza y predicción de una estimación puntual. Imagen del autor.

El esquema siguiente muestra los intervalos de confianza y de predicción en relación con la regresión; observa también que los intervalos son más estrechos en la región de la media. 

Ilustración de los intervalos de confianza y predicción en regresión. Imagen del autor.

Cuándo utilizar un intervalo de confianza

En los apartados anteriores se han tratado los fundamentos de los intervalos de confianza y de predicción, sus usos y las fórmulas utilizadas para calcularlos. En este apartado se dan ejemplos prácticos de cuándo utilizar intervalos de confianza y de predicción. 

Un intervalo de confianza se utiliza cuando se estima un parámetro poblacional. Para estimar el parámetro poblacional, puedes

  1. Utiliza mediciones directas basadas en una muestra aleatoria
  2. Utilizar un modelo de regresión basado en una muestra aleatoria

Algunos ejemplos de uso del intervalo de confianza son:

  • Estimación de un parámetro poblacional a partir de la medición de una muestra aleatoria. Por ejemplo, para calcular la altura y el peso medios de los recién nacidos, tomas las medidas de una muestra aleatoria de recién nacidos. 
  • Estimar el comportamiento de una población estudiando una muestra aleatoria. Este caso de uso es habitual en los ensayos clínicos, en los que se intenta estimar los efectos de un fármaco en la población estudiando sus efectos en una muestra aleatoria. 
  • Predecir la respuesta media de una variable dependiente a partir de un análisis de regresión realizado sobre una muestra aleatoria. Por ejemplo, quieres predecir el peso medio de cachorros de 55 días basándote en una muestra de pesos de cachorros medidos cada 15 días. 
  • Fijación de los límites de tolerancia en los procesos de fabricación. Por ejemplo, si una máquina produce piezas de un peso especificado, no todas las piezas tienen exactamente el mismo peso que la especificación. El peso de cada pieza se encuentra dentro de un intervalo de confianza del peso especificado. Este intervalo es el límite de tolerancia. Se rechazan las piezas con pesos superiores a los límites de tolerancia. Se espera que la máquina produzca piezas que, en su mayoría, estén dentro del límite de tolerancia. 
  • Control de calidad. Supón que quieres establecer si las piezas producidas por una máquina están dentro del límite de tolerancia. No es posible medir todas las piezas. Tienes que basarte en tomar muestras aleatorias, medirlas y luego utilizar las estimaciones de la muestra para calibrar los parámetros de la población. 
  • Comprobación de hipótesis. Los niveles de confianza y los niveles de significación son dos caras de la misma moneda. Nivel de significación = 1 - Nivel de confianza.  Un intervalo de confianza, con un nivel de confianza especificado, incluye los puntos de datos para los que la hipótesis nula es cierta con un nivel de significación de (1 - el nivel de confianza especificado). 

Cuándo utilizar un intervalo de predicción

Los intervalos de predicción se utilizan siempre que predices el valor esperado de un punto de datos individual basándote en observaciones de (y análisis de regresión sobre) una muestra aleatoria. 

Algunos ejemplos prácticos son: 

  • Predecir el rango de un punto de datos individual basándose en un análisis de regresión. Como los puntos de datos individuales pueden tener mayor variabilidad (que la media muestral), necesitas un intervalo de predicción más amplio. Por ejemplo, quieres predecir el peso de un cachorro individual de 55 días basándote en una muestra aleatoria de pesos de cachorros medidos cada 15 días. 
  • Puedes utilizar simulaciones de Montecarlo para predecir el valor de una variable desconocida. Como los métodos de Montecarlo son probabilísticos, obtendrás un resultado ligeramente distinto cada vez que ejecutes el modelo. Estas diferencias entre las distintas salidas se codifican en el Intervalo de Incertidumbre de Montecarlo, que es conceptualmente similar a un intervalo de predicción. 
  • En la regresión estándar, construyes una relación para predecir el valor medio de un parámetro. En la regresión cuantil, construyes modelos diferentes para predecir cada cuantil del parámetro objetivo. Esto también te permite construir intervalos de predicción más granulares. 
  • Los modelos de aprendizaje automático se ocupan de predecir el valor de un parámetro desconocido. Estos modelos suelen basarse en métodos estadísticos y, por tanto, predicen el valor medio de la cantidad desconocida. Así, el resultado del modelo incluye tanto el valor esperado (medio) como el intervalo de predicción. 
  • Los modelos de aprendizaje profundo utilizan una serie de redes neuronales para hacer predicciones. Para evaluar la incertidumbre en la salida, es habitual dejar caer aleatoriamente diferentes neuronas para estudiar la variabilidad en la salida. La varianza de estas predicciones se utiliza para construir el intervalo de predicción. 
  • En la previsión de series temporales, el objetivo es predecir el valor de un observable en un paso temporal futuro. Las predicciones se basanen modelos estadísticos como el ARIMA, que realiza una autorregresión sobre una media móvil. Por tanto, predice el valor esperado. Los valores reales observados están contenidos dentro de un intervalo de predicción del valor esperado. Este intervalo de predicción se calcula en función de la desviación típica. Por ejemplo, para un nivel de confianza del 95%, el intervalo de predicción está dentro de 1,96 desviaciones típicas del valor esperado. Además, las predicciones de varios pasos, que implican un horizonte de predicción más largo, también implican un intervalo de predicción mayor. Para saber más sobre series temporales, consulta el curso DataCamp sobre análisis de series temporales

Intervalo de confianza frente a intervalo de predicción: Un resumen

Los intervalos de confianza y los intervalos de predicción se utilizan a menudo en el mismo contexto, por lo que es importante entender en qué se diferencian. 

Esta tabla resume las diferencias basándose en el debate de las secciones anteriores:

Intervalo de confianza

Intervalo de predicción

Se utiliza para determinar los parámetros de la población basándose en las estadísticas de la muestra

No se utiliza para determinar parámetros de población basados en muestras

Se utiliza para predecir la respuesta media (valor medio de la variable dependiente para una determinada variable independiente) a partir de regresiones.

Se utiliza para predecir el valor futuro (de un punto de datos individual para una variable independiente dada) basándose en regresiones.

Suele ser más estrecho para un análisis determinado 

Suele ser más amplio para un análisis determinado

Implementación de intervalos de confianza e intervalos de predicción en R

Esta sección muestra ejemplos prácticos del uso del lenguaje de programación R para estimar intervalos de confianza y de predicción. R es un lenguaje diseñado para aplicaciones estadísticas, y viene con conjuntos de datos y funciones estadísticas incorporadas. 

Para aprender más sobre regresiones utilizando R, sigue el tutorial de DataCamp sobre regresiones lineales en R.

Los ejemplos siguientes utilizan el conjunto de datos incorporado de Orange. Este conjunto de datos registra la circunferencia (en milímetros) y la edad (en días) de los naranjos. Naturalmente, cabe esperar que cuanto más viejo sea el árbol, mayor será su circunferencia. 

Implementar intervalos de confianza en R

Los ejemplos siguientes muestran cómo estimar intervalos de confianza para estadísticas de resumen y análisis de regresión. 

Intervalo de confianza en estadísticas de síntesis

Para obtener el intervalo de confianza de la media, ejecuta la prueba T estándar utilizando la función t.test() en el conjunto de datos:

t.test(Orange$circumference)

El resultado es como el del ejemplo siguiente:

t = 11.923, df = 34, p-value = 1.076e-13 
alternative hypothesis: true mean is not equal to 0 
95 percent confidence interval:
   96.10926 135.60502 
sample estimates: 
mean of x
   115.8571 

Te da la estimación media y el intervalo de confianza del 95%. Por defecto, la función Prueba T utiliza un nivel de confianza del 95%. Utiliza el parámetro conf.level para especificar un intervalo de confianza diferente, como el 99%. 

> t.test(Orange$circumference, conf.level = 0.99)

Este comando produce el siguiente resultado:

t = 11.923, df = 34, p-value = 1.076e-13 
alternative hypothesis: true mean is not equal to 0
99 percent confidence interval:
   89.34458 142.36970 
sample estimates: 
mean of x
   115.8571 

Observa que la media estimada es la misma en ambos casos. Sin embargo, el intervalo debe ser más amplio para tener un mayor nivel de confianza. Basándome en los datos, tengo un 99% de seguridad de que la media está entre 89,3 y 142,4, pero sólo un 95% de seguridad de que está entre 96,1 y 135,6. Para un parámetro estimado a partir de una muestra dada, cuanto más estrecho sea el intervalo de confianza, menor será el nivel de confianza. 

Intervalo de confianza en la regresión 

En los análisis de regresión, necesitas los intervalos de confianza para los coeficientes de regresión y los valores predichos. 

Para conocer en profundidad cómo hacer regresiones en R, sigue el curso de DataCamp sobre Inferencia para la Regresión Lineal en R.

Intervalo de confianza de los coeficientes de regresión 

Los coeficientes de regresión se estiman analizando una muestra aleatoria. Por tanto, no son los verdaderos coeficientes de toda la población. Las estimaciones de los parámetros de regresión llevan asociados algunos errores. Además de sus valores estimados, es útil dar un intervalo de confianza para los parámetros. 

Utiliza la función lm() para construir un modelo lineal basado en el conjunto de datos Naranjos para predecir la circunferencia (en mm) de los naranjos dada su edad (en días):-

model_orange <- lm(circumference ~ age, data = Orange)

Comprueba los coeficientes de este modelo lineal:

model_orange

Este comando muestra los parámetros del modelo (intercepto y pendiente) como se indica a continuación:

Coefficients: (Intercept)          age
                              17.3997       0.1068  

Utiliza la función confint() para calcular los intervalos de confianza del 95%:

confint(model_orange, level = 0.95)

Ahora puedes ver los intervalos de confianza del 95% de la pendiente y el intercepto estimados por el modelo:

                          2.5 %                   97.5 %
(Intercept)     -0.14328303       34.9425835 
age                  0.08993141          0.1236092
Intervalo de confianza de una predicción de respuesta media 

Utiliza el modelo de regresión creado anteriormente para predecir la circunferencia media esperada de los árboles de 900 días. Utiliza el parámetro interval para especificar un intervalo de confianza. 

predict(model_orange, data.frame(age = 900), interval = "confidence", level = 0.95)  

La salida incluye la predicción (fit) y el intervalo de confianza (lwr y upr para los límites inferior y superior), como se muestra a continuación:

       fit                    lwr              upr
 1     113.4929        105.3211       121.6647

Implementar intervalos de predicción en R

Utiliza el mismo modelo anterior para predecir la circunferencia específica de un naranjo individual de 900 días. Utiliza el parámetro interval para especificar que quieres el intervalo de predicción. 

> predict(model, data.frame(age = 900), interval = "prediction", level = 0.95)  

El resultado se parece al ejemplo siguiente:

       fit                    lwr              upr
1      113.4929        64.5118        162.4741

Observa que, en ambos casos, el valor predicho de la circunferencia es el mismo: 113,49. Sin embargo, el intervalo de predicción es mucho más amplio que el intervalo de confianza. El intervalo de confianza de la predicción es el rango que se espera que contenga la circunferencia media de los árboles de 900 días. El intervalo de predicción es el rango esperado de la circunferencia de un árbol individual de 900 días. Esto se debe a que puede haber una variación considerablemente mayor en los árboles individuales, que se suaviza al considerar el valor medio. 

Errores y trampas habituales

Los intervalos estadísticos se utilizan habitualmente en campos de la estadística aplicada, como el análisis de datos, la farmacia, la econometría, etc. Para los que no tienen formación académica en estadística, es fácil confundir los intervalos de confianza y los intervalos de predicción. 

A continuación se exponen algunos errores comunes: 

  • Hacer una predicción sin tener en cuenta el intervalo de predicción. 
    • Cuando utilizas un modelo de regresión para predecir el valor de la variable dependiente para un valor dado de la variable independiente, la ecuación de regresión te da el valor esperado de la variable dependiente. El valor real rara vez coincide con el valor esperado, sino que se encuentra dentro de un determinado intervalo del valor esperado, especificado por el intervalo de predicción. 
  • Suponiendo que un análisis de regresión sólo implique intervalos de predicción.
    • Puedes hacer dos tipos de predicciones utilizando modelos de regresión: 1) predecir un valor futuro y 2) predecir la respuesta media. En el ejemplo del naranjo, puedes intentar predecir 1) la circunferencia de un naranjo concreto que tenga 900 días o 2) la circunferencia media de todos los árboles que tengan 900 días. En ambos casos, el valor esperado es el mismo. Sin embargo, el primero implica el intervalo de predicción, y el segundo, el intervalo de confianza. 
  • Creer que el intervalo más estrecho es el mejor.
    • A veces puedes tener la tentación de utilizar sólo el intervalo más estrecho al utilizar el resultado de un estudio de regresión. El intervalo de confianza no es de algún modo "mejor" porque sea más estrecho. Es más estrecho porque da el intervalo para algo distinto de lo que da el intervalo de predicción. Considera si intentas predecir el valor medio de la variable dependiente o si quieres predecir un punto de datos individual.
  • Confundir un intervalo de confianza con un intervalo de predicción. 
    • Si tu predicción implica determinar el valor de un parámetro poblacional a partir de una muestra o predecir la respuesta media (valor promedio) a partir de una regresión, utilizas el intervalo de confianza. Si intentas predecir alguna propiedad de un punto de datos individual basándote en una regresión, utiliza el intervalo de predicción. 

Conclusión

Este artículo ofrece una visión general de los intervalos de confianza y los intervalos de predicción. También explica la diferencia entre estos conceptos de apariencia similar y ofrece ejemplos prácticos de cuándo utilizar cada tipo de intervalo. El artículo también mostraba cómo calcular la predicción y los intervalos de confianza utilizando el lenguaje de programación R. 

Para aprender a aplicar fórmulas estadísticas utilizando Python, consulta el curso DataCamp sobre estadística en Python. Por último, si te estás preparando para entrevistas de trabajo relacionadas con la estadística, consulta el curso de DataCamp sobre preguntas para entrevistas de estadística en Python.

Preguntas frecuentes

¿Por qué necesitamos intervalos? ¿Por qué el valor verdadero no es el mismo que el valor esperado?

Necesitamos intervalos porque estamos obligados a estudiar pequeñas muestras en lugar de toda la población para los análisis estadísticos. Las propiedades de la muestra, que podemos estudiar y predecir, son indicativas pero no exactamente iguales a las propiedades de la población que queremos conocer. Sin embargo, el valor real se encuentra dentro de un intervalo determinado del valor predicho.

¿Son intercambiables los intervalos de confianza y los intervalos de predicción?

No, son muy diferentes. Los intervalos de confianza se utilizan para expresar el rango de un parámetro poblacional, como la media. Los intervalos de predicción se refieren al rango del valor verdadero de un punto de datos individual.

¿Se utilizan alguna vez en el mismo contexto los intervalos de confianza y los intervalos de predicción?

Sí, ambos se utilizan cuando se hacen estudios de regresión. Puede que quieras predecir el valor medio de un punto de datos (como el peso medio de los perros de 2 años) o puede que quieras predecir el peso de un perro concreto de 2 años. Para la primera, utilizas el intervalo de confianza. Para esta última, el intervalo de predicción.

¿Dependen los intervalos de confianza y predicción del tamaño de la muestra?

Sí, cuanto mayor sea el tamaño de la muestra, mejores estimaciones proporcionará para los parámetros de la población. Por tanto, las estimaciones basadas en una muestra mayor tendrán un intervalo más estrecho.

¿Puedo utilizar una estimación muestral sin el intervalo?

En principio, sí. En la práctica, no es muy útil. La estimación muestral es el valor "esperado". El valor real rara vez es igual al valor esperado. Sin embargo, es probable que el valor real esté contenido en un intervalo en torno al valor esperado. Por tanto, proporcionar el intervalo junto con la estimación es una práctica habitual. Puedes prescindir del valor esperado si tienes el intervalo adecuado.

Cuando intentas predecir y dado x, ¿es el intervalo de predicción el mismo para todos los valores de x e y? ¿Y el intervalo de confianza?

Ésta es una buena pregunta. La respuesta es no. Cuanto más se aleje el valor de x del valor medio de x, más amplios serán la predicción y los intervalos de confianza. Los intervalos son más estrechos cuando el valor de x está próximo al valor medio de x.

Temas

¡Aprende más sobre estadística y ciencia de datos con estos cursos!

Course

Introduction to Statistics in Python

4 hr
110.4K
Grow your statistical skills and learn how to collect, analyze, and draw accurate conclusions from data using Python.
See DetailsRight Arrow
Start Course
Ver másRight Arrow
Relacionado

tutorial

Tutorial de pruebas T en R: Aprende a realizar pruebas T

Determina si existe una diferencia significativa entre las medias de los dos grupos utilizando t.test() en R.

Abid Ali Awan

10 min

tutorial

Tutorial de tablas de contingencia en R

En este tutorial, aprenderás a crear tablas de contingencia y a probar y cuantificar las relaciones visibles en ellas.
Łukasz Deryło's photo

Łukasz Deryło

10 min

tutorial

Tutorial de regresión lineal en R

En este tutorial aprenderás los fundamentos de un modelo estadístico muy popular: la regresión lineal.

Eladio Montero Porras

15 min

tutorial

Regresión logística en R Tutorial

Descubra todo sobre la regresión logística: en qué se diferencia de la regresión lineal, cómo ajustar y evaluar estos modelos en R con la función glm() y mucho más.
Vidhi Chugh's photo

Vidhi Chugh

14 min

tutorial

Regresión lineal múltiple en R: tutorial con ejemplos

Una visión completa para entender las regresiones lineales múltiples en R a través de ejemplos.
Zoumana Keita 's photo

Zoumana Keita

12 min

tutorial

GLM en R: Modelo lineal generalizado

Conozca los modelos lineales generalizados (MLG) y en qué se diferencian de los modelos lineales.
DataCamp Team's photo

DataCamp Team

2 min

See MoreSee More