robot de la enciclopedia para niños

Error estándar para niños

Enciclopedia para niños
Archivo:Standard deviation diagram
Para un valor dado en una muestra aleatoria con un error distribuido normal, la imagen de arriba representa la proporción de muestras que pueden caer entre 0,1,2, y 3 desviaciones estándar por encima y por debajo del valor real.

El error estándar es la desviación estándar de la distribución muestral de un estadístico muestral. El término se refiere también a una estimación de la desviación estándar, derivada de una muestra particular usada para computar la estimación.

Concepto

La media muestral es el estimador usual de una media poblacional. Sin embargo, diferentes muestras escogidas de la misma población tienden en general a dar distintos valores de medias muestrales. El error estándar de la media (es decir, el error debido a la estimación de la media poblacional a partir de las medias muestrales) es la desviación estándar de todas las posibles muestras (de un tamaño dado) escogidos de esa población. Además, el error estándar de la media puede referirse a una estimación de la desviación estándar, calculada desde una muestra de datos que está siendo analizada al mismo tiempo.

En aplicaciones prácticas, el verdadero valor de la desviación estándar (o del error) es generalmente desconocido. Como resultado, el término "error estándar" se usa a veces para referirse a una estimación de esta cantidad desconocida. En tales casos es importante tener claro de dónde proviene, ya que el error estándar es solo una estimación. Desafortunadamente, esto no es siempre posible y puede ser mejor usar una aproximación que evite usar el error estándar, por ejemplo usando la estimación de máxima verosimilitud o una aproximación más formal derivada de los intervalos de confianza. Un caso bien conocido donde se pueda usar de forma apropiada puede ser en la distribución de Student para proporcionar un intervalo de confianza para una media estimada o diferencia de medias. En otros casos, el error estándar puede ser usado para proveer una indicación del tamaño de la incertidumbre, pero su uso formal o semi-formal para proporcionar intervalos de confianza o test debe ser evitado a menos que el tamaño de la muestra sea al menos moderadamente grande. Aquí el concepto "grande" dependerá de las cantidades particulares que vayan a ser analizadas.

En análisis de regresión, el término error estándar o error típico es también usado como la media de las diferencias entre la estimación por mínimos cuadrados y los valores dados de la muestra

Error estándar de la media

Población

El error estándar de la media (SEM, en notación en inglés, por standard error of the mean) puede ser expresado como:

{\sigma}_\bar{x}\ = \frac{\sigma}{\sqrt{n}}

donde

σ es la desviación estándar de la población
n es el tamaño (número de observaciones) de la muestra.

Estimación

Como la desviación estándar de la población rara vez se conoce, el error estándar de la media suele estimarse como la desviación estándar de la muestra dividida por la raíz cuadrada del tamaño de la muestra (suponiendo la independencia estadística de los valores de la muestra).

{\sigma}_\bar{x}\ \approx \frac{s}{\sqrt{n}}

donde

s es la desviación estándar de la muestra (i.e., la estimación de la desviación estándar de la población basada en la muestra), y
n es el tamaño (número de observaciones) de la muestra.

La fórmula del error estándar de la media puede alcanzarse desde lo que ya conocemos sobre la varianza de la suma de variables aleatorias independientes.

  • Si  X_1, X_2 , \ldots, X_n son n observaciones independientes de una población que tiene una media  \mu y una desviación estándar  \sigma , entonces la varianza del total  T = (X_1 + X_2 + \cdots + X_n) es  Var(T) = n\sigma^2 .
  • La varianza de  T/n debe ser  Var( \frac{1}{n} T) = \frac{1}{n^2} Var(T)= \frac{1}{n^2}n\sigma^2=\frac{\sigma^2}{n} .
  • Y entonces la desviación estándar de  T/n será  \frac{\sigma}{\sqrt{n}} .
  • Por supuesto,  T/n es la media de la muestra ( \bar{x} ).

Nota: El error estándar y la desviación estándar de muestras pequeñas tienden a infravalorar sistemáticamente el error estándar y la desviación estándar de la población: el error estándar de la media es un parámetro sesgado del error estándar de la población. Con n=2 la infravaloración puede ser del 25%, pero para n=6 la infravaloración es sólo del 5%.

Supuestos y utilización

Si se asume que los datos utilizados están distribuidos por la normal, los cuantiles de la distribución normal, la media de la muestra y el error estándar pueden ser usados para calcular intervalos de confianza aproximados para la media. Las siguientes expresiones pueden ser usadas para calcular los límites de confianza por encima y por debajo del 95%, donde \bar{x} es igual a la media de la muestra, SE es igual al error estándar para la media de la muestra, y 1,96 es el cuantil 0.975 de la distribución normal:

Por encima del 95% Límite = \bar{x} + (SE\cdot 1.96) ,
Por debajo del 95% Límite = \bar{x} - (SE\cdot 1.96) .

En particular, el error estándar de una muestra estadística (como lo es de la media de la muestra) es la desviación estándar estimada del error en el proceso que ésta es generada. En otras palabras, el error estándar es la desviación estándar de la distribución muestral de la muestra estadística. La notación para el error estándar (del inglés) puede ser SE, SEM (por error estándar de "medida" (measurement) o "media" (mean)), o S_E.

Los errores estándar proporcionan una medida sobre la incertidumbre de las medidas de la muestra en un único valor que es usado a menudo porque:

  • Si el error estándar de varias cantidades individuales es conocido entonces el error estándar de alguna función matemática de esas cantidades puede ser fácilmente calculado en muchos casos:
    • Donde la distribución de probabilidad del valor es conocida, ésta puede ser usada para calcular una buena aproximación de un intervalo de confianza exacto.
    • Donde la distribución de probabilidad es desconocida, relaciones como la Desigualdad de Chebyshov o la desigualdad de Vysochanskiï–Petunin pueden ser usadas para calcular unos intervalos de confianza conservativos.
  • Como el tamaño de la muestra tiende a infinito, el teorema del límite central garantiza que la distribución de la media muestral es asintóticamente la distribución normal.

Error estándar de la regresión

El error estándar de la regresión es el valor que muestra la diferencia entre los valores reales y los estimados de una regresión. Es utilizado para valorar si existe una correlación entre la regresión y los valores medidos. Muchos autores prefieren este dato a otros como el coeficiente de correlación lineal, ya que el error estándar se mide en las mismas unidades que los valores que se estudian. La fórmula sería:

 \widehat{\sigma}=\sqrt{\frac{1}{N-1}\sum_{i=1}^{N} (y_i-\widehat{y_i})^2}

Siendo:

  • \widehat{y} los valores estimados
  • y los valores medidos
  • N el tamaño de la muestra

Véase también

Kids robot.svg En inglés: Standard error Facts for Kids

kids search engine
Error estándar para Niños. Enciclopedia Kiddle.