robot de la enciclopedia para niños

Distribución normal multivariada para niños

Enciclopedia para niños
Datos para niños
Distribución normal multivariante
Parámetros \mu = [\mu_1, \dots, \mu_n]^T (vector real)
\Sigma matriz de covarianza (matriz real definida positiva de dimensión n\times n )
Dominio x \in\mathbb{R}^n\!
Función de densidad (pdf)

Error al representar (Falta el ejecutable <code>texvc</code>. Véase math/README para configurarlo.): f_X(x_1, \dots, x_n)=\frac {1} {(2\pi)^{n/2} \left

                 \exp\left( -\frac{1}{2}( x - \mu)^\top \Sigma^{-1} (x - \mu)\right) |cdf = Sin expresión analítica |media = \mu \,\! |mediana = \mu \,\! |moda = \mu \,\! |varianza = \sigma^2 \,\! |simetría = 0 |curtosis = 0 |entropía = \ln\left(\sqrt{(2\,\pi\,e)^n \left| \Sigma \right|}\right)\! |mgf = M_X(t)= \exp\left( \mu^\top t + \frac{1}{2} t^\top \Sigma t\right) |car = \phi_X(t;\mu,\Sigma)=\exp\left( i \mu^\top t - \frac{1}{2} t^\top \Sigma t\right) }} En el mundo de la probabilidad y la estadística, una distribución normal multivariante es una forma de entender cómo se comportan varios datos al mismo tiempo. También se le llama distribución gaussiana multivariante. Es como una versión más compleja de la distribución normal que ya conoces, pero para cuando tienes muchas variables, no solo una.

Imagina que quieres estudiar la altura y el peso de un grupo de personas. La distribución normal multivariante te ayuda a ver cómo estas dos medidas se relacionan entre sí.

¿Qué es una distribución normal multivariante?

Una distribución normal multivariante describe cómo se distribuyen varios datos que están relacionados. Por ejemplo, si mides la altura, el peso y la edad de muchas personas, estos datos no son independientes. La altura y el peso suelen estar relacionados. Esta distribución nos ayuda a entender esas relaciones.

¿Cómo se representa?

Cuando un grupo de datos sigue una distribución normal multivariante, lo escribimos de una forma especial. Si tenemos un conjunto de datos que llamamos X, y queremos decir que sigue esta distribución, usamos la notación:

X\ \sim \mathcal{N}(\mu, \Sigma)

Aquí, \mu (se lee "mu") es el promedio de cada uno de los datos. Por ejemplo, el promedio de las alturas, el promedio de los pesos, etc. Y \Sigma (se lee "sigma") es una matriz de covarianza. Esta matriz nos dice cómo se relacionan los diferentes datos entre sí.

Características clave

Un conjunto de datos sigue una distribución normal multivariante si cumple algunas condiciones importantes:

  • Si combinas los datos de forma lineal (por ejemplo, sumas la altura más el doble del peso), el resultado siempre seguirá una distribución normal simple.
  • Los datos pueden crearse a partir de otros datos más simples que sí siguen una distribución normal estándar y son independientes.
  • Hay una forma matemática especial de describir su comportamiento usando una función llamada "función característica".

Si los datos no están perfectamente alineados o son muy especiales, la distribución se puede describir con una fórmula matemática llamada "función de densidad". Esta fórmula nos ayuda a saber qué tan probable es encontrar ciertos valores en nuestros datos.

¿Cómo se comporta la distribución?

La distribución normal multivariante tiene propiedades interesantes que nos ayudan a entender los datos.

Función de distribución: ¿Qué tan probable es?

La función de distribución nos dice la probabilidad de que todos los valores de nuestros datos sean menores o iguales a un cierto punto. Aunque no hay una fórmula sencilla para esto, existen métodos para calcularlo con computadoras.

Tipo de distribución de probabilidad
X
Y
p(X)
p(Y)
Muchas observaciones de muestras (en negro) se observan a partir de una distribución de probabilidad conjunta. También se muestran las densidades marginales.

¿Son siempre normales si sus partes lo son?

No. Que dos datos por separado sigan una distribución normal no significa que cuando los miras juntos, también sigan una distribución normal multivariante. Es un error común pensarlo.

Independencia y correlación

Si dos datos están normalmente distribuidos y son estadísticamente independientes (es decir, no se afectan entre sí), entonces sí, su distribución conjunta será normal multivariante.

Sin embargo, si dos datos están normalmente distribuidos y no son independientes, pero tampoco están relacionados de forma lineal (se dice que son "incorrelados"), no significa que sean independientes. Pueden tener una relación más compleja.

Estabilidad de la distribución

La distribución normal multivariante es "estable". Esto significa que si sumas varios conjuntos de datos que siguen esta distribución (y son independientes entre sí), el resultado también seguirá una distribución normal multivariante. Su nuevo promedio será la suma de los promedios, y su nueva matriz de covarianza será la suma de las matrices de covarianza.

Caso con dos variables

Cuando solo tenemos dos variables, como la altura y el peso, la fórmula de la función de densidad se simplifica. En este caso, un valor importante es el coeficiente de correlación (\rho), que nos dice qué tan fuerte es la relación lineal entre las dos variables.

Transformaciones de los datos

Archivo:MultivariateNormal
Ilustración de una distribución gaussiana multivariante y sus marginales.

Si tienes datos que siguen una distribución normal multivariante y les aplicas una transformación lineal (como multiplicarlos por un número o sumarles una constante), los nuevos datos también seguirán una distribución normal multivariante. Esto es muy útil en estadística.

Por ejemplo, si tienes un conjunto de datos y solo quieres estudiar un subconjunto de ellos (como solo la altura y la edad, dejando fuera el peso), ese subconjunto también tendrá una distribución normal multivariante.

¿Cómo se estiman los parámetros?

Para usar la distribución normal multivariante, necesitamos estimar sus parámetros: el vector de promedios (\mu) y la matriz de covarianza (\Sigma). Esto se hace a partir de los datos que tenemos.

Una forma común de estimar la matriz de covarianza es usando la matriz muestral de covarianza. Esta matriz se calcula a partir de las diferencias entre cada dato y el promedio de todos los datos.

Pruebas de normalidad multivariante

Existen pruebas especiales para saber si un conjunto de datos realmente sigue una distribución normal multivariante. Estas pruebas comparan tus datos con lo que esperarías de una distribución normal multivariante. Si el resultado de la prueba es muy bajo, significa que tus datos probablemente no siguen esta distribución.

Simulación de valores

A veces, los científicos necesitan crear datos que sigan una distribución normal multivariante para hacer experimentos o modelos. Un método común para hacer esto es:

  1. Calcular una "descomposición de Cholesky" de la matriz de covarianza. Esto es como encontrar la "raíz cuadrada" de la matriz.
  2. Generar datos aleatorios que sigan una distribución normal estándar simple.
  3. Usar la "raíz cuadrada" de la matriz de covarianza y los datos aleatorios simples para crear los nuevos datos que sigan la distribución normal multivariante deseada.
kids search engine
Distribución normal multivariada para Niños. Enciclopedia Kiddle.