robot de la enciclopedia para niños

Descomposición en valores singulares para niños

Enciclopedia para niños

En álgebra lineal, la descomposición en valores singulares (o DVS) de una matriz real o compleja es una factorización de la misma con muchas aplicaciones en estadística y otras disciplinas.

Definiciones previas

Dada una matriz real A \in \mathbb{R}^{m \times n}, los autovalores de la matriz cuadrada, simétrica y semidefinida positiva A^{T} A \in \mathbb{R}^{n \times n} son siempre reales y mayores o iguales a cero. Teniendo en cuenta el producto interno canónico vemos que:

\left( A^{T}A \right)^{T} = A^{T} \left(A^{T} \right)^{T} = A^{T}A. O sea que es simétrica

 <x, A^{T}Ax> = x^{T}A^{T}Ax = (Ax)^{T}Ax = ||Ax||^{2} \ge 0, es decir A^{T} A \, es semidefinida positiva, es decir, todos sus autovalores son mayores o iguales a cero.

Si \lambda_{i} \, es el i-ésimo autovalor asociado al i-ésimo autovector, entonces \lambda_{i} \in \mathbb{R}. Esto es una propiedad de las matrices simétricas. Ver demostración.

Definición

Sean \lambda_{1} \ge \lambda_{2} \ge \cdots \ge \lambda_{n} \ge 0 los autovalores de la matriz A^{T}A \, ordenados de mayor a menor. Entonces \sigma_{i} = \sqrt{\lambda_{i}} es el i-ésimo Valor Singular de la matriz A \,.

Teorema

Sea A \in \mathbb{R}^{m \times n} y \lambda_{1} \ge \cdots \ge \lambda_{r} > \lambda_{r+1} = \cdots = \lambda_{n} = 0 los autovalores de A^{T}A \,. Es decir los primeros r \, autovalores no nulos, ordenados de manera decreciente y los n-r \, autovalores nulos.

Sea \big\{ v_{1}, \cdots ,  v_{n} \big\} una base ortonormal de \mathbb{R}^{n} \, formada por autovectores de A^{T}A \,. Entonces:

  1. \Big\{ Av_{1}, \cdots ,  Av_{r} \Big\} es un conjunto ortogonal y ||Av_{i}|| = \sqrt{\lambda_{i}} = \sigma_{i}
  2. \Bigg\{ \frac{Av_{1}}{\sigma_{1}}, \cdots ,  \frac{Av_{r}}{\sigma_{r}} \Bigg\} es una base ortonormal del subespacio fundamental Col(A) \,.
  3. \Big\{ v_{r+1}, \cdots ,  v_{n} \Big\} es una base ortonormal del subespacio fundamental Nul(A) \,.
  4. rango(A) = r \, es decir, el rango de la matriz A \, coincide con la cantidad de Valores Singulares no nulos.

Demostración

  1.  <Av_{i} , Av_{j}> = v_{i}^{T}A^{T}Av_{j} = \lambda_{j} \cdot v_{i}^{T}v_{j} = \left\{ \begin{array}{c} \lambda_{j} \quad \mbox{si } i = j \\ 0 \quad \,\, \mbox{si } i \neq j \end{array} \right.. Teniendo en cuenta este resultado ||Av_{i}|| = \sqrt{<Av_{i} , Av_{i}>} = \sqrt{\lambda_{i}} = \sigma_{i}
  2. Como el conjunto de los vectores v_{i}, \,\, 1 \le i \le r es ortonormal (por lo tanto linealmente independiente), se ve que hacer el producto Av_{i} \, es ni más ni menos que una combinación lineal de las columnas de la matriz; por lo que el espacio generado por estos productos y las columnas de la matriz es el mismo. Por lo tanto, teniendo en cuenta lo demostrado en el punto anterior, \Bigg\{ \frac{Av_{1}}{\sigma_{1}}, \cdots ,  \frac{Av_{r}}{\sigma_{r}} \Bigg\} es una base ortonormal del Col(A) \,
  3. Es claro que si los vectores v_{i}, \,\, r+1 \le i \le n están asociados a autovalores nulos, teniendo en cuenta lo visto en el punto 1 y también sabiendo que Nul(A) = Nul(A^{T}A) \, (demostración en el último punto de esta lista de propiedades) se ve que \Big\{ v_{r+1}, \cdots ,  v_{n} \Big\} es una base ortonormal del Nul(A) \,
  4. Mirando la dimensión del subespacio hallado en el punto 2 de esta demostración, es claro que rango(A) = r \,

Descomposición en Valores Singulares de una matriz

Una DVS de A \, es una factorización del tipo A = U \Sigma V^{T} \, con U \in \mathbb{R}^{m \times m}, V \in \mathbb{R}^{n \times n} ortogonales y \Sigma \in \mathbb{R}^{m \times n} una matriz formada con los Valores Singulares de A \, en su diagonal principal ordenados de mayor a menor.

Teorema

Toda matriz A \in \mathbb{R}^{m \times n} admite una DVS.

Demostración

Sean \lambda_{1} \ge \cdots \ge \lambda_{r} > \lambda_{r+1} = \cdots = \lambda_{n} = 0 los autovalores de A^{T}A \in \mathbb{R}^{n \times n} ordenados de esta manera. Sea \big\{ v_{1}, \cdots ,  v_{n} \big\} una base ortonormal de \mathbb{R}^{n} \, formada por autovectores de A^{T}A \,, cada uno asociados (en orden) a un autovalor.

Recordemos que el conjunto \Big\{ Av_{1}, \cdots ,  Av_{n} \Big\} es ortogonal, con Av_{r+1} = \cdots = Av_{m} = 0_{\mathbb{R}^{m}} . Si llamamos u_{1} = \frac{Av_{1}}{\sigma_{1}}, \cdots , u_{r} = \frac{Av_{r}}{\sigma_{r}}, vemos que:

  • \big\{ u_{1}, \cdots ,  u_{r} \big\} es un conjunto ortonormal. Entonces, si r < m \, podemos completar con \big\{ u_{r+1}, \cdots ,  u_{m} \big\} hasta formar una base ortonormal de \mathbb{R}^{m}
  • \left\{ \begin{array}{c} Av_{1} = \sigma_{1} u_{1} \\ \vdots \\ Av_{r} = \sigma_{r} u_{r} \\ Av_{r+1} = 0_{\mathbb{R}^{m}} \\ \vdots \\ Av_{n} = 0_{\mathbb{R}^{m}} \end{array} \right.
  • Reescribiendo este último sistema de ecuaciones de manera matricial con las matrices V = [ v_{1} \quad \cdots \quad v_{n} ] \in \mathbb{R}^{n \times n} ortogonal y

U \Sigma = \underbrace{[ u_{1} \quad \quad \cdots \quad \quad u_{m}]}_{U \in \Re^{m \times m} \; ortogonal} \underbrace{ \left[ \begin{array}{ccccccc} \sigma_{1} & 0 & \cdots & 0 & 0 & \cdots & 0 \\ 0 & \sigma_{2} & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma_{r} & 0 & \cdots & 0 \\  
0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & 0 & 0 & \cdots & 0 \\ \end{array} \right]}_{\Sigma \in \Re^{m \times n}} = [ \sigma_{1} u_{1} \quad \cdots \quad \sigma_{r} u_{r} \quad 0 \quad \cdots \quad 0 ]

Claramente AV = U \Sigma \, y, finalmente, como V \, es una matriz ortogonal A = U \Sigma V^{T} \,. Esta es la ecuación de una DVS de A \,.

Viendo esta descomposición, es claro que la matriz A \, puede escribirse como combinación lineal de matrices de rango 1 tal que:

A = \sum_{i=1}^{r} \sigma_{i}u_{i}v_{i}^{T}

Descomposición en Valores Singulares Reducida (DVS Reducida)

Este tipo de descomposición resulta de quedarse sólo con los r \, autovectores unitarios asociados a los r \, Valores Singulares no nulos. Las matrices U, \, V, y \, \Sigma entonces son:

U_{r} = [u_{1} \quad \cdots \quad u_{r}]^{T}

V_{r} = [v_{1} \quad \cdots \quad v_{r}]^{T}

\Sigma_{r} = diag[\sigma_{1} \quad \cdots \quad \sigma_{r}]^{T}

A = U_{r} \Sigma_{r} V_{r}^{T}

Observación: \Sigma_{r} \, es una matriz diagonal de dimensión r \times r \,

Propiedades

Las matrices a continuación denotadas con la letra P \,, son de proyección sobre el subespacio indicado. Las matrices denotadas con la letra I \, son las identidades del orden denotado.

  • P_{Col(A)} = U_{r}U_{r}^{T}
  • P_{Nul\left(A^{T} \right)} = I_{m} - U_{r}U_{r}^{T} =  U_{m-r}U_{m-r}^{T}
  • P_{Fil(A)} = V_{r}V_{r}^{T}
  • P_{Nul (A)} = I_{n} - V_{r}V_{r}^{T} = V_{n-r}V_{n-r}^{T}
  • U_{r}^{T}U_{r} = U_{m-r}^{T}U_{m-r} = I_{m}
  • V_{r}^{T}V_{r} = V_{n-r}^{T}V_{n-r} = I_{n}
  • \big\{ u_{1}, \cdots , u_{r} \big\} es una base ortonormal de Col(A) \,
  • \big\{ u_{r+1}, \cdots , u_{m} \big\} es una base ortonormal de Nul \left( A^{T} \right) \,
  • \big\{ v_{1}, \cdots , v_{r} \big\} es una base ortonormal de Fil(A) \,
  • \big\{ v_{r+1}, \cdots , v_{n} \big\} es una base ortonormal de Nul (A) \,
  • A = U \Sigma V^{T} \Longrightarrow A^{T} = \left( U \Sigma V^{T} \right)^{T} = V \Sigma^{T} U^{T}
  • A^{T}A = V \Sigma^{T} U^{T} U \Sigma V^{T} \Longleftrightarrow A^{T}A = V \Sigma^{T} \Sigma V^{T} \Longleftrightarrow A^{T}A = V_{r} \,\,  diag[ \lambda_1 \quad \cdots \quad \lambda_{r} ]^{T} \,\, V_{r}^{T} Una diagonalización ortogonal de A^{T}A \,
  • Las matrices simétricas A^{T}A \in \mathbb{R}^{n \times n} \, y AA^{T} \in \mathbb{R}^{m \times m} \, tienen los mismos autovalores no nulos y, por lo tanto, los Valores Singulares no nulos de la matriz A \, pueden calcularse usando cualquiera de estas 2. Además, todos los vectores del conjunto \big\{u_{1}, \cdots, u_{r} \big\} son autovectores de AA^{T} \in \mathbb{R}^{m \times m} \, y también, como ya se mencionó, Nul \left( A^{T} \right) = \big\{u_{r+1}, \cdots, u_{m} \big\}. Esto es fácil de ver, teniendo en cuenta que:

\forall \quad 1 \le i \le r \,\, : \quad Av_{i} = \sigma_{i}u_{i} \Longleftrightarrow A \underbrace{A^{T}Av_{i}}_{\lambda_{i} \cdot v_{i}} = \sigma_{i} \cdot AA^{T}u_{i} \Longleftrightarrow \lambda_{i} \cdot Av_{i} = \sigma_{i}^{2} \cdot \underbrace{Av_{i}}_{\sigma_{i}u_{i}} = \sigma_{i} \cdot AA^{T}u_{i} \Longleftrightarrow AA^{T}u_{i} = \sigma_{i}^{2} \cdot u_{i} = \lambda_{i} \cdot u_{i}

Este resultado es útil para facilitar el cálculo de Valores Singulares. Por ejemplo, dada A \in \mathbb{R}^{2 \times 8} \,, entonces A^{T}A \in \mathbb{R}^{8 \times 8} \, tiene un polinomio característico de grado 8 y AA^{T} \in \mathbb{R}^{2 \times 2} \, tiene un polinomio característico de grado 2. Como los autovalores no nulos de ambas matrices coinciden, el cálculo de Valores Singulares de A \, se hace más sencillo.

Aplicaciones

Pseudoinversa

Para una matriz no cuadrada A descompuesta en valores singulares A = U \Sigma V^{T} \,, su pseudoinversa es

A^{+} = V \Sigma^{+} U^{T} \,

donde \Sigma^{+}es la pseudoinversa de \Sigma, que siendo una matriz diagonal se computa reemplazando todos los valores no ceros de la diagonal por sus recíprocos, y luego trasponiendo.

La pseudoinversa es un camino para resolver cuadrados mínimos lineales.

Solución de norma mínima

La pseudoinversa obtenida mediante la DVS permite hallar x que minimiza la norma \|\mathbf{Ax - b}\|. La solución esː

x_{min} = A^{+} b = V \Sigma^{+} U^{T} b

Se aplica para aproximar la solución del sistema de ecuaciones indeterminado \|\mathbf{Ax - b}\|.

Solución de ecuaciones lineales homogéneas

Un conjunto de ecuaciones lineales homogéneas se puede escribir Ax = 0 para una matriz A y un vector x. Una situación típica consiste hallar x no cero, conociendo A. Las soluciones son todos los vectores singulares cuyo valor singular es cero, y toda combinación lineal entre ellos. Si A no tiene ningún valor singular cero, entonces no hay solución aparte de x = 0.

Minimización de cuadrados mínimos totales

El problema de minimización por cuadrados mínimos totales consiste en hallar x que minimiza la norma \|\mathbf{Ax}\| bajo la condición \|\mathbf{x}\| = 1.

\min_{x}\|Ax\| para \|x\|= 1

La solución es el vector singular correspondiente al mínimo valor singular no cero.

Ejemplos de cálculo de DVS

Ejemplo 1

Si A = \left[ \begin{array}{cc} 0 & 0 \\ 0 & 9 \\ 3 & 0 \end{array} \right], entonces A^{T}A = \left[ \begin{array}{cc} 9 & 0 \\ 0 & 81 \end{array} \right] cuyos autovalores son \lambda_{1} = 81 \quad \wedge \quad \lambda_{2} = 9 asociados a los autovectores v_{1} = [0 \quad 1]^{T} \quad \wedge \quad v_{2} = [1 \quad 0]^{T}. Ya que la matriz es simétrica, estos vectores son ortogonales (ver diagonalización de matrices Hermíticas).

Entonces, los Valores Singulares de A \, son \sigma_{1} = \sqrt{81} = 9 \quad \wedge \quad \sigma_{2} = \sqrt{9} = 3. Observamos que, efectivamente, la cantidad de Valores Singulares no nulos coincide con el rango de la matriz.

Ahora buscamos los vectores \big\{ u_{1}, u_{2} , u_{3} \big\} con u_{i} \in \mathbb{R}^{3}, que deberán cumplir

\left\{ \begin{array}{c} Av_{1} = \sigma_{1} u_{1} \\ Av_{2} = \sigma_{2} u_{2} \\ Av_{3} = 0_{\mathbb{R}^{3}} \end{array} \right.

Esto es u_{1} = \frac{Av_{1}}{\sigma_{1}} = \frac{1}{9} [0 \quad 9 \quad 0]^{T} = [0 \quad 1 \quad 0]^{T} y u_{2} = \frac{Av_{2}}{\sigma_{2}} = \frac{1}{3}[0 \quad 0 \quad 3]^{T} = [0 \quad 0 \quad 1]^{T}.

Entonces completamos una base ortonormal de \mathbb{R}^{3} \, con \Big\{ [0 \quad 1 \quad 0]^{T}, [0 \quad 0 \quad 1]^{T} ,  [1 \quad 0 \quad 0]^{T} \Big\}.

Nuestras matrices ortogonales son:

U = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{array} \right] \quad V =  \left[ \begin{array}{cc} 0 & 1 \\ 1 & 0  \end{array} \right]

Y la matriz compuesta por los Valores Singulares ordenados:

\Sigma = \left[ \begin{array}{cc} 9 & 0 \\ 0 & 3 \\ 0 & 0 \end{array} \right]

Por lo tanto la DVS de A \, es:

A = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{array} \right] \left[ \begin{array}{cc} 9 & 0 \\ 0 & 3 \\ 0 & 0 \end{array} \right] \left[ \begin{array}{cc} 0 & 1 \\ 1 & 0  \end{array} \right] = 9 \cdot  \left[ \begin{array}{c} 0 \\ 1  \\ 0 \end{array} \right] \cdot [0 \quad 1] \, + \, 3 \cdot  \left[ \begin{array}{c} 0 \\ 0  \\ 1 \end{array} \right] \cdot [1 \quad 0] = \left[ \begin{array}{cc} 0 & 0 \\ 0 & 9 \\ 3 & 0 \end{array} \right].

Y la DVS Reducida es

A = \left[ \begin{array}{cc} 0 & 0 \\ 1 & 0 \\ 0 & 1 \end{array} \right] \left[ \begin{array}{cc} 9 & 0 \\ 0 & 3 \end{array} \right] \left[ \begin{array}{cc} 0 & 1 \\ 1 & 0 \end{array} \right]

Observación: No siempre ocurre que V = V^{T} \, como en este caso.

Ejemplo 2

Sea B = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 0 & 0 & 1 \end{array} \right]. Entonces, para hacer más sencillo el proceso, calculamos BB^{T} = \left[ \begin{array}{cc} 1 & 1 \\ 1 & 1 \end{array} \right] que tiene un polinomio característico de grado 2. Los autovalores son \lambda_{1} = 2 \quad \wedge \quad \lambda_{2} = 0 asociados a los autovectores de norma unitaria u_{1} = \frac{1}{\sqrt{2}} \cdot [1 \quad 1]^{T} \quad \wedge \quad u_{2} = \frac{1}{\sqrt{2}} \cdot [-1 \quad 1]^{T}. Nuestro único valor singular no nulo es \sigma_{1} = \sqrt{2}

Observaciones:

  • Es claro que rango(B) = 1 \, coincide con la cantidad de Valores Singulares no nulos de la matriz y además Col(B) = \Bigg\{ \frac{1}{\sqrt{2}} \cdot [1 \quad 1]^{T}  \Bigg\} \,
  • Sabemos que B^{T}B \in \mathbb{R}^{3 \times 3} \, tiene un polinomio característico de grado 3. Entonces, sus raíces son \lambda_{1} = 2, \,\, \lambda_{2} = \lambda_{3} = 0. Veámoslo:

B^{T}B = \left[ \begin{array}{ccc} 0 & 0 & 0 \\ 0 & 0 & 0 \\ 0 & 0 & 2 \end{array} \right] \Longrightarrow p \left( \lambda \right) = det \left( B^{T}B - \lambda \cdot I_{3} \right) = -\lambda^{3} + 2 \lambda^{2}

Ahora, sabemos que Bv_{i} = \sigma_{i}u_{i} \Longleftrightarrow B^{T}B v_{i} = \sigma_{i}^{2} v_{i} = \sigma_{i} \cdot B^{T} u_{i}, es decir B^{T}u_{i} = \sigma_{i}v_{i} \Longleftrightarrow v_{i} = \frac{B^{T}u_{i}}{\sigma_{i}}. Entonces, resulta del único Valor singular no nulo: v_{1} = \frac{1}{2} \cdot [0 \quad 0 \quad 2]^{T} = [0 \quad 0 \quad 1]^{T}.

Ahora, completamos una base ortonormal de \mathbb{R}^{3} \, con \Big\{ [0 \quad 0 \quad 1]^{T}, [1 \quad 0 \quad 0]^{T}, [0 \quad 1 \quad 0]^{T} \Big\}. En este ejemplo, nuestras matrices ortogonales son:

U = \frac{1}{\sqrt{2}} \cdot \left[ \begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array} \right] \quad V =  \left[ \begin{array}{ccc} 0 & 1 & 0 \\ 0 & 0 & 1 \\ 1 & 0 & 0 \end{array} \right]

\Sigma = \left[ \begin{array}{ccc} \sqrt{2} & 0 & 0 \\ 0 & 0 & 0 \end{array} \right]

Y la DVS resulta entonces:

B = \frac{1}{\sqrt{2}} \cdot \left[ \begin{array}{cc} 1 & -1 \\ 1 & 1 \end{array} \right] \left[ \begin{array}{ccc} \sqrt{2} & 0 & 0 \\ 0 & 0 & 0 \end{array} \right] \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 1 & 0 & 0 \\ 0 & 1 & 0 \end{array} \right] =  \left[ \begin{array}{c} 1 \\ 1 \end{array} \right] \left[ \begin{array}{ccc} 0 & 0 & 1 \end{array} \right] = \left[ \begin{array}{ccc} 0 & 0 & 1 \\ 0 & 0 & 1 \end{array} \right]

Nota: la DVS reducida se muestra en la segunda igualdad de la ecuación anterior.

Véase también

Kids robot.svg En inglés: Singular value decomposition Facts for Kids

  • Matriz normal
  • Matriz ortogonal
  • Matriz simétrica
  • Diagonalización de una matriz
  • Subespacios fundamentales de una matriz
  • Pseudoinversa de Moore-Penrose
kids search engine
Descomposición en valores singulares para Niños. Enciclopedia Kiddle.