robot de la enciclopedia para niños

Mínimos cuadrados para niños

Enciclopedia para niños
Archivo:Linear least squares2
El resultado del ajuste de un conjunto de datos a una función cuadrática.

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados —variable independiente, variable dependiente— y una familia de funciones, se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.

En su forma más simple, intenta minimizar la suma de cuadrados de las diferencias en las ordenadas (llamadas residuos) entre los puntos generados por la función elegida y los correspondientes valores en los datos. Específicamente, se llama mínimos cuadrados promedio (LMS) cuando el número de datos medidos es 1 y se usa el método de descenso por gradiente para minimizar el residuo cuadrado. Se puede demostrar que LMS minimiza el residuo cuadrado esperado, con el mínimo de operaciones (por iteración), pero requiere un gran número de iteraciones para converger.

Desde un punto de vista estadístico, un requisito implícito para que funcione el método de mínimos cuadrados es que los errores de cada medida estén distribuidos de forma aleatoria. El teorema de Gauss-Márkov prueba que los estimadores mínimos cuadráticos carecen de sesgo y que el muestreo de datos no tiene que ajustarse, por ejemplo, a una distribución normal. También es importante que los datos a procesar estén bien escogidos, para que permitan visibilidad en las variables que han de ser resueltas (para dar más peso a un dato en particular, véase mínimos cuadrados ponderados).

La técnica de mínimos cuadrados se usa comúnmente en el ajuste de curvas. Muchos otros problemas de optimización pueden expresarse también en forma de mínimos cuadrados, minimizando la energía o maximizando la entropía.

Historia

El día de Año Nuevo de 1801, el astrónomo italiano Giuseppe Piazzi descubrió el planeta enano Ceres. Fue capaz de seguir su órbita durante 40 días. Durante el curso de ese año, muchos científicos intentaron estimar su trayectoria con base en las observaciones de Piazzi (resolver las ecuaciones no lineales de Kepler de movimiento es muy difícil). La mayoría de las evaluaciones fueron inútiles; el único cálculo suficientemente preciso para permitir a Franz Xaver von Zach, astrónomo alemán, reencontrar a Ceres al final del año fue el de Carl Friedrich Gauss, por entonces un joven de 24 años (los fundamentos de su enfoque ya los había planteado en 1795, cuando aún tenía 18 años). Sin embargo, su método de mínimos cuadrados no se publicó sino hasta 1809, y apareció en el segundo volumen de su trabajo sobre mecánica celeste, Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. El francés Adrien-Marie Legendre desarrolló el mismo método de forma independiente en 1805.

En 1829, Gauss fue capaz de establecer la razón del éxito maravilloso de este procedimiento: simplemente, el método de mínimos cuadrados es óptimo en muchos aspectos. El argumento concreto se conoce como teorema de Gauss-Márkov.

Formulación formal del problema bidimensional

Sea {\{(x_k,y_k)\}}_{k=1}^n un conjunto de n puntos en el plano real, y sea {\{f_j(x)\}}_{j=1}^m una base de m funciones linealmente independiente en un espacio de funciones. Queremos encontrar una función f(x)\! que sea combinación lineal de las funciones base, de modo que f(x_k)\approx y_k, esto es:

f(x)=\sum_{j=1}^m c_j f_j (x)

Por tanto, se trata de hallar los m coeficientes c_j que hagan que la función aproximante f(x)\! dé la mejor aproximación para los puntos dados (x_k,y_k) \!. El criterio de "mejor aproximación" puede variar, pero en general se basa en aquel que minimice una "acumulación" del error individual (en cada punto) sobre el conjunto total. En primer lugar, el error (con signo positivo o negativo) de la función f(x)\! en un solo punto, (x_k, y_k), se define como:

e_k=y_k - f(x_k) \!

pero se intenta medir y minimizar el error en todo el conjunto de la aproximación, {\{(x_k,y_k)\}}_{k=1}^n . En matemáticas, existen diversas formas de definir el error, sobre todo cuando este se refiere a un conjunto de puntos (y no solo a uno), a una función, etc. Dicho error (el error "total" sobre el conjunto de puntos considerado) suele definirse con alguna de las siguientes fórmulas:

Error Máximo: E_\infty (f) = \max(|e_k|)
Error Medio: E_{\rm m} (f) = \frac{\sum_{k = 1}^n |e_k|}{n}
Error cuadrático medio: E_{\rm cm} (f) = \sqrt{\frac{\sum_{k = 1}^n (e_k)^2}{n}}

La aproximación por mínimos cuadrados se basa en la minimización del error cuadrático medio o, equivalentemente, en la minimización del radicando de dicho error, el llamado error cuadrático, definido como:

E_{\rm c}(f) = \frac{\sum_{k = 1}^n (e_k)^2}{n}

Para alcanzar este objetivo, se utiliza el hecho que la función f debe poder describirse como una combinación lineal de una base de funciones. Los coeficientes de la combinación lineal serán los parámetros que queremos determinar. Por ejemplo, supongamos que f es una función cuadrática, lo que quiere decir que es una combinación lineal, f(x) = ax^2+bx+c\,\!, de las funciones f_1(x) = x^2, f_2(x) = x y f_3(x) = 1 (m=3 en este caso), y que se pretende determinar los valores de los coeficientes: a, b, c\!, de modo que minimicen la suma (S) de los cuadrados de los residuos:

 S = \sum_{i=1}^n (y_i - f(x_i))^2  = \sum_{i=1}^n (y_i - ax_i^2 - bx_i - c)^2

Esto explica el nombre de mínimos cuadrados. A las funciones que multiplican a los coeficientes buscados, que en este caso son: x^2, x y 1, se les conoce con el nombre de funciones base de la aproximación, y pueden ser funciones cualesquiera. Para ese caso general se deduce a continuación la fórmula de la mejor aproximación discreta (i.e. para un conjunto finito de puntos), lineal y según el criterio del error cuadrático medio, que es la llamada aproximación lineal por mínimos cuadrados. Es posible generar otro tipo de aproximaciones, si se toman los errores máximo o medio, por ejemplo, pero la dificultad que entraña operar con ellos, debido al valor absoluto de su expresión, hace que sean difíciles de tratar y casi no se usen.

Solución del problema de los mínimos cuadrados

La aproximación mínimo cuadrática consiste en minimizar el error cuadrático mencionado más arriba, y tiene solución general cuando se trata de un problema de aproximación lineal (lineal en sus coeficientes c_j) cualesquiera que sean las funciones base: f_j (x) antes mencionadas. Por lineal se entiende que la aproximación buscada se expresa como una combinación lineal de dichas funciones base. Para hallar esta expresión se puede seguir un camino analítico, expuesto abajo, mediante el cálculo multivariable, consistente en optimizar los coeficientes  c_j ; o bien, alternativamente, seguir un camino geométrico con el uso del álgebra lineal, como se explica más abajo, en la llamada deducción geométrica. Para los Modelos estáticos uniecuacionales, el método de mínimos cuadrados no ha sido superado, a pesar de diversos intentos para ello, desde principios del Siglo XIX. Se puede demostrar que, en su género, es el que proporciona la mejor aproximación.

Deducción analítica de la aproximación discreta mínimo cuadrática lineal

Sea {\{(x_k,y_k)\}}_{k=1}^n un conjunto de n pares con abscisas distintas, y sea {\{f_j (x)\}}_{j=1}^m un conjunto de m funciones linealmente independientes (en un espacio vectorial de funciones), que se llamarán funciones base. Se desea encontrar una función f(x) de dicho espacio, o sea, combinación lineal de las funciones base, tomando por ello la forma:

f(x)=c_1 f_1 (x)+ c_2 f_2(x)+ . . . + c_m f_m (x) =\sum_{j=1}^m {c_j f_j (x)}.

Ello equivale por tanto a hallar los m coeficientes: {\{c_j (x)\}}_{j=1}^m . En concreto, se desea que tal función f(x) sea la mejor aproximación a los n pares {(x_k,y_k)}_1^n empleando, como criterio de "mejor", el criterio del mínimo error cuadrático medio de la función f(x) con respecto a los puntos {(x_k,y_k)}_1^n .

El error cuadrático medio será para tal caso:

E_{\rm cm} = \sqrt{\frac{\sum_{k = 1}^n (e_k)^2}{n}}=\sqrt{\frac{1}{n} \sum_{k=1}^n (y_k-f(x_k))^2}=\sqrt{\frac{1}{n} \sum_{k=1}^n (y_k-\sum_{j=1}^m c_j f_j(x_k))^2}

Minimizar el error cuadrático medio es equivalente a minimizar el error cuadrático, definido como el radicando del error cuadrático medio, esto es:

E_{\rm c}= \sum_{k=1}^n (y_k-\sum_{j=1}^m c_j f_j(x_k))^2

Así, los c_j que minimizan E_{\rm cm} también minimizan E_{\rm c}, y podrán ser calculados derivando e igualando a cero este último:

\frac{\partial E_{\rm c}}{\partial c_i}=\sum_{k=1}^n 2(y_k-\sum_{j=1}^m c_j f_j(x_k))(-f_i(x_k))=0

Siendo i=1,2, . . .,m. Se obtiene un sistema de m ecuaciones con m incógnitas, que recibe el nombre de "Ecuaciones Normales de Gauss". Operando con ellas:

\sum_{k=1}^n(\sum_{j=1}^m c_j f_j(x_k) )f_i(x_k) = \sum_{k=1}^n y_k f_i(x_k) para i=1,2, . . .,m
\sum_{j=1}^m (\sum_{k=1}^n f_i(x_k) f_j (x_k) )c_j = \sum_{k=1}^n y_k f_i(x_k), para i=1,2, . . .,m

Si se desarrolla la suma, se visualiza la ecuación "i-ésima" del sistema de m ecuaciones normales:

(\sum_{k=1}^n f_i(x_k) f_1 (x_k))c_1+(\sum_{k=1}^n f_i(x_k) f_2 (x_k) )c_2+ . . . + (\sum_{k=1}^n f_i(x_k) f_m (x_k)) c_m =\sum_{k=1}^n y_k f_i(x_k), para cada i=1,2, . . .,m

Lo cual, en forma matricial, se expresa como:

\begin{bmatrix}
{(f_1,f_1)}_d & {(f_1,f_2)}_d & \dots & {(f_1,f_m)}_d \\
{(f_2,f_1)}_d & {(f_2,f_2)}_d & \dots & {(f_2,f_m)}_d \\
\vdots & \vdots & \ddots & \vdots \\
{(f_m,f_1)}_d & {(f_m,f_2)}_d & \dots & {(f_m,f_m)}_d 
\end{bmatrix}\begin{bmatrix}
c_1\\
c_2\\
...\\
c_m
\end{bmatrix}=\begin{bmatrix}
{(f_1,y)}_d\\
{(f_2,y)}_d\\
...\\
{(f_m,y)}_d
\end{bmatrix}

Siendo {(a,b)}_d el producto escalar discreto, definido para dos funciones dadas h(x) y g(x) como:

{(h(x),g(x))}_d=\sum_{k=1}^n h(x_k) g(x_k),

y para una función h(x) y vector cualquiera u, como:

{(h(x),u)}_d=\sum_{k=1}^n h(x_k) u_k

La resolución de dicho sistema permite obtener, para cualquier base de funciones derivables localmente, la función f(x) que sea mejor aproximación mínimo cuadrática al conjunto de puntos antes mencionado. La solución es óptima –esto es, proporciona la mejor aproximación siguiendo el criterio de mínimo error cuadrático–, puesto que se obtiene al optimizar el problema.

Corolario

Si se tratara de hallar el conjunto de coeficientes \{c_j\} tal que f(x) pase exactamente por todos los pares {\{(x_k,y_k)\}}_{k=1}^n , esto es, tales que f(x) interpole a {\{(x_k,y_k)\}}_{k=1}^n , entonces tendría que cumplirse que:

\sum_{j=1}^m c_j f_j(x_k)= y_k

Que en forma matricial se expresa como:

\begin{bmatrix}
f_1(x_1) & f_2(x_1) & \dots & f_m(x_1) \\
f_1(x_2) & f_2(x_2) & \dots & f_m(x_2) \\
\vdots & \vdots & \ddots & \vdots \\
f_1(x_n) & f_2(x_n) & \dots & f_m(x_n) 
\end{bmatrix}\begin{bmatrix}
c_1\\
c_2\\
\vdots\\
c_m
\end{bmatrix}=\begin{bmatrix}
y_1\\
y_2\\
\vdots\\
y_n
\end{bmatrix}=\mathbf{A} \mathbf{c}=\mathbf{b}

Esto establece un sistema de n ecuaciones y m incógnitas, y como en general n>m, quedaría sobredeterminado: no tendría siempre una solución general. Por tanto, la aproximación tratará en realidad de hallar el vector c que mejor aproxime \mathbf{A} \mathbf{c}=\mathbf{b}.

Se puede demostrar que la matriz de coeficientes de las ecuaciones normales de Gauss coincide con \mathbf{A}^{-1}\mathbf{A}, siendo \mathbf{A} la matriz de coeficientes exactas, y como el término independiente de las ecuaciones normales de Gauss coincide con el vector \mathbf{A}^{-1}\mathbf{b}, se tiene que los valores \{c_j\} que mejor aproximan f(x) pueden calcularse como la solución al sistema \mathbf{A} \mathbf{c}=\mathbf{b}:

\mathbf{A}^{-1}\mathbf{A}\mathbf{c}=\mathbf{A}^{-1}\mathbf{b}

que es, precisamente, el sistema de las ecuaciones normales de Gauss.

Caso particular de una recta

Es de especial interés la aproximación de una serie de puntos con una recta. Para ello, elegimos la base funcional f_1(x)=x y f_2(x)=1. De este modo la combinación lineal es idéntica a la ecuación de la recta c_1f_1(x)+c_2f_2(x)=c_1x+c_2. Llamamos a = c_1, b=c_2. El sistema de ecuaciones normales de Gauss resulta en este caso:


\sum_{k=1}^n (ax_k+b).x_k=\sum_{k=1}^n (y_kx_k)


\sum_{k=1}^n (ax_k+b).1=\sum_{k=1}^n (y_k)


\begin{cases} a\sum_{k=1}^n x_k^2+b\sum_{k=1}^n x_k=\sum_{k=1}^n (y_kx_k)\\
a\sum_{k=1}^n x_k +n.b=\sum_{k=1}^n (y_k)\end{cases}

Lo resolvemos con la regla de cramer:


\Delta = n\sum_{k=1}^n x_k^2-(\sum_{k=1}^n x_k)^2


\Delta a= n\sum_{k=1}^n x_ky_k-\sum_{k=1}^n x_k\sum_{k=1}^n y_k


\Delta b= \sum_{k=1}^n x_k^2 \sum_{k=1}^n y_k-\sum_{k=1}^n x_ky_k\sum_{k=1}^n x_k


a=\frac{n\sum_{k=1}^n (x_ky_k)-\sum_{k=1}^n (x_k)\sum_{k=1}^n (y_k)}{n\sum_{k=1}^n x_k^2-(\sum_{k=1}^n x_k)^2}


b=\frac{\sum_{k=1}^n (y_k)\sum_{k=1}^n (x_k^2)-\sum_{k=1}^n (x_k)\sum_{k=1}^n (x_ky_k)}{n\sum_{k=1}^n x_k^2-(\sum_{k=1}^n x_k)^2}

Así se obtiene la recta que mejor se aproxima a los n puntos:


f(x)=ax+b

Deducción geométrica de la aproximación discreta mínimo cuadrática lineal

La mejor aproximación deberá tender a interpolar la función de la que proviene el conjunto de pares  (x_k,y_k) , esto es, deberá tender a pasar exactamente por todos los puntos. Eso supone que se debería cumplir que:

 f(x_k)=y_k\quad \text{con } k=1,2,\dots,n

Sustituyendo f(x) por su expresión como combinación lineal de una base de m funciones:

 \sum_{j=1}^m c_j f_j(x_k)=y_k\quad \text{con } k=1,\dots,n

Esto es, se tendría que verificar exactamente un sistema de n ecuaciones y m incógnitas, pero como en general n>m, dicho sistema estaría sobredeterminado y, por tanto, sin solución general. De ahí surge la necesidad de aproximarlo. Dicho sistema podría expresarse en forma matricial como:


  \begin{bmatrix}
    f_1(x_1) & f_2(x_1) & ... & f_m(x_1) \\
    f_1(x_2) & f_2(x_2) & ... & f_m(x_2) \\
    ... & ... & ... & ... \\
    f_1(x_n) & f_2(x_n) & ... & f_m(x_n)
  \end{bmatrix}
\times
    \begin{bmatrix}
    c_1 \\
    c_2 \\
    ... \\
    c_m
  \end{bmatrix}
=
  \begin{bmatrix}
    y_1 \\
    y_2 \\
    ... \\
    y_n
  \end{bmatrix}

Esto es:

 A c=b \;

La aproximación trata de hallar el vector c aproximante que mejor aproxime el sistema  A c=b . Con dicho vector c aproximante, es posible definir el vector residuo como:

 r= b - A c \;

De manera que el mínimo error cuadrático supone minimizar el residuo, definiendo su tamaño según la norma euclídea o usual del residuo, que equivale al error cuadrático:

 \|r\|_2= \sqrt{(r,r)_2} =\sqrt{r^{\mathrm{T}} r}= \sqrt{\sum_{k=1}^n (r_k)^2}

siendo (r,r)_2 el producto interior o escalar del vector residuo sobre sí mismo. Si atendemos al sistema  A c=b , entonces se ve claramente que al multiplicar A y c, lo que se realiza es una combinación lineal de las columnas de A:

 A c=
  \begin{bmatrix}
    A_1 & A_2 & ... & A_m 
  \end{bmatrix}
\times
\begin{bmatrix}
    c_1 \\
    c_2 \\
    ... \\
    c_m
  \end{bmatrix}
= c_1 A_1 + c_2 A_2 +...+ c_m A_m

El problema de aproximación será hallar aquella combinación lineal de columnas de la matriz A lo más cercana posible al vector b. Se comprueba que el conjunto de las columnas de A generan un espacio vectorial o span lineal:  \operatorname{span}(A_1, A_2, ..., A_m) , al que el vector b no tiene porqué pertenecer (si lo hiciera, el sistema A·c=b tendría solución).

Entonces, de los infinitos vectores del  \operatorname{span}(A_1, A_2, ..., A_m) que son combinación lineal de los vectores de la base, se tratará de hallar el más cercano al vector b.

De entre todos ellos, el que cumple esto con respecto a la norma euclídea es la proyección ortogonal de b sobre  \operatorname{span}(A_1, A_2, ..., A_m) , y que por tanto hace que el tamaño del vector r, que será el vector que une los extremos de los vectores b y proyección ortogonal de b sobre el span, sea mínimo, esto es, que minimiza su norma euclídea.

Es inmediato ver que si el residuo une b con su proyección ortogonal, entonces es a su vez ortogonal al  \operatorname{span}(A_1, A_2, ..., A_m) , y a cada uno de los vectores de la base, esto es, ortogonal a cada columna de A.

La condición de minimización del residuo será:

 r \perp \operatorname{span}(A_1, A_2...,A_m)

Que es cierto si y solo si:

 r \perp A_j  , \forall j \iff A_j \perp r , \forall j \iff (A_j,r)_2=0=A_j^t r , \forall j=1,2,...,m

A su vez, cada una de las m condiciones de perpendicularidad se pueden agrupar en una sola:

 A^{\mathrm{T}} r= 0 \;

Sustituyendo el residuo por su expresión:

 A^{\mathrm{T}} (b - A c)= 0 \iff A^{\mathrm{T}} A c= A^{\mathrm{T}} b

Por tanto, la mejor aproximación mínimo cuadrada lineal para un conjunto de puntos discretos, sean cuales sean las funciones base, se obtiene al resolver el sistema cuadrado:

 A^{\mathrm{T}} A c= A^{\mathrm{T}} b \;

A esta ecuación se le llama ecuación normal de Gauss, y es válida para cualquier conjunto de funciones base. Si estas son la unidad y la función x, entonces la aproximación se llama regresión lineal.

Véase también

Kids robot.svg En inglés: Least squares Facts for Kids

  • Regresión isotónica
  • Filtro de mínimos cuadrados promedio
  • Estimación de mínimos cuadrados de coeficientes para regresión lineal
  • Regresión lineal
  • Mínimos cuadrados móviles
  • Mínimos cuadrados no lineales
  • Análisis de regresión
  • Regresión robusta
  • Valor eficaz
  • Teorema de Gauss-Márkov
  • Mínimos cuadrados totales
  • Mínimos cuadrados ordinarios
  • Mínimos cuadrados ponderados
  • Análisis de la varianza
  • Ecuaciones normales del problema de cuadrados mínimos
  • Algoritmo de Levenberg-Marquardt
kids search engine
Mínimos cuadrados para Niños. Enciclopedia Kiddle.