¿Cuáles son los pasos para convertir la suma ponderada de cuadrados en forma matricial?

Soy nuevo en la conversión de fórmulas a forma de matriz. Pero esto es necesario para un código de aprendizaje automático eficiente. Así que quiero entender la forma "correcta", no las cosas de vaquero que hago.

Bien, aquí vamos, estoy tratando de convertir la suma ponderada de cuadrados del formulario a continuación en forma matricial. A menudo veo la forma de la matriz como equivalente a la siguiente, y no se da ninguna explicación sobre cómo se deriva.

J (w) = \sum_{i = 1}^{m} u_{i} (w^{T} x_{i} - y_{i})^{2}

$J(w)=\sum_{i=1}^m u_i (w^T x_i - y_i)^2$

donde es el peso de cada error de muestra . Además, , , , , . es el valor predicho, el resultado de multiplicar un vector de peso por un vector de características. $u_i$ $_i$ $x_i \in \mathbb{R^n}$ $w \in \mathbb{R^n}$ $y \in \mathbb{R}$ $u_i \in \mathbb{R}$ $i=1,...,m$ $w^T x_i$

Esto es lo que pienso, y me vuelvo creativo. Así que siéntase libre de saltar hasta el final si voy por una tangente.

Sea un vector de columna de funciones que representa el error no cuadrado. Podemos representar sobre as $r$ $(w^T x_i - y_i)^2$ $i=1,...,m$

\begin{matrix} (1) & r^{2} = [\begin{matrix} r_{1} & r_{2} & \dots & r_{m} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ ⋮ \\ r_{m} \end{matrix}] \end{matrix}

$r^2 = \begin{bmatrix}r_1 & r_2 & \cdots & r_m\end{bmatrix} \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \\ \end{bmatrix} \tag{1}\label{1}$

Los resultados del vector multiplicado por el vector es una matriz (escalar). $1 \times m$ $m \times 1$ $1 \times 1$

Vamos ser un vector de pesos que pesa cada error de la muestra. Como necesitamos sopesar los errores al cuadrado, debemos incorporar en la Fórmula antes de obtener el escalar. Como queremos que la primera permanezca como un vector , definimos que es una matriz diagonal con los términos diagonales que provienen de . Ahora tenemos: $u$ $u$ $\ref{1}$ $r$ $1 \times m$ $U$ $u$

\begin{matrix} (2) & J (w) = [\begin{matrix} r_{1} & r_{2} & \dots & r_{m} \end{matrix}] [\begin{matrix} u_{1} & 0 & \dots & 0 \\ 0 & u_{2} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & \dots & u_{m} \end{matrix}] [\begin{matrix} r_{1} \\ r_{2} \\ ⋮ \\ r_{m} \end{matrix}] \end{matrix}

$J(w) = \begin{bmatrix}r_1 & r_2 & \cdots & r_m\end{bmatrix} \begin{bmatrix} u_1 & 0 & \cdots & 0\\ 0 & u_2 & \cdots & 0\\ \vdots & \vdots & \ddots & \vdots\\ 0 & 0 & \cdots & u_m\\ \end{bmatrix} \begin{bmatrix} r_1 \\ r_2 \\ \vdots \\ r_m \\ \end{bmatrix} \tag{2}\label{2}$

Podemos simplificar esto a

\begin{matrix} (3) & J (w) = r^{T} U r \end{matrix}

$J(w) = r^T U r \tag{3}\label{3}$

Ahora ampliamos . Teníamos multiplicado por , dándonos donde X ahora es una matriz y es un vector de columna . Sea y el vector de columna que representa las etiquetas . Ahora . Sustituimos esto en la fórmula , dándonos la suma ponderada final de los cuadrados en forma de matriz: $r$ $x_i \in \mathbb{R^n}$ $w \in \mathbb{R^n}$ $Xw$ $m \times n$ $w$ $n \times 1$ $m \times 1$ $y = 1,...,m$ $r = (Xw - y)$ $\ref{3}$

\begin{matrix} (4) & J (w) = (X w - y)^{T} U (X w - y) \end{matrix}

$J(w) = (Xw - y)^T U(Xw-y) \tag{4}\label{4}$

Primero, ¿tiene sentido? Segundo, y lo más importante, ¿es así como se supone que debes hacerlo?

Gracias

regression machine-learning linear-algebra

— vega
fuente

¡Esto: math.stackexchange.com/questions/198257/… podría ayudarte!

— kjetil b halvorsen

+1: Es curioso que creas que estás haciendo 'cosas de vaquero'. Esta es exactamente la forma de hacerlo, aunque nunca lo escribiría de manera exhaustiva (¡tan buen trabajo!). Este es un capítulo de un libro de mi curso de econometría 1 durante mi estudio de econometría. La página 120 explica cómo reescribir una función (fácil) para la notación matricial y la página 121 es su ejemplo sin los pesos (aunque la notación es ligeramente diferente). Si no recuerdo mal, otro capítulo también maneja estimadores WLS (que es básicamente su expresión).

— Marcel10

Me parece bien.

— Matthew Gunn

Voy a aventurar una respuesta a esta pregunta: todo lo que has presentado es correcto.

Lo que básicamente ha derivado es el teorema de Gauss-Markov: el estimador de mínimos cuadrados ponderado es el mejor estimador lineal imparcial para datos ponderados. Este estimador minimiza la suma de cuadrados ponderada (su primera pantalla) y está dado por: . Aquí es la matriz de diseño con la primera columna establecida en el vector de unos (este es el término de intercepción). $\hat{\beta}_{WLS} = \left( \mathbf{X}^T\mathbf{W}\mathbf{X} \right) \left( \mathbf{X}^T \mathbf{W} Y \right)$ $\mathbf{X}$ $\mathbf{1}$ $n \times 1$

Este resultado se aplica a una matriz de covarianza arbitraria. Sin embargo, los datos independientes ponderados se representan con un vector de pesos a lo largo de la diagonal de la matriz de pesos. (su notación tiene como el coeficiente de regresión como el peso, por lo que para evitar confusiones, la matriz de diseño sería y . $w$ $u$ $\mathbf{X} = [x], \mathbf{W} = \text{diag}(u),$ $\beta=[w]$

La prueba del teorema de Gauss Markov es por contradicción. Ver aquí . Lo que eso significa es que no derivamos analíticamente tal estimador directamente de la función de pérdida. Es posible que haya visto este enfoque utilizado para derivar ecuaciones de estimación de regresión lineal y logística.

— AdamO
fuente