Derivando la matriz de dispersión total (dentro de la clase + entre clases)

Estaba jugando con los métodos PCA y LDA y estoy atascado en un punto, tengo la sensación de que es tan simple que no puedo verlo.

Las matrices de dispersión dentro de clase ( $S_W$ ) y entre clases ( $S_B$ ) se definen como:

S_{W} = \sum_{i = 1}^{C} \sum_{t = 1}^{N} (x_{t}^{i} - μ_{i}) (x_{t}^{i} - μ_{i})^{T}

$S_W = \sum_{i=1}^C\sum_{t=1}^N(x_t^i - \mu_i)(x_t^i - \mu_i)^T$

S_{B} = \sum_{i = 1}^{C} N (μ_{i} - μ) (μ_{i} - μ)^{T}

$S_B = \sum_{i=1}^CN(\mu_i-\mu)(\mu_i-\mu)^T$

La matriz de dispersión total se da como: $S_T$

S_{T} = \sum_{i = 1}^{C} \sum_{t = 1}^{N} (x_{t}^{i} - μ) (x_{t}^{i} - μ)^{T} = S_{W} + S_{B}

$S_T = \sum_{i=1}^C\sum_{t=1}^N(x_t^i - \mu)(x_t^i - \mu)^T = S_W + S_B$

donde C es el número de clases y N es el número de muestras son muestras, es la media de la clase, es la media general. $x$ $\mu_i$ $\mu$

Mientras intentaba obtener , llegué a un punto en el que tenía: $S_T$

(x - μ_{i}) (μ_{i} - μ)^{T} + (μ_{i} - μ) (x - μ_{i})^{T}

$(x-\mu_i)(\mu_i-\mu)^T + (\mu_i-\mu)(x-\mu_i)^T$

como un término Esto debe ser cero, pero ¿por qué?

En efecto:

\begin{aligned} S_{T} & = \sum_{i = 1}^{C} \sum_{t = 1}^{N} (x_{t}^{i} - μ) (x_{t}^{i} - μ)^{T} \\ = \sum_{i = 1}^{C} \sum_{t = 1}^{N} (x_{t}^{i} - μ_{i} + μ_{i} - μ) (x_{t}^{i} - μ_{i} + μ_{i} - μ)^{T} \\ = S_{W} + S_{B} + \sum_{i = 1}^{C} \sum_{t = 1}^{N} [(x_{t}^{i} - μ_{i}) (μ_{i} - μ)^{T} + (μ_{i} - μ) (x_{t}^{i} - μ_{i})^{T}] \end{aligned}

$\begin{align} S_T &= \sum_{i=1}^C\sum_{t=1}^N(x_t^i - \mu)(x_t^i - \mu)^T \\ &= \sum_{i=1}^C\sum_{t=1}^N(x_t^i - \mu_i + \mu_i - \mu)(x_t^i - \mu_i + \mu_i - \mu)^T \\ &= S_W + S_B + \sum_{i=1}^C\sum_{t=1}^N\big[(x_t^i - \mu_i)(\mu_i - \mu)^T + (\mu_i - \mu)(x_t^i - \mu_i)^T\big] \end{align}$

discriminant-analysis

— nimcap
fuente

La respuesta es que estás sumando las desviaciones de los valores alrededor de su media y esa suma es cero. Pero, ¿qué son, precisamente,

? ¿Cómo son

relacionado con

? La calidad de las respuestas dependerá de la precisión con la que adivinemos, ¡pero nos está obligando a hacer muchas conjeturas!

x

$x$

m

$m$

m_{i}

$m_i$

m

$m$

m_{i}

$m_i$

μ

$\mu$

μ_{i}

$\mu_i$

— whuber

@whuber: You are totally right, I revised my question.

— nimcap

If you assume

\frac{1}{N} \sum_{t = 1}^{N} x_{t}^{i} = μ_{i}

$\frac{1}{N}\sum_{t=1}^Nx_t^{i}=\mu_i$

Then

\sum_{i = 1}^{C} \sum_{t = 1}^{N} (x_{t}^{i} - μ_{i}) (μ_{i} - μ)^{T} = \sum_{i = 1}^{C} (\sum_{t = 1}^{N} (x_{t}^{i} - μ_{i})) (μ_{i} - μ)^{T} = 0

$\sum_{i=1}^C\sum_{t=1}^N(x_t^i-\mu_i)(\mu_i-\mu)^T=\sum_{i=1}^C\left(\sum_{t=1}^N(x_t^i-\mu_i)\right)(\mu_i-\mu)^T=0$

and formula holds. You deal with the second term in the similar way.

— mpiktas
fuente

(+1) The second term, being the transpose of the first, must also be zero :-).

— whuber

@whuber, yes, that too :)

— mpiktas

Hi,i don't get why the assumption holds?Can someone explain that?

— Mvkt

@Mvkt It is not so much an assumption as the definition of

μ_{i}

$\mu_i$ I suppose. That is to say:

μ_{i}

$\mu_i$ is the mean of the observations in group

i

$i$ . I expect the answer uses 'assume' because the OP doesn't explain the notation, so we have to guess that the group mean is meant by

μ_{i}

$\mu_i$ .

— Vincent