Derivando Negentropía. Quedarse atascado

Por lo tanto, esta pregunta es algo complicada, pero he tratado minuciosamente de hacerlo lo más sencillo posible.

Objetivo: Para resumir, hay una derivación de la negentropía que no involucra acumulantes de orden superior, y estoy tratando de entender cómo se derivó.

Antecedentes: (entiendo todo esto)

Estoy estudiando el libro 'Análisis de componentes independientes' , que se encuentra aquí. (Esta pregunta es de la sección 5.6, en caso de que tenga el libro - 'Aproximación de la entropía por funciones no polinómicas').

Tenemos , que es una variable aleatoria, y cuya negentropía queremos estimar, a partir de algunas observaciones que tenemos. El PDF de viene dado por . La negentropía es simplemente la diferencia entre la entropía diferencial de una variable aleatoria gaussiana estandarizada y la entropía diferencial de . La entropía diferencial aquí está dada por , de modo que: $x$ $x$ $p_x(\zeta)$ $x$ $H$

H (x) = - \int_{- \infty}^{\infty} p_{x} (ζ) l o g (p_{x} (ζ)) d ζ

$H(x) = -\int_{-\infty}^{\infty} p_x(\zeta) \: log(p_x(\zeta)) \: d\zeta$

y entonces, la negentropía viene dada por

J (x) = H (v) - H (x)

$J(x) = H(v) - H(x)$

donde es un rv gaussiano estandarizado, con PDF dado por . $v$ $\phi(\zeta)$

Ahora, como parte de este nuevo método, mi libro ha derivado una estimación del PDF de , dada por: $x$

p_{x} (ζ) = ϕ (ζ) [1 + \sum_{i} c_{i} F^{i} (ζ)]

$p_x(\zeta) = \phi(\zeta) [1 + \sum_{i} c_i \; F^{i}(\zeta)]$

(Donde . Por cierto, no es una potencia, sino un índice). $c_i = \mathbb{E}\{F^i(x)\}$ $i$

Por ahora, 'acepto' esta nueva fórmula PDF, y la preguntaré otro día. Este no es mi problema principal. Sin embargo, lo que hace ahora es volver a conectar esta versión del PDF de en la ecuación de negentropía, y termina con: $x$

J (x) \approx \frac{1}{2} \sum_{i} E {F^{i} (x)}^{2}

$J(x) \approx \frac{1}{2}\sum_i\mathbb{E} \{F^i(x)\}^2$

Tenga en cuenta que la sigma (aquí y para el resto de la publicación), solo recorre el índice . Por ejemplo, si solo tuviéramos dos funciones, la señal se repetiría para e . Por supuesto, debería contarte sobre esas funciones que está usando. Aparentemente, esas funciones se definen así: $i$ $i=2$ $i=2$ $F^i$

Las funciones no son funciones polinómicas en este caso. (Suponemos que rv es media cero y de varianza unitaria). Ahora, hagamos algunas restricciones y demos propiedades de esas funciones: $F^i$ $x$

$F^{n + 1} (ζ) = ζ, c_{n + 1} = 0$ $F^{n+1}(\zeta) = \zeta, \: \: c_{n+1} = 0$
$F^{n + 2} (ζ) = ζ^{2}, c_{n + 1} = 1$ $F^{n+2}(\zeta) = \zeta^2, \: \: c_{n+1} = 1$
Para los cálculos simplifican, hagamos otra, supuesto puramente técnica: Las funciones , forman un sistema ortonormal, como tal: $F^i, i = 1, ... n$

$\int ϕ (ζ) F^{i} (ζ) F^{j} (ζ) d ζ = {\begin{cases} 1, if i = j \\ 0, if i \neq j \end{cases}$ $\int \phi(\zeta) F^i(\zeta)F^j(\zeta)d\zeta= \begin{cases} 1, \quad \text{if } i = j \\ 0, \quad \text{if } i \neq j \end{cases}$
y

$\int ϕ (ζ) F^{i} (ζ) ζ^{k} d (ζ) = 0, for k = 0, 1, 2$ $\int \phi(\zeta)F^i(\zeta)\zeta^k d(\zeta) = 0, \quad \text{for } k = 0,1,2$

¡Casi ahí! Bien, entonces todo eso era el trasfondo, y ahora para la pregunta. La tarea es entonces, simplemente colocar este nuevo PDF en la fórmula de entropía diferencial, . Si entiendo esto, entenderé el resto. Ahora, el libro da la derivación (y estoy de acuerdo con ella), pero me quedo estancado hacia el final, porque no sé / veo cómo se está cancelando. Además, no sé cómo interpretar la pequeña notación de la expansión de Taylor. $H(x)$

Este es el resultado:

Uso de la expansión Taylor , paraobtenemos: $(1+\epsilon)log(1+\epsilon) = \epsilon + \frac{\epsilon^2}{2} + o(\epsilon^2)$ $H(x)$

H (x) = - \int ϕ (ζ) (1 + \sum c_{i} F^{i} (ζ)) (l o g (1 + \sum c_{i} F^{i} (ζ) + l o g (ζ)) d (ζ) = - \int ϕ (ζ) l o g (ζ) - \int ϕ (ζ) \sum c_{i} F^{i} (ζ) l o g (ϕ (ζ)) - \int ϕ (ζ) [\sum c_{i} F^{i} (ζ) + \frac{1}{2} (\sum c_{i} F^{i} (ζ))^{2} + o ((\sum c_{i} F^{i} (ζ))^{2})]

$H(x) = -\int \phi(\zeta) \; (1 + \sum c_i F^i(\zeta)) \; (log(1 + \sum c_i F^i(\zeta) + log(\zeta)) \; d(\zeta) \\ = -\int \phi(\zeta) log(\zeta) -\int \phi(\zeta) \sum c_i F^i(\zeta) log(\phi(\zeta)) -\int \phi(\zeta) \; [\sum c_i F^i(\zeta) + \frac{1}{2}(\sum c_i F^i(\zeta))^2 + o((\sum c_i F^i(\zeta))^2)]$

y entonces

La pregunta: (No entiendo esto)

H (x) = H (v) - 0 - 0 - \frac{1}{2} \sum c_{i}^{2} + o ((\sum c_{i})^{2}

$H(x) = H(v) - 0 - 0 -\frac{1}{2}\sum c_i^2 + o((\sum c_i)^2$

Entonces, mi problema: a excepción de , no entiendo cómo obtuvo los últimos 4 términos en la última ecuación. (es decir, el 0, el 0 y los últimos 2 términos). Entiendo todo antes de eso. Él dice que ha explotado las relaciones de ortogonalidad dadas en las propiedades anteriores, pero no veo cómo. (Tampoco entiendo la pequeña notación aquí, en el sentido de cómo se usa). $H(v)$

¡¡¡¡GRACIAS!!!!

EDITAR:

Continué y agregué las imágenes del libro que estoy leyendo, casi dice lo que dije anteriormente, pero en caso de que alguien necesite un contexto adicional.

ingrese la descripción de la imagen aquí

Y aquí, marcado en rojo, está la parte exacta que me está confundiendo. ¿Cómo usa las propiedades de ortogonalidad para obtener esa última parte, donde las cosas se cancelan, y las sumas finales que involucran , y la suma de la notación pequeña? $c_i^2$

— Spacey
fuente

\log ϕ (x)

$\log \phi(x)$

\neq

$\neq$

@ Cardinal Ok, corrigió el error tipográfico, gracias. Dicho esto, no tengo claro cómo está realizando la cancelación. He añadido las imágenes reales por cierto, del libro en sí.

— Spacey

Honestamente, tampoco tengo idea de cómo o por qué se migró esto del sitio de matemáticas. En cualquier caso, estoy feliz de tenerlo aquí, donde está igualmente en casa. Has puesto mucho esfuerzo en la pregunta. :-)

— cardenal

@ cardinal Me agrada tanto oírte decir eso. :-) Sí, espero que esta inversión de autoestudio dé resultado algún día. ;-)

— Spacey

¡Lo hará, @Mohammad, lo hará! ICA es un tema muy interesante también :-).

— Néstor

$c_i$

c_{i} = \int p_{0} (ξ) G^{i} (ξ) d ξ .

$c_i=\int p_0(\xi)G^i(\xi)d\xi.$

ξ

$\xi$

ξ^{'}

$\xi'$

c_{i}

$c_i$

>> Para obtener los términos cero:

$\varphi(\xi)=\exp(-\xi^2/2)/\sqrt{2\pi}$ $\log\varphi(\xi)$

\log φ (ξ) = - ξ^{2} / 2 - \log \sqrt{2 π} .

$\log\varphi(\xi)=-\xi^2/2-\log\sqrt{2\pi}.$

c_{i} \int φ (ξ) G^{i} (ξ) \log φ (ξ) = - \frac{1}{2} c_{i} \int φ (ξ) G^{i} (ξ) ξ^{2} - \log \sqrt{2 π} c_{i} \int φ (ξ) G^{i} (ξ), (1)

$c_i\int\varphi(\xi)G^i(\xi)\log \varphi(\xi)=-\frac{1}{2}c_i\int\varphi(\xi)G^i(\xi)\xi^2-\log\sqrt{2\pi}c_i\int\varphi(\xi)G^i(\xi),\ \ \ (1)$

$\int \varphi(\xi)F^i(\xi)\xi^k$ $0$ $k=0,1,2$ . The integral on the first term in the right of eq. $(1)$ is of this form (with $k=2$ ) and the integral in the second term too, (with $k=0$ ). You just have to exploit this fact on the sums and you are done!

>> To obtain the $\sum c_i^2$ terms:

Note that the integral to be obtained to obtain these terms is:

\int φ (ξ) {(\sum_{i = 1}^{n} c_{i} G^{i} (ξ))}^{2} d ξ .

$\int \varphi(\xi)\left(\sum_{i=1}^{n} c_iG^i(\xi)\right)^2d\xi.$ We can use the multinomial theorem to expand the squared sum. This gives us:

\int φ (ξ) \sum_{k_{1} + k_{2} + . . . k_{n} = 2} \frac{2!}{k_{1}! k_{2}! . . . k_{n}!} \prod_{1 \leq t \leq n} (c_{t} G^{t} (ξ))^{k_{t}} d ξ .

$\int \varphi(\xi)\sum_{k_1+k_2+...k_n=2} \frac{2!}{k_1! k_2!...k_n!}\prod_{1\leq t \leq n}(c_tG^t(\xi))^{k_t}d\xi.$ However, from (5.39) again, note that all the terms in this sum which include integrals for the form

\int φ (ξ) G^{i} (ξ) G^{j} (ξ) d ξ

$\int \varphi(\xi)G^{i}(\xi)G^{j}(\xi)d\xi$ are zero for

i \neq j

$i\neq j$ and one for

i = j

$i=j$ . This leave us with the result

\int φ (ξ) {(\sum c_{i} G^{i} (ξ))}^{2} d ξ = \sum c_{i}^{2} .

$\int \varphi(\xi)\left(\sum c_iG^i(\xi)\right)^2d\xi=\sum c_i^2.$

>> About the $o(\text{whatever})$ notation

I think this is pretty confusing from the authors, but I recall that they use it just to mean that there are terms of order $\text{whatever}$ every time they put $o(\text{whatever})$ (i.e., just like the big-O notation). However, as @Macro commented on this same answer, there is a difference between the big-O notation and the little-O one. Maybe you should check by yourself and see which one suits the problem in this Wikipedia article.

PS: This is a great book by the way. The papers of the authors on the subject are also very good and are a must read if you are trying to understand and implement ICA.

— Néstor
fuente

(+1) Good answer. If the sums are infinite, we have to be more careful about interchanging them with the integral. If they are finite (as the OP suggests, but I did not look at the images closely) then everything is straightforward, as you've shown. :-)

— cardinal

Ah yes! Thank you Nestor, but what about the last two results, that is, the summation with the

c_{i}^{2}

$c_i^2$ , and summation with the small-o notation part?

— Spacey

@cardinal: Oh yes! They ARE finite (I don't know why I wrote they where infinite...). I changed that on my answer.

— Néstor

@Mohammad, I'm writing on my answers your other two questions ;-).

— Néstor

@Néstor, +1 to this answer but re: your last comment, I think there is a distinction between big-O and little-o notation.

— Macro