¿El blanqueamiento siempre es bueno?

27

Un paso común de preprocesamiento para los algoritmos de aprendizaje automático es el blanqueamiento de datos.

Parece que siempre es bueno hacer el blanqueamiento, ya que des correlaciona los datos, lo que facilita el modelado.

¿Cuándo no se recomienda el blanqueamiento?

Nota: me refiero a la descorrelación de los datos.

data-transformation

— Corrió
fuente

1

¿Puedes dar referencia para blanquear?

— Atilla Ozgur

2

Creo que este hilo es un trozo. Realmente debería expandirse. - - La respuesta actualmente aceptada tiene tan poca información. - - Lo aceptaría y abriría una recompensa aquí.

— Léo Léopold Hertz 준영

Su pregunta también está sesgada, al tener "siempre" allí. Por supuesto, el blanqueamiento no siempre es bueno. Además, defina los tipos de blanqueamiento. Creo que esto lleva a respuestas no tan constructivas aquí. - - Definir los tipos de datos que se utilizarán. - - Creo que una mejor pregunta puede ser ¿Cómo puede mejorar la aplicación de este blanqueamiento en estos datos lo suficientemente agradables? . - - @AtillaOzgur Una fuente en.wikipedia.org/wiki/Whitening_transformation si se considera la transformación básica del blanqueamiento.

— Léo Léopold Hertz 준영

13

El pre-blanqueamiento es una generalización de la normalización de características, que hace que la entrada sea independiente al transformarla contra una matriz de covarianza de entrada transformada. No puedo ver por qué esto puede ser algo malo.

Sin embargo, una búsqueda rápida reveló "La viabilidad del blanqueamiento de datos para mejorar el rendimiento del radar meteorológico" ( pdf ) que dice:

En particular, el blanqueamiento funcionó bien en el caso de la ACF exponencial (que está de acuerdo con los resultados de Monakov) pero no tan bien en el caso de la gaussiana. Después de la experimentación numérica, encontramos que el caso gaussiano está mal condicionado numéricamente en el sentido de que el número de condición (relación de valor propio máximo a mínimo) es extremadamente grande para la matriz de covarianza gaussiana.

No tengo la educación suficiente para comentar sobre esto. Tal vez la respuesta a su pregunta es que el blanqueamiento siempre es bueno, pero hay ciertas trampas (por ejemplo, con datos aleatorios no funcionará bien si se realiza mediante la función de autocorrelación gaussiana).

— andreister
fuente

2

Según tengo entendido, funciona bien si la matriz de covarianza está bien estimada. ¿Puede alguien comentar en esto? Gracias.

— Corrió

3

La cita anterior no se refiere a una matriz de covarianza poco estimada (aunque eso también sería problemático). Está diciendo que para una matriz de covarianza perfectamente especificada, aún puede ser difícil realizar con precisión la factorización requerida (y las transformaciones de datos asociadas). Esto se debe al mal acondicionamiento numérico , lo que significa que los errores de redondeo de precisión finita contaminan los cálculos.

— GeoMatt22

2

Esta es una respuesta insuficiente. Ha copiado principalmente material no tan relacionado. - - Esta respuesta realmente debería ampliarse. Es un trozo.

— Léo Léopold Hertz 준영

20

En primer lugar, creo que descorrelacionar y blanquear son dos procedimientos separados.

Para descorrelacionar los datos, necesitamos transformarlos para que los datos transformados tengan una matriz de covarianza diagonal. Esta transformación se puede encontrar resolviendo el problema del valor propio. Encontramos los vectores propios y los valores propios asociados de la matriz de covarianza resolviendo ${\bf \Sigma} = {\bf X}{\bf X}'$

Σ Φ = Φ Λ

${\bf \Sigma}{\bf \Phi} = {\bf \Phi} {\bf \Lambda}$

donde es una matriz diagonal que tiene los valores propios como sus elementos diagonales. ${\bf \Lambda}$

La matriz así diagonaliza la matriz de covarianza de . Las columnas de son los vectores propios de la matriz de covarianza. ${\bf \Phi}$ ${\bf X}$ ${\bf \Phi}$

También podemos escribir la covarianza diagonalizada como:

\begin{matrix} (1) & Φ^{'} Σ Φ = Λ \end{matrix}

${\bf \Phi}' {\bf \Sigma} {\bf \Phi} = {\bf \Lambda} \tag{1}$

${\bf x}_i$

\begin{matrix} (2) & X_{yo}^{*} = Φ^{'} X_{yo} \end{matrix}

${\bf x}_i^* = {\bf \Phi}' {\bf x}_i \tag{2}$

${\bf \Lambda}$

Λ^{- 1 / / 2} Λ Λ^{- 1 / / 2} = yo

${\bf \Lambda}^{-1/2} {\bf \Lambda} {\bf \Lambda}^{-1/2} = {\bf I}$

$(1)$

Λ^{- 1 / / 2} Φ^{'} Σ Φ Λ^{- 1 / / 2} = yo

${\bf \Lambda}^{-1/2} {\bf \Phi}' {\bf \Sigma} {\bf \Phi} {\bf \Lambda}^{-1/2} = {\bf I}$

${\bf x}_i^*$ ${\bf x}_i^\dagger$

\begin{matrix} (3) & X_{yo}^{†} = Λ^{- 1 / / 2} X_{yo}^{*} = Λ^{- 1 / / 2} Φ^{'} X_{yo} \end{matrix}

${\bf x}_i^{\dagger} = {\bf \Lambda}^{-1/2} {\bf x}_i^* = {\bf \Lambda}^{-1/2}{\bf \Phi}'{\bf x}_i \tag 3$

${\bf x}_i^\dagger$ ${\bf x}_i^\dagger$ ${\bf E}({\bf x}_i^\dagger {{\bf x}_i^\dagger}') = {\bf I}$

${\bf \Sigma}$

Y finalmente, hay un "problema" común que la gente debe tener cuidado. Hay que tener cuidado de calcular los factores de escala en los datos de entrenamiento , y luego usar las ecuaciones (2) y (3) para aplicar los mismos factores de escala a los datos de la prueba, de lo contrario corre el riesgo de sobreajustar (estaría usando información del conjunto de pruebas en el proceso de capacitación).

Fuente: http://courses.media.mit.edu/2010fall/mas622j/whiten.pdf

— tdc
fuente

2

Gracias por la aclaración, tienes razón. Me refería a descorrelacionar. por cierto: al final escribe que el blanqueamiento solo se realiza a los datos de entrenamiento. Hasta donde yo sé, usted calcula la matriz a partir de los datos de entrenamiento, pero la realiza tanto en datos de entrenamiento como de prueba.

— Corrió

@Ran sí, eso es lo que quise decir ... Actualizaré la respuesta

— tdc

Sería bueno si también pudiera ofrecer secciones en su respuesta. Tener una introducción, un resumen y las cosas de matemáticas. - - Creo que no profundizas lo suficiente en tu respuesta. - - Su respuesta cubre principalmente proposiciones triviales pero no profundiza lo suficiente en el tema. Solo tiene material básico copiado de las notas de clase, pero muy poco trabajo propio para el tema.

— Léo Léopold Hertz 준영

así que, en términos simples, haga pca para obtener características descorrelacionadas, y luego para cada nueva característica, divida por la varianza para obtener características blanqueadas.

— aguacate

1

De http://cs231n.github.io/neural-networks-2/

Una debilidad de esta transformación es que puede exagerar en gran medida el ruido en los datos, ya que estira todas las dimensiones (incluidas las dimensiones irrelevantes de la pequeña variación que son principalmente ruido) para que tengan el mismo tamaño en la entrada. En la práctica, esto puede mitigarse con un suavizado más fuerte ...

Lamentablemente, no tengo la educación suficiente para comentar más sobre esto.

— DharmaTurtle
fuente

Por favor, indique qué formas de ruidos son exageradas. Su referencia es rigurosa. Es solo informática básica sobre el tema, es decir, ruido blanco con un antiguo enfoque de red neuronal. - - El trabajo exagerado también debe definirse.

— Léo Léopold Hertz 준영

Me parece que esto solo está relacionado con la escala de todas las características para tener la misma variación, ¿verdad? Entonces, si hubiera una característica cuya variación en el conjunto de entrenamiento fuera ruido, podríamos esperar que la variación general de esta característica sea mucho menor que otra característica; Esta transformación haría que tanto la característica de "ruido" como la otra característica tengan la misma variación, y podrían verse como "ruido amplificador".

— ijoseph