Normalización vs. escalamiento


45

¿Cuál es la diferencia entre la 'Normalización' de datos y la 'Escala' de datos? Hasta ahora pensé que ambos términos se refieren al mismo proceso, pero ahora me doy cuenta de que hay algo más que no sé / entiendo. Además, si hay una diferencia entre Normalización y Escalado, ¿cuándo deberíamos usar Normalización pero no Escalado y viceversa?

Por favor explique con algún ejemplo.


66
Normalizar generalmente significa transformar sus observaciones en (donde es una función medible, típicamente continua) de modo que parezcan distribuidas normalmente . Algunos ejemplos de transformaciones para normalizar datos son las transformaciones de potencia . Escalar simplemente significa , , es decir, multiplicar sus observaciones por una constante que cambia la escala (por ejemplo, de nanómetros a kilómetros) . f ( x ) f f ( x ) = c x c R cxf(x)ff(x)=cxcRc


la normalización también es un método de escala, igual que la estandarización

No tengo suficiente reputación en las estadísticas para responder. Creo que el título de su pregunta debería ser Normalización versus Estandarización, ya que estos dos son enfoques diferentes de reescalado. La normalización está reescalando los valores en el rango de 0 y 1, mientras que la estandarización está cambiando la distribución para tener 0 como media y 1 como desviación estándar.
Hamid Heydarian

Respuestas:


23

No conozco una definición "oficial" e incluso si la hay, no debe confiar en ella, ya que verá que se usa de manera inconsistente en la práctica.

Dicho esto, la escala en las estadísticas generalmente significa una transformación lineal de la forma .f(x)=ax+b

Normalizar puede significar aplicar una transformación para que los datos transformados se distribuyan más o menos normalmente, pero también puede significar simplemente poner diferentes variables en una escala común. La estandarización, que significa restar la media y dividir por la desviación estándar, es un ejemplo del uso posterior. Como puede ver, también es un ejemplo de escala. Un ejemplo para el primero sería tomar el registro de datos distribuidos lognormal.

Pero lo que debe quitar es que cuando lo lea, debe buscar una descripción más precisa de lo que hizo el autor. A veces puedes obtenerlo del contexto.


14

La escala es una elección personal para hacer que los números se sientan bien, por ejemplo, entre cero y uno, o uno y cien. Por ejemplo, convertir datos dados en milímetros a metros porque es más conveniente, o imperial a métrico.

Si bien la normalización se trata de escalar a un 'estándar' externo, la norma local, como eliminar el valor medio y dividir por la desviación estándar de la muestra, por ejemplo, para que sus datos ordenados se puedan comparar con un Poisson acumulativo normal o un Poisson acumulativo, o lo que sea.

Entonces, si un profesor o gerente quiere que los datos se "normalicen", significa "volver a escalar a mi manera " ;-)


9

No sé si te refieres exactamente a esto, pero veo a muchas personas refiriéndose a Normalización que significa Normalización de datos. La estandarización está transformando sus datos, por lo que tiene una media 0 y una desviación estándar 1:

x <- (x - mean(x)) / sd(x)

También veo personas que usan el término Normalización para el escalado de datos, como al transformar sus datos en un rango de 0-1:

x <- (x - min(x)) / (max(x) - min(x))

¡Puede ser confuso!

Ambas técnicas tienen sus pros y sus contras. Al escalar un conjunto de datos con demasiados valores atípicos, sus datos no atípicos pueden terminar en un intervalo muy pequeño. Entonces, si su conjunto de datos tiene demasiados valores atípicos, puede considerar estandarizarlo. No obstante, cuando lo haga, terminará con datos negativos (a veces no lo desea) y datos ilimitados (es posible que tampoco lo desee).


3

Centrar significa sustraer la media de la variable aleatoria de las variables. Es decir, xxi

Escalar significa dividir la variable por su desviación estándar. Es decir, xi / s

La combinación de los dos se llama normalización o standization. Es decir, x-xi / s


La pregunta es un duplicado.
Michael Chernick
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.