¿Alguien puede explicarme StandardScaler?

Question 1

No puedo entender la página de StandardScaleren la documentación de sklearn.

¿Alguien puede explicarme esto en términos simples?

Question 2

La idea detrás StandardScaleres que transformará sus datos de manera que su distribución tenga un valor medio de 0 y una desviación estándar de 1.
En el caso de datos multivariados, esto se hace en función de las características (en otras palabras, de forma independiente para cada columna de los datos) .
Dada la distribución de los datos, cada valor en el conjunto de datos tendrá el valor medio restado y luego dividido por la desviación estándar de todo el conjunto de datos (o característica en el caso multivariado).

Question 3

Introducción: supongo que tiene una matriz Xdonde cada fila / línea es una muestra / observación y cada columna es una variable / característica (esta es la entrada esperada para cualquier sklearnfunción ML, por cierto, X.shapedebería ser [number_of_samples, number_of_features]).

Núcleo del método : La idea principal es la de normalizar / estandarizar decir, μ = 0y σ = 1sus características / variables / columnas de X, por separado , antes de aplicar cualquier modelo de aprendizaje de máquina.

StandardScaler()se normalizar las características , es decir, cada columna de X, INDIVIDUALMENTE , de modo que cada columna / función / variable de tendrán μ = 0y σ = 1.

PD: Encuentro la respuesta más votada en esta página, incorrecta. Estoy citando "a cada valor en el conjunto de datos se le restará el valor medio de la muestra". Esto no es cierto ni correcto.

Consulte también: Cómo y por qué estandarizar sus datos: un tutorial de Python

Ejemplo:

from sklearn.preprocessing import StandardScaler
import numpy as np

# 4 samples/observations and 2 variables/features
data = np.array([[0, 0], [1, 0], [0, 1], [1, 1]])
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data)

print(data)
[[0, 0],
 [1, 0],
 [0, 1],
 [1, 1]])

print(scaled_data)
[[-1. -1.]
 [ 1. -1.]
 [-1.  1.]
 [ 1.  1.]]

Verifique que la media de cada característica (columna) sea 0:

scaled_data.mean(axis = 0)
array([0., 0.])

Verifique que el estándar de cada característica (columna) sea 1:

scaled_data.std(axis = 0)
array([1., 1.])

Las matemáticas:

ACTUALIZACIÓN 08/2019 : Con respecto a los parámetros de entrada with_meany with_stda False/ True, he proporcionado una respuesta aquí: Diferencia de StandardScaler entre "with_std = False or True" y "with_mean = False or True"

Question 4

Cómo calcularlo:

Puede leer más aquí:

http://sebastianraschka.com/Articles/2014_about_feature_scaling.html#standardization-and-min-max-scaling

Question 5

StandardScaler realiza la tarea de estandarización . Por lo general, un conjunto de datos contiene variables que son diferentes en escala. Por ejemplo, un conjunto de datos de Empleado contendrá una columna EDAD con valores en la escala 20-70 y una columna SALARIO con valores en la escala 10000-80000 .
Como estas dos columnas tienen una escala diferente, están estandarizadas para tener una escala común al crear el modelo de aprendizaje automático.

Question 6

Esto es útil cuando desea comparar datos que corresponden a diferentes unidades. En ese caso, desea eliminar las unidades. Para hacer eso de una manera consistente de todos los datos, transforma los datos de manera que la varianza sea unitaria y que la media de la serie sea 0.

Question 7

Las respuestas anteriores son geniales, pero necesitaba un ejemplo simple para aliviar algunas preocupaciones que he tenido en el pasado. Quería asegurarme de que efectivamente trataba cada columna por separado. Ahora estoy tranquilo y no puedo encontrar qué ejemplo me había preocupado. Todas las columnas SON escaladas por separado como se describe arriba.

CÓDIGO

import pandas as pd
import scipy.stats as ss
from sklearn.preprocessing import StandardScaler


data= [[1, 1, 1, 1, 1],[2, 5, 10, 50, 100],[3, 10, 20, 150, 200],[4, 15, 40, 200, 300]]

df = pd.DataFrame(data, columns=['N0', 'N1', 'N2', 'N3', 'N4']).astype('float64')

sc_X = StandardScaler()
df = sc_X.fit_transform(df)

num_cols = len(df[0,:])
for i in range(num_cols):
    col = df[:,i]
    col_stats = ss.describe(col)
    print(col_stats)

SALIDA

DescribeResult(nobs=4, minmax=(-1.3416407864998738, 1.3416407864998738), mean=0.0, variance=1.3333333333333333, skewness=0.0, kurtosis=-1.3599999999999999)
DescribeResult(nobs=4, minmax=(-1.2828087129930659, 1.3778315806221817), mean=-5.551115123125783e-17, variance=1.3333333333333337, skewness=0.11003776770595125, kurtosis=-1.394993095506219)
DescribeResult(nobs=4, minmax=(-1.155344148338584, 1.53471088361394), mean=0.0, variance=1.3333333333333333, skewness=0.48089217736510326, kurtosis=-1.1471008824318165)
DescribeResult(nobs=4, minmax=(-1.2604572012883055, 1.2668071116222517), mean=-5.551115123125783e-17, variance=1.3333333333333333, skewness=0.0056842140599118185, kurtosis=-1.6438177182479734)
DescribeResult(nobs=4, minmax=(-1.338945389819976, 1.3434309690153527), mean=5.551115123125783e-17, variance=1.3333333333333333, skewness=0.005374558840039456, kurtosis=-1.3619131970819205)

Question 8

A continuación se muestra un ejemplo de trabajo simple para explicar cómo funciona el cálculo de estandarización. La parte de la teoría ya está bien explicada en otras respuestas.

>>>import numpy as np
>>>data = [[6, 2], [4, 2], [6, 4], [8, 2]]
>>>a = np.array(data)

>>>np.std(a, axis=0)
array([1.41421356, 0.8660254 ])

>>>np.mean(a, axis=0)
array([6. , 2.5])

>>>from sklearn.preprocessing import StandardScaler
>>>scaler = StandardScaler()
>>>scaler.fit(data)
>>>print(scaler.mean_)

#Xchanged = (X−μ)/σ  WHERE σ is Standard Deviation and μ is mean
>>>z=scaler.transform(data)
>>>z

Cálculo

Como puede ver en la salida, la media es [6. , 2.5] y la desviación estándar es [1.41421356, 0.8660254]

Los datos son (0,1) la posición es 2 Estandarización = (2 - 2,5) /0,8660254 = -0,57735027

Los datos en la posición (1,0) son 4 Estandarización = (4-6) /1.41421356 = -1.414

Resultado después de la estandarización

Compruebe la desviación media y estándar después de la estandarización

Nota: -2,77555756e-17 está muy cerca de 0.

Referencias

Question 9

Después de aplicar StandardScaler(), cada columna en X tendrá una media de 0 y una desviación estándar de 1.

Otros enumeran las fórmulas en esta página.

Justificación: algunos algoritmos requieren que los datos se vean así (consulte los documentos de sklearn ).