En el caso de la media cero, eso se debe a que algunos modelos de aprendizaje automático no incluyen el término de sesgo en su representación, por lo que tenemos que mover los datos alrededor del origen antes de alimentarlos al algoritmo para compensar la falta de término de sesgo. En el caso de la variación de la unidad, esto se debe a que muchos algoritmos de aprendizaje automático utilizan algún tipo de distancia (por ejemplo, Euclidiana) para decidir o predecir. Si una característica particular tiene valores amplios (es decir, gran varianza), la distancia se verá muy afectada por esa característica y se ignorará el efecto de otras características. Por cierto, algunos algoritmos de optimización (incluido el descenso de gradiente) tienen un mejor rendimiento cuando los datos están estandarizados.