De acuerdo con la documentación del objeto StandardScaler en scikit-learn:
Por ejemplo, muchos elementos utilizados en la función objetivo de un algoritmo de aprendizaje (como el núcleo RBF de Support Vector Machines o los regularizadores L1 y L2 de modelos lineales) suponen que todas las características están centradas alrededor de 0 y tienen una varianza en el mismo orden. Si una característica tiene una varianza que es de un orden de magnitud mayor que otras, podría dominar la función objetivo y hacer que el estimador no pueda aprender de otras características correctamente como se esperaba.
Debería escalar mis características antes de la clasificación. ¿Hay alguna manera fácil de mostrar por qué debería hacer esto? Las referencias a artículos científicos serían aún mejores. Ya encontré uno, pero probablemente hay muchos otros.