Si tiene los conceptos básicos (identificación de valores atípicos, valores perdidos, ponderación, codificación) dependiendo del tema, hay mucho más en la literatura académica simple que se puede encontrar. Por ejemplo, en la investigación de encuestas (que es un tema en el que muchas cosas pueden salir mal y son propensas a muchas fuentes de sesgo), se pueden encontrar muchos artículos buenos.
Al prepararse para la regresión transversal transversal regular, las cosas pueden ser menos complejas. El problema puede ser, por ejemplo, que elimine demasiados "valores atípicos" y que, por lo tanto, se ajuste artificialmente bien a su modelo.
Por lo tanto, también te recomiendo que, además de aprender buenas técnicas, ten en cuenta el sentido común. Asegúrese de aplicar las técnicas correctamente y no a ciegas. En cuanto a la discusión del software en las otras respuestas. Creo que SPSS no es malo para la preparación de datos (también escuché cosas buenas sobre SAS) dependiendo del tamaño de su conjunto de datos. Los menús desplegables son muy intuitivos.
Pero como respuesta directa a su pregunta, la literatura académica puede o no ser una muy buena fuente para la preparación de sus datos, dependiendo del tema y el análisis.