Como señalé en mi comentario , no hay suficientes detalles en la pregunta para formular una respuesta real. Como necesita ayuda incluso para encontrar los términos correctos y formular su pregunta, puedo hablar brevemente en generalidades.
El término que está buscando es limpieza de datos . Este es el proceso de tomar datos en bruto, mal formateados (sucios) y ponerlos en forma para los análisis. Cambiar y regularizar formatos ("two" ) y reorganizar filas y columnas son tareas de limpieza de datos típicas. → 2
En cierto sentido, la limpieza de datos se puede hacer en cualquier software y se puede hacer con Excel o con R. Habrá ventajas y desventajas en ambas opciones:
- Excel: Excel es casi seguro la opción más común para la limpieza de datos (ver R fortunes # 59 pdf ). También es considerado una mala elección por los estadísticos. La razón principal es que es difícil asegurarse de que haya captado todo, o que haya tratado todo de manera idéntica, y que no haya un registro de los cambios que haya realizado, por lo que no puede volver a revisarlos más tarde. La ventaja de usar Excel es que será más fácil ver lo que está haciendo y no tiene que saber mucho para hacer cambios. (Los estadísticos considerarán esto último como una estafa adicional ).
R: R requerirá una curva de aprendizaje empinada. Si no está muy familiarizado con R o la programación, las cosas que se pueden hacer de manera bastante rápida y fácil en Excel serán frustrantes de intentar en R. Por otro lado, si alguna vez tiene que hacer esto nuevamente, ese aprendizaje habrá sido tiempo bien gastado. Además, la capacidad de escribir y guardar su código para limpiar los datos en R aliviará los inconvenientes mencionados anteriormente. Los siguientes son algunos enlaces que lo ayudarán a comenzar con estas tareas en R:
Puede obtener mucha buena información sobre Stack Overflow :
Quick-R también es un recurso valioso:
Poner números en modo numérico:
Otra fuente invaluable para aprender sobre R es el sitio web de ayuda de estadísticas de UCLA :
Por último, siempre puedes encontrar mucha información con el viejo Google:
- Esta búsqueda: limpieza de datos en r , trae una serie de tutoriales (ninguno de los cuales he trabajado, FTR).
Actualización: Este es un problema común con respecto a la estructura de su conjunto de datos cuando tiene múltiples mediciones por 'unidad de estudio' (en su caso, una persona). Si tiene una fila para cada persona, se dice que sus datos están en forma 'amplia', pero entonces necesariamente tendrá múltiples columnas para su variable de respuesta, por ejemplo. Por otro lado, puede tener solo una columna para su variable de respuesta (pero, como resultado, tener varias filas por persona), en cuyo caso se dice que sus datos están en forma 'larga'. Moverse entre estos dos formatos a menudo se llama 'remodelar' sus datos, especialmente en el mundo R.
- La función R estándar para esto es ? Rehacer . Hay una guía para usar
reshape()
en el sitio web de ayuda de estadísticas de UCLA.
- Mucha gente piensa que
reshape
es difícil trabajar con ellos. Hadley Wickham ha contribuido con un paquete llamado reshape2 , que pretende simplificar el proceso. El sitio web personal de Hadley para reshape2 está aquí , la descripción general de Quick-R está aquí y hay un tutorial atractivo aquí .
- Hay muchas preguntas sobre SO sobre cómo cambiar la forma de los datos. La mayoría de ellos se trata de ir de ancho a largo, porque eso es lo que generalmente enfrentan los analistas de datos. Su pregunta es acerca de ir de largo a ancho, lo cual es mucho menos común, pero todavía hay muchos hilos al respecto, puede revisarlos con esta búsqueda .
- Si su corazón está decidido a tratar de hacer esto con Excel, hay un hilo sobre escribir una macro VBA para Excel para replicar la funcionalidad de remodelación aquí: ¿ derretir / rehacer en Excel usando VBA?
data.table
,dplyr
,plyr
, yreshape2
- Recomiendo evitar Excel y tablas dinámicas, si es posible.