Buenos libros sobre preprocesamiento de datos y técnicas de detección de valores atípicos.


11

Como dice el título, ¿alguien sabe de un buen libro actualizado que cubra el preprocesamiento de datos en general y especialmente las técnicas de detección atípicas?

No es necesario que el libro se centre exclusivamente en eso, pero debe tratar exhaustivamente los temas antes mencionados: no estaría contento con algo que sea un punto de partida y cite una lista de artículos, las explicaciones de las diversas técnicas deben aparecer en El libro en sí.

Las técnicas para tratar con datos faltantes son preferibles, pero no necesarias ...


¿Podría decirnos qué tipo de datos (campo científico o técnica de medición) está viendo?
cbeleites descontento con SX

Datos recopilados de usuarios web (no puede ser más específico). Se incluyen marcas de tiempo (aunque los datos no están estrictamente relacionados con el tiempo, al menos intuitivamente), atributos categóricos y atributos continuos. Los valores atípicos pueden ser causados ​​por innumerables razones, incl. robots web, usuarios maliciosos y muchas más fuentes. Los datos también son bastante grandes (GB en formato CSV, varios millones de entradas)
em70

Para mí es lo suficientemente específico: no es necesario aburrirlo con el preprocesamiento de conjuntos de datos químicos o espectroscópicos ...
cbeleites descontento con SX

Respuestas:


3

Aunque es específico de Stata, el libro de Scott Long, El flujo de trabajo del análisis de datos con Stata , es invaluable en el área de gestión y preparación de datos. El autor brinda muchos consejos útiles sobre las buenas prácticas en la gestión de datos, como la limpieza y el archivo de datos, la búsqueda de valores atípicos y el tratamiento de datos faltantes.


2
También me encanta este libro, pero soy un usuario de Stata teñido en lo que respecta a la gestión de datos. Si bien no estoy de acuerdo, otros en esta lista han argumentado que es demasiado específico de Stata para ser útil, por lo tanto, tenga en cuenta emptor / lector.
Dimitriy V. Masterov

Muy stat-ish por lo que reúno, y no estoy familiarizado con stata, ni ayudaría para este mismo proyecto si lo fuera (los datos son demasiado grandes, utilizando diferentes tecnologías)
em70

El libro es de hecho muy idiosincrásico. Las técnicas particulares de manejo de datos (y especialmente metadatos) son específicas de Stata, pero las ideas generales son transferibles entre plataformas. Me sorprende que con la proporción de aproximadamente 20 libros Stata / 100 libros R en el mercado, no haya libros comparables sobre la organización del flujo de trabajo en R: ¿es esto último imposible? La mayor cantidad de memoria que recuerdo vívidamente asignar a Stata fue de 48 Gb en una máquina de 64 Gb, eso es si el tamaño importa. Si necesita manipular objetos de estructura muy diferente, querrá hacerlo en R, no en Stata.
StasK


0

Si tiene los conceptos básicos (identificación de valores atípicos, valores perdidos, ponderación, codificación) dependiendo del tema, hay mucho más en la literatura académica simple que se puede encontrar. Por ejemplo, en la investigación de encuestas (que es un tema en el que muchas cosas pueden salir mal y son propensas a muchas fuentes de sesgo), se pueden encontrar muchos artículos buenos.

Al prepararse para la regresión transversal transversal regular, las cosas pueden ser menos complejas. El problema puede ser, por ejemplo, que elimine demasiados "valores atípicos" y que, por lo tanto, se ajuste artificialmente bien a su modelo.

Por lo tanto, también te recomiendo que, además de aprender buenas técnicas, ten en cuenta el sentido común. Asegúrese de aplicar las técnicas correctamente y no a ciegas. En cuanto a la discusión del software en las otras respuestas. Creo que SPSS no es malo para la preparación de datos (también escuché cosas buenas sobre SAS) dependiendo del tamaño de su conjunto de datos. Los menús desplegables son muy intuitivos.

Pero como respuesta directa a su pregunta, la literatura académica puede o no ser una muy buena fuente para la preparación de sus datos, dependiendo del tema y el análisis.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.