El estudio de bajo peso al nacer
Este es uno de los conjuntos de datos del libro de texto de Hosmer y Lemeshow sobre Regresión logística aplicada (2000, Wiley, 2ª ed.). El objetivo de este estudio prospectivo fue identificar los factores de riesgo asociados con el nacimiento de un bebé con bajo peso al nacer (que pesa menos de 2,500 gramos). Se recopilaron datos sobre 189 mujeres, 59 de las cuales tenían bebés con bajo peso al nacer y 130 de los cuales tenían bebés con peso normal al nacer. Cuatro variables que se consideraron importantes fueron la edad, el peso del sujeto en su último período menstrual, la raza y el número de visitas al médico durante el primer trimestre del embarazo.
Está disponible en R como data(birthwt, package="MASS")
o en Stata con webuse lbw
. Aquí aparece una versión de texto: lowbwt.dat ( descripción ). Cabe destacar que hay varias versiones de este conjunto de datos porque se extendió a un estudio de casos y controles (1-1 o 1-3, según la edad), como lo ilustran Hosmer y Lemeshow en el capítulo 7 de ALR.
Solía enseñar cursos introductorios basados en este conjunto de datos por las siguientes razones:
- Es interesante desde una perspectiva histórica y epidemiológica (los datos se recopilaron en 1986); No se requiere experiencia previa en medicina o estadística para comprender las ideas principales y qué preguntas se pueden hacer de ese estudio.
- χ2
- Permite discutir diferentes perspectivas de modelado (enfoques explicativos o predictivos) y la implicación del esquema de muestreo al desarrollar modelos (estratificación / casos coincidentes).
Otros puntos que se pueden enfatizar, dependiendo de la audiencia y el nivel de experiencia con el software estadístico, o las estadísticas en general.
En cuanto al conjunto de datos disponible en R, los predictores categóricos se puntúan como enteros (por ejemplo, para la etnia de la madre tenemos '1' = blanco, '2' = negro, '3' = otro), a pesar del hecho de que el orden natural para algunos predictores (p. ej., número de trabajos prematuros previos o número de visitas al médico) o el uso de etiquetas explícitas (siempre es una buena idea usar 'sí' / 'no' en lugar de 1/0 para variables binarias, incluso si eso no ' ¡No cambie nada en la matriz de diseño!) simplemente están ausentes. Como tal, es fácil discutir qué problemas pueden surgir al ignorar los niveles o las unidades de medida en el análisis de datos.
Las variables de tipos mixtos son interesantes cuando se trata de hacer un análisis exploratorio y discutir qué tipo de pantallas gráficas son apropiadas para resumir relaciones univariadas, bivariadas o trivariadas. Del mismo modo, producir tablas de resumen agradables y, en general, informes, es otro aspecto interesante de este conjunto de datos (pero el Hmisc::summary.formula
comando lo hace tan fácil bajo R).
Hosmer y Lemeshow informaron que los datos reales fueron modificados para proteger la confidencialidad del sujeto (p. 25). Puede ser interesante discutir temas de confidencialidad de datos, como se hizo en uno de nuestros anteriores Journal Club , pero ver su transcripción . (Debo admitir que nunca entraré en muchos detalles con eso).
Es fácil introducir algunos valores faltantes o valores erróneos (que son problemas comunes en la vida real de un estadístico), que conducen a discutir (a) su detección a través del libro de códigos ( Hmisc::describe
o Stata codebook
) o gráficos exploratorios (¡siempre grafica tus datos primero!) y (b) posible remedio (imputación de datos, eliminación por listas o medida de asociación por pares, etc.).