¿El muestreo para la regresión logística debe reflejar la proporción real de 1 y 0?

Supongamos que quiero crear un modelo de regresión logística que pueda estimar la probabilidad de ocurrencia de algunas especies animales que viven en los árboles en función de las características de los árboles (altura de fe). Como siempre, mi tiempo y dinero son limitados, por lo tanto, solo puedo recolectar un tamaño de muestra limitado.

Tengo las siguientes preguntas: ¿La proporción de 1 y 0 en mi muestra debe reflejar la proporción real de 1 y 0? (al menos aproximadamente) Noté que es una práctica común realizar un modelo de regresión logística con una muestra equilibrada (igual número de 1 y 0), pero tales modelos ofrecen una probabilidad de ocurrencia surrealistamente alta, ¿verdad?

¿Hay algún artículo / libro de texto que pueda usar para ** apoyar la noción de que los modelos que no reflejan la verdadera relación de 1 y 0 son " incorrectos "? **

Y finalmente: ¿Es posible realizar un muestreo 1: 1 y posteriormente corregir el modelo con tau de acuerdo con Imai et al. 2007?

Kosuke Imai, Gary King y Olivia Lau. 2007. "relogit: Regresión logística de eventos raros para variables dependientes dicotómicas", en Kosuke Imai, Gary King y Olivia Lau, "Zelig: el software estadístico de todos", http: //gking.harvard.edu/zelig.

Los puntos representan árboles (rojo = ocupado, gris = desocupado). Puedo identificar todos los árboles ocupados con un 100% de precisión (1's) pero no puedo medir todos los árboles en el bosque. El modelo es diferente para cada estrategia de muestreo (razón).

logistic sampling

— Ladislav Naďo
fuente

Si el objetivo de dicho modelo es la predicción, entonces no puede utilizar la regresión logística no ponderada para predecir los resultados: sobredecirá el riesgo. La fortaleza de los modelos logísticos es que la odds ratio (OR), la "pendiente" que mide la asociación entre un factor de riesgo y un resultado binario en un modelo logístico, es invariante al muestreo dependiente del resultado. Entonces, si los casos se muestrean en una relación 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 a los controles, simplemente no importa: el OR permanece sin cambios en cualquier escenario siempre que el muestreo sea incondicional en la exposición (que introduciría el sesgo de Berkson). De hecho, el muestreo dependiente del resultado es un esfuerzo para ahorrar costos cuando el muestreo aleatorio simple y completo simplemente no va a suceder.

¿Por qué las predicciones de riesgo están sesgadas del muestreo dependiente del resultado utilizando modelos logísticos? El muestreo dependiente del resultado impacta la intercepción en un modelo logístico. Esto hace que la curva de asociación en forma de S "se deslice hacia arriba en el eje x" por la diferencia en las probabilidades de registro de muestreo de un caso en una muestra aleatoria simple en la población y las probabilidades de registro de muestreo de un caso en un pseudo -población de su diseño experimental. (Entonces, si tiene 1: 1 casos para controlar, hay un 50% de posibilidades de muestrear un caso en esta pseudo población). En resultados poco frecuentes, esta es una gran diferencia, un factor de 2 o 3.

Cuando habla de que tales modelos son "incorrectos", debe enfocarse en si el objetivo es inferencia (correcto) o predicción (incorrecto). Esto también aborda la relación de resultados a casos. El lenguaje que tiende a ver en torno a este tema es el de llamar a este estudio un estudio de "control de casos", sobre el cual se ha escrito ampliamente. Quizás mi publicación favorita sobre el tema es Breslow and Day, que como un estudio histórico caracterizó los factores de riesgo de causas raras de cáncer (previamente inviable debido a la rareza de los eventos). Los estudios de casos y controles provocan cierta controversia en torno a la interpretación errónea frecuente de los hallazgos: particularmente al combinar el OR con el RR (exagera los hallazgos) y también la "base de estudio" como intermediario de la muestra y la población que mejora los hallazgos.proporciona una excelente crítica de ellos. Sin embargo, ninguna crítica ha afirmado que los estudios de casos y controles sean inherentemente inválidos, quiero decir, ¿cómo podría usted? Han avanzado la salud pública en innumerables avenidas. El artículo de Miettenen es bueno al señalar que, incluso puede usar modelos de riesgo relativo u otros modelos en el muestreo dependiente del resultado y describir las discrepancias entre los resultados y los hallazgos a nivel de población en la mayoría de los casos: no es realmente peor ya que el OR es generalmente un parámetro difícil interpretar.

Probablemente la mejor y más fácil manera de superar el sesgo de sobremuestreo en las predicciones de riesgo es mediante el uso de probabilidad ponderada. Scott y Wild discuten la ponderación y muestran que corrige el término de intercepción y las predicciones de riesgo del modelo. Este es el mejor enfoque cuando a priori conocimiento a sobre la proporción de casos en la población. Si la prevalencia del resultado es en realidad 1: 100 y muestra los casos a los controles de una manera 1: 1, simplemente pondera los controles en una magnitud de 100 para obtener parámetros consistentes de la población y predicciones de riesgo imparciales. La desventaja de este método es que no tiene en cuenta la incertidumbre en la prevalencia de la población si se ha estimado con error en otro lugar. Esta es un área enorme de investigación abierta, Lumley y BreslowLlegó muy lejos con alguna teoría sobre el muestreo en dos fases y el estimador doblemente robusto. Creo que es algo tremendamente interesante. El programa de Zelig parece ser simplemente una implementación de la función de peso (que parece un poco redundante ya que la función glm de R permite los pesos).

— AdamO
fuente

(+1) ¿Vale la pena mencionar la corrección previa como posiblemente la forma más fácil de ajustar la intercepción para el muestreo simple de casos y controles?

— Scortchi - Restablece a Monica

@Scortchi ¿Te refieres a la regresión logística bayesiana con un previo informativo sobre la intercepción? ¿O optimización restringida? En realidad no estoy familiarizado con lo que podría ser.

— AdamO

Solo el cálculo simple aquí: stats.stackexchange.com/a/68726/17230 . (No estoy muy seguro de dónde aprendí esa terminología o qué tan estándar es). Escuché que la ponderación funciona mejor para modelos mal especificados.

— Scortchi - Restablece a Monica

@Scortchi ¡Ah, eso sería bastante fácil! Debería estar bien para la predicción siempre que no se requieran estimaciones de error. La ponderación le dará un SE diferente para la intersección y la pendiente, pero este método no afectará a ninguno.

— AdamO