Considere el muestreo de datos de una población de tamaño de la siguiente manera: Para
Observar el estado individual de "enfermedad" de
Si tienen la enfermedad, inclúyalas en la muestra con probabilidad
Si no tienen la enfermedad, inclúyalos con probabilidad .
Supongamos que observaron una variable de resultado binario y predictor del vector , para sujetos muestreados de esta manera. La variable de resultado no es el estado de "enfermedad". Quiero estimar los parámetros del modelo de regresión logística:
Lo único que me importa son las razones de probabilidad (log), . La intercepción es irrelevante para mí.
Mi pregunta es: ¿puedo obtener estimaciones razonables de ignorando las probabilidades de muestreo , ajustando el modelo como si era una muestra aleatoria ordinaria?
Estoy bastante seguro de que la respuesta a esta pregunta es "sí". Lo que estoy buscando es una referencia que valide esto.
Hay dos razones principales por las que confío en la respuesta:
He realizado muchos estudios de simulación y ninguno de ellos contradice esto, y
Es sencillo mostrar que, si la población se rige por el modelo anterior, entonces el modelo que rige los datos muestreados es
Si las probabilidades de muestreo no dependieran de , esto representaría un cambio simple a la intersección y la estimación puntual de claramente no se vería afectada. Pero, si los desplazamientos son diferentes para cada persona, esta lógica no se aplica del todo, ya que ciertamente obtendrá una estimación puntual diferente, aunque sospecho que algo similar sí lo hace. β
Relacionado: El artículo clásico de Prentice y Pyke (1979) dice que los coeficientes de regresión logística de un control de casos (con el estado de la enfermedad como resultado) tienen la misma distribución que los recopilados de un estudio prospectivo. Sospecho que este mismo resultado se aplicaría aquí, pero debo confesar que no entiendo completamente cada parte del documento.
Gracias de antemano por cualquier comentario / referencia.