Hay varios problemas aqui.
Por lo general, queremos determinar un tamaño mínimo de muestra para lograr un nivel de potencia estadística mínimamente aceptable . El tamaño de muestra requerido es una función de varios factores, principalmente la magnitud del efecto que desea poder diferenciar de 0 (o cualquier valor nulo que esté utilizando, pero 0 es el más común), y la probabilidad mínima de detectar ese efecto querer tener. Trabajando desde esta perspectiva, el tamaño de la muestra se determina mediante un análisis de potencia.
Otra consideración es la estabilidad de su modelo (como señala @cbeleites). Básicamente, a medida que la proporción de parámetros estimados para el número de datos se acerca a 1, su modelo se saturará y necesariamente se sobreajustará (a menos que, de hecho, no haya aleatoriedad en el sistema). La regla general de la proporción de 1 a 10 proviene de esta perspectiva. Tenga en cuenta que tener una potencia adecuada generalmente cubrirá esta preocupación para usted, pero no al revés.
Sin embargo, la regla del 1 al 10 proviene del mundo de la regresión lineal, y es importante reconocer que la regresión logística tiene complejidades adicionales. Un problema es que la regresión logística funciona mejor cuando los porcentajes de 1 y 0 son aproximadamente del 50% / 50% (como comentan @andrea y @psj en los comentarios anteriores). Otro tema que debe preocuparse es la separación . Es decir, no desea tener todos sus 1 reunidos en un extremo de una variable independiente (o alguna combinación de ellos), y todos los 0 en el otro extremo. Aunque esto parecería una buena situación, porque facilitaría la predicción perfecta, en realidad hace que el proceso de estimación de parámetros explote. (@Scortchi tiene una excelente discusión sobre cómo lidiar con la separación en regresión logística aquí:¿Cómo lidiar con la separación perfecta en la regresión logística? ) Con más IV, esto se vuelve más probable, incluso si las verdaderas magnitudes de los efectos se mantienen constantes, y especialmente si sus respuestas no están equilibradas. Por lo tanto, puede necesitar fácilmente más de 10 datos por IV.
Un último problema con esa regla general es que supone que sus IV son ortogonales . Esto es razonable para experimentos diseñados, pero con estudios de observación como el suyo, sus IV casi nunca serán más o menos ortogonales. Existen estrategias para lidiar con esta situación (por ejemplo, combinar o descartar IV, realizar primero un análisis de componentes principales, etc.), pero si no se aborda (lo cual es común), necesitará más datos.
Una pregunta razonable es, ¿cuál debería ser su N mínimo y / o es suficiente su tamaño de muestra? Para abordar esto, le sugiero que use los métodos que @cbeleites analiza; confiar en la regla del 1 al 10 será insuficiente.
1
's) y 90 no casos (los0
' s), entonces la regla dice "incluye solo 1 predictor". Pero, ¿qué pasa si modelo el0
's en lugar del1
' s y luego tomo el recíproco de las razones de probabilidades estimadas? ¿Se me permitiría incluir 9 predictores? Eso no tiene sentido.