¿Cómo interpretar las variables que están excluidas o incluidas en el modelo de lazo?

Obtuve de otras publicaciones que no se puede atribuir 'importancia' o 'importancia' a las variables predictoras que ingresan en un modelo de lazo porque calcular los valores p o las desviaciones estándar de esas variables todavía es un trabajo en progreso.

Bajo ese razonamiento, ¿es correcto afirmar que uno NO PUEDE decir que las variables que fueron EXCLUIDAS del modelo de lazo son 'irrelevantes' o 'insignificantes'?

Si es así, ¿qué puedo afirmar sobre las variables que están excluidas o incluidas en un modelo de lazo? En mi caso específico, seleccioné el parámetro de ajuste lambda repitiendo la validación cruzada 10 veces 100 veces para reducir randonmess y promediar las curvas de error.

ACTUALIZACIÓN1: Seguí una sugerencia a continuación y volví a ejecutar el lazo usando muestras de bootstrap. Lo probé con 100 muestras (esa cantidad era lo que mi computadora podía manejar de la noche a la mañana) y surgieron algunos patrones. 2 de mis 41 variables ingresaron al modelo más del 95% de las veces, 3 variables más del 90% y 5 variables más del 85%. Esas 5 variables se encuentran entre las 9 que ingresaron al modelo cuando lo ejecuté con la muestra original y fueron las que tenían los valores de coeficiente más altos en ese momento. Si ejecuto el lazo con, digamos, 1000 muestras de arranque y se mantienen esos patrones, ¿cuál sería la mejor manera de presentar mis resultados?

¿Son suficientes 1000 muestras de bootstrap? (El tamaño de mi muestra es 116)
¿Debería enumerar todas las variables y con qué frecuencia ingresan al modelo, y luego argumentar que las que ingresan con más frecuencia tienen más probabilidades de ser significativas?
¿Es eso lo más lejos que puedo llegar con mis reclamos? Debido a que es un trabajo en progreso (ver arriba), no puedo usar un valor de corte, ¿verdad?

ACTUALIZACIÓN2: Siguiendo una sugerencia a continuación, he calculado lo siguiente: en promedio, el 78% de las variables en el modelo original ingresaron los modelos generados para las 100 muestras de arranque. Por otro lado, solo el 41% al revés. Esto tiene que ver en gran parte con el hecho de que los modelos generados para las muestras de bootstrap tendieron a incluir muchas más variables (17 en promedio) que el modelo original (9).

ACTUALIZACIÓN3: Si pudiera ayudarme a interpretar los resultados que obtuve de bootstrapping y la simulación de Monte Carlo, eche un vistazo a esta otra publicación.

— Perplejo
fuente

Tu conclusión es correcta. Piensa en dos aspectos:

Poder estadístico para detectar un efecto. A menos que el poder sea muy alto, uno puede perderse incluso grandes efectos reales.
Fiabilidad: tener una alta probabilidad de encontrar las características correctas (verdaderas).

Hay al menos 4 consideraciones principales:

¿Es reproducible el método utilizando el mismo conjunto de datos?
¿El método es reproducible por otros que usan el mismo conjunto de datos?
¿Los resultados son reproducibles utilizando otros conjuntos de datos?
¿El resultado es confiable?

Cuando uno desea hacer más que una predicción, pero sacar conclusiones acerca de qué características son importantes para predecir el resultado, 3. y 4. son cruciales.

Ha abordado 3. (y para este propósito, 100 bootstraps son suficientes), pero además de las fracciones de inclusión de características individuales, necesitamos conocer la 'distancia' absoluta promedio entre un conjunto de características de bootstrap y el conjunto de características seleccionado original. Por ejemplo, ¿cuál es el número promedio de características detectadas de toda la muestra que se encontraron en la muestra de arranque? ¿Cuál es el número promedio de características seleccionadas de una muestra de arranque que se encontraron en el análisis original? ¿Cuál es la proporción de veces que un bootstrap encontró una coincidencia exacta con el conjunto de características original? ¿Cuál es la proporción de que un bootstrap estuvo dentro de una característica de estar de acuerdo exactamente con el original? ¿Dos características?

No sería apropiado decir que cualquier límite debe usarse para llegar a una conclusión general.

Con respecto a la parte 4., nada de esto aborda la fiabilidad del proceso, es decir, qué tan cerca está el conjunto de características del conjunto de características 'verdadero'. Para abordar eso, puede hacer un estudio de re-simulación de Montecarlo donde tome el resultado del lazo de muestra original como la 'verdad' y simule nuevos vectores de respuesta varios cientos de veces utilizando una estructura de error asumida. Para cada re-simulación, ejecuta el lazo en la matriz predictiva completa original y el nuevo vector de respuesta, y determina qué tan cerca está el conjunto de características del lazo seleccionado de la verdad desde la que simuló. Las condiciones de re-simulación en todo el conjunto de predictores candidatos y utilizan estimaciones de coeficientes del modelo inicialmente ajustado (y en el caso de lazo, el conjunto de predictores seleccionados) como una 'verdad' conveniente para simular.

Para simular nuevas realizaciones de dada la matriz original y ahora los coeficientes de regresión verdaderos, se puede usar la varianza residual y asumir la normalidad con media cero, o para ser aún más empírico, guardar todos los residuos del ajuste original y tomar una muestra de arranque de ellos para agregar residuos al predictor lineal conocido para cada simulación. Luego, el proceso de modelado original se ejecuta desde cero (incluida la selección de la penalización óptima) y se desarrolla un nuevo modelo. Para cada una de las aproximadamente 100 iteraciones, compare el nuevo modelo con el modelo real desde el que está simulando. $Y$ $X$ $X\beta$

Nuevamente, esta es una buena verificación de la confiabilidad del proceso: la capacidad de encontrar las características "verdaderas" y obtener buenas estimaciones de . $\beta$

Cuando es binario, en lugar de tratar con residuos, la re-simulación implica calcular el predictor lineal del ajuste original (p. Ej., Usar el lazo), tomar la transformación logística y generar para cada simulación Monte Carlo un nuevo vector para encajar de nuevo. En R se puede decir por ejemplo $Y$ $X\beta$ $Y$

lp <- predict(...) # assuming suitable predict method available, or fitted()
probs <- plogis(lp)
y <- ifelse(runif(n) <= probs, 1, 0)

— Frank Harrell
fuente

Deberías haberlo dicho por adelantado, y debería haberte preguntado. Está empujando el sobre más allá de lo que la información disponible respaldará. Piénsalo de esta manera. Para un resultado binario, para estimar solo la intercepción en un modelo logístico binario, debe tener al menos 96 observaciones. Entonces necesita aproximadamente 15 eventos por predictor candidato (si no es penalizador). La probabilidad de que su proceso se valide en un conjunto de datos futuro es bastante escasa. Otra forma de verlo es que toda esta discusión es aún más importante (en comparación con tener una más grande ).

N

$N$

— Frank Harrell

No me refería a bootstrapping. Me refería a si puedes aprender algo de docenas de variables candidatas cuando solo tienes 32 eventos.

— Frank Harrell

El lazo es más apropiado que la mayoría de los métodos, pero la fiabilidad disminuye con un tamaño de muestra tan pequeño. Usted exige parsimonia mediante el uso del lazo en lugar de una penalización cuadrática (cresta; L2). Sin duda, obtendrá una mejor discriminación predictiva al usar una penalización cuadrática y no solicitar la parsimonia. O haga una reducción de datos severa (enmascarada en ) y luego se ajuste a un modelo ordinario sin convertir.

Y

$Y$

— Frank Harrell

Realice el experimento de re-simulación que sugerí para verificar la confiabilidad real del método en su configuración exacta.

— Frank Harrell

Necesito cerrar esta discusión: la respuesta básica a su pregunta es la programación básica de R más un vistazo a simulaciones simples en biostat.mc.vanderbilt.edu/rms .

— Frank Harrell