Influencia de la inestabilidad en las predicciones de diferentes modelos sustitutos
Sin embargo, uno de los supuestos detrás del análisis binomial es la misma probabilidad de éxito para cada ensayo, y no estoy seguro de si se puede considerar que el método detrás de la clasificación de "correcto" o "incorrecto" en la validación cruzada La misma probabilidad de éxito.
Bueno, generalmente esa equivalencia es una suposición que también es necesaria para permitirle agrupar los resultados de los diferentes modelos sustitutos.
En la práctica, su intuición de que esta suposición puede ser violada es a menudo cierta. Pero puedes medir si este es el caso. Ahí es donde encuentro útil la validación cruzada iterativa: la estabilidad de las predicciones para el mismo caso por diferentes modelos sustitutos le permite juzgar si los modelos son equivalentes (predicciones estables) o no.
k
i⋅k
También puede calcular el rendimiento para cada iteración (bloque de 3 filas en el dibujo). Cualquier variación entre estos significa que no se cumple el supuesto de que los modelos sustitutos son equivalentes (entre sí y, además, con el "gran modelo" construido en todos los casos). Pero esto también te dice cuánta inestabilidad tienes. Para la proporción binomial, creo que siempre que el rendimiento real sea el mismo (es decir, independiente de si siempre se predicen erróneamente los mismos casos o si se predice erróneamente el mismo número pero diferentes casos). No sé si uno podría asumir sensatamente una distribución particular para el rendimiento de los modelos sustitutos. Pero creo que, en cualquier caso, es una ventaja sobre los informes comunes de errores de clasificación si informas de esa inestabilidad.kk
≪
nki
El dibujo es una versión más nueva de la fig. 5 en este documento: Beleites, C. y Salzer, R .: Evaluación y mejora de la estabilidad de modelos quimiométricos en situaciones de pequeño tamaño de muestra, Anal Bioanal Chem, 390, 1261-1271 (2008). DOI: 10.1007 / s00216-007-1818-6
Tenga en cuenta que cuando escribimos el documento aún no me había dado cuenta de las diferentes fuentes de variación que expliqué aquí, tenga esto en cuenta. Por lo tanto, creo que la argumentaciónpara una estimación efectiva del tamaño de la muestra dado que no es correcto, a pesar de que la conclusión de la aplicación de que diferentes tipos de tejido dentro de cada paciente contribuyen con tanta información general como un nuevo paciente con un tipo de tejido dado probablemente todavía sea válida (tengo un tipo totalmente diferente de evidencia que también apunta de esa manera). Sin embargo, todavía no estoy completamente seguro de esto (ni de cómo hacerlo mejor y así poder verificar), y este problema no está relacionado con su pregunta.
¿Qué rendimiento usar para el intervalo de confianza binomial?
Hasta ahora, he estado usando el rendimiento promedio observado. También podría usar el peor rendimiento observado: cuanto más cercano sea el rendimiento observado a 0.5, mayor será la varianza y, por lo tanto, el intervalo de confianza. Por lo tanto, los intervalos de confianza del rendimiento observado más cercano a 0.5 le dan un "margen de seguridad" conservador.
Tenga en cuenta que algunos métodos para calcular los intervalos de confianza binomiales también funcionan si el número observado de éxitos no es un número entero. Utilizo la "integración de la probabilidad posterior bayesiana" como se describe en
Ross, TD: Intervalos de confianza precisos para la proporción binomial y la estimación de la tasa de Poisson, Comput Biol Med, 33, 509-531 (2003). DOI: 10.1016 / S0010-4825 (03) 00019-2
(No lo sé para Matlab, pero en R puedes usar binom::binom.bayes
ambos parámetros de forma establecidos en 1).
n
Ver también: Bengio, Y. y Grandvalet, Y .: No hay un estimador imparcial de la varianza de la validación cruzada del pliegue en K, Journal of Machine Learning Research, 2004, 5, 1089-1105 .
(Pensar más en estas cosas está en mi lista de tareas de investigación ..., pero como vengo de la ciencia experimental, me gusta complementar las conclusiones teóricas y de simulación con datos experimentales, lo cual es difícil aquí, ya que necesitaría un gran conjunto de casos independientes para pruebas de referencia)
Actualización: ¿está justificado asumir una distribución biomial?
k
n
npn