Respuestas:
Un modelo parsimonioso es un modelo que logra un nivel deseado de explicación o predicción con la menor cantidad posible de variables predictoras.
Para la evaluación del modelo, existen diferentes métodos según lo que desee saber. En general, hay dos formas de evaluar un modelo: en función de las predicciones y de la bondad de ajuste en los datos actuales. En el primer caso, desea saber si su modelo predice adecuadamente nuevos datos, en el segundo, desea saber si su modelo describe adecuadamente las relaciones en sus datos actuales. Esas son dos cosas diferentes.
La mejor manera de evaluar los modelos utilizados para la predicción es la validación cruzada. Muy brevemente, corta su conjunto de datos, por ejemplo. 10 piezas diferentes, use 9 de ellas para construir el modelo y predecir los resultados para el décimo conjunto de datos. Una simple diferencia cuadrática media entre los valores observados y los pronosticados le da una medida de la precisión de la predicción. Cuando repite esto diez veces, calcula la diferencia cuadrática media sobre las diez iteraciones para llegar a un valor general con una desviación estándar. Esto le permite nuevamente comparar dos modelos en su precisión de predicción utilizando técnicas estadísticas estándar (prueba t o ANOVA).
Una variante del tema es el criterio de PRENSA (Suma de predicción de cuadrados), definido como
Donde es el valor predicho para la i-ésima observación usando un modelo basado en todas las observaciones menos el i-ésimo valor. Este criterio es especialmente útil si no tiene muchos datos. En ese caso, dividir sus datos como en el enfoque de validación cruzada podría dar como resultado subconjuntos de datos que son demasiado pequeños para un ajuste estable.
Permítanme decir primero que esto realmente difiere dependiendo del marco de modelo que use. Por ejemplo, una prueba de razón de verosimilitud puede funcionar para modelos mixtos aditivos generalizados cuando se usa el gaussiano clásico para los errores, pero no tiene sentido en el caso de la variante binomial.
Primero tiene los métodos más intuitivos para comparar modelos. Puede utilizar el Criterio de información de Aikake (AIC) o el Criterio de información bayesiano (BIC) para comparar la bondad de ajuste para dos modelos. Pero nada te dice que ambos modelos realmente difieren.
Otro es el criterio de Cp de Mallow. Esto esencialmente busca posibles sesgos en su modelo, comparando el modelo con todos los submodelos posibles (o una selección cuidadosa de ellos). Ver también http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Si los modelos que desea comparar son modelos anidados (es decir, todos los predictores e interacciones del modelo más parsimonioso se producen también en el modelo más completo), puede usar una comparación formal en forma de una prueba de razón de probabilidad (o un Chi-cuadrado o una prueba F en los casos apropiados, por ejemplo, cuando se comparan modelos lineales simples ajustados con mínimos cuadrados). Esta prueba controla esencialmente si los predictores o interacciones adicionales realmente mejoran el modelo. Este criterio se usa a menudo en métodos progresivos hacia adelante o hacia atrás.
Tienes defensores y tienes enemigos de este método. Personalmente, no estoy a favor de la selección automática de modelos, especialmente cuando se trata de describir modelos, y esto por varias razones:
Básicamente, veo más en comparar un conjunto selecto de modelos elegidos de antemano. Si no le importa la evaluación estadística del modelo y las pruebas de hipótesis, puede usar la validación cruzada para comparar la precisión predictiva de sus modelos.
Pero si realmente busca la selección de variables con fines predictivos, es posible que desee consultar otros métodos para la selección de variables, como Máquinas de vectores de soporte, Redes neuronales, Bosques aleatorios y similares. Estos se usan mucho más a menudo en, por ejemplo, medicina para averiguar cuál de las mil proteínas medidas puede predecir adecuadamente si tiene cáncer o no. Solo para dar un ejemplo (famoso):
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Todos estos métodos tienen variantes de regresión para datos continuos también.
La parsimonia es tu enemigo. La naturaleza no actúa de manera parsimone, y los conjuntos de datos no tienen suficiente información para permitirle elegir las variables "correctas". No importa mucho qué método use o qué índice use como regla de detención. La selección variable sin contracción está casi condenada. Sin embargo, la reducción hacia atrás limitada (con ) a veces puede ser útil. Funciona simplemente porque no eliminará muchas variables.
Usar la selección hacia atrás o hacia adelante es una estrategia común, pero no puedo recomendarla. Los resultados de tal construcción de modelos están todos equivocados. Los valores p son demasiado bajos, los coeficientes se desvían de 0 y hay otros problemas relacionados.
Si debe hacer una selección automática de variables, le recomendaría usar un método más moderno, como LASSO o LAR.
Escribí una presentación SAS sobre esto, titulada "Detener paso a paso: por qué los pasos y métodos similares son malos y qué debe usar"
Pero, si es posible, evitaría estos métodos automatizados por completo y confiaría en la experiencia en la materia. Una idea es generar aproximadamente 10 modelos razonables y compararlos en función de un criterio de información. @Nick Sabbe enumeró varios de estos en su respuesta.
La respuesta a esto dependerá en gran medida de su objetivo. Puede estar buscando coeficientes estadísticamente significativos, o puede evitar evitar tantas clasificaciones erróneas como sea posible al predecir el resultado de nuevas observaciones, o simplemente puede estar interesado en el modelo con la menor cantidad de falsos positivos; tal vez simplemente desee la curva que está "más cerca" de los datos.
En cualquiera de los casos anteriores, necesita algún tipo de medida para lo que está buscando. Algunas medidas populares con diferentes aplicaciones son AUC, BIC, AIC, error residual, ...
Usted calcula la medida que mejor se ajusta a su objetivo para cada modelo y luego compara los "puntajes" para cada modelo. Esto lleva al mejor modelo para su objetivo.
Algunas de estas medidas (p. Ej., AIC) ponen un énfasis adicional en la cantidad de coeficientes distintos de cero en el modelo, ya que usar demasiados podría ser simplemente sobreajustar los datos (de modo que el modelo es inútil si lo usa para nuevos datos, y mucho menos para la población). Puede haber otras razones para requerir que un modelo contenga variables "lo menos posible", por ejemplo, si es simplemente costoso medirlas todas para la predicción. La 'simplicidad de' o 'pequeño número de variables en' un modelo generalmente se conoce como su parsimonia.
En resumen, un modelo parsimoneous es un modelo 'simple', que no contiene demasiadas variables.
Como a menudo con este tipo de preguntas, lo remitiré al excelente libro Elementos de aprendizaje estadístico para obtener información más detallada sobre el tema y temas relacionados.
La discusión aquí me pareció interesante, especialmente el debate entre Parsimonious y Model con más número de coeficientes y variables.
Mi prof. El difunto Dr. Steve solía enfatizar en un modelo parsimonioso con un R ^ 2 bajo en comparación con otro modelo con mejores ajustes / R ^ 2 grande.
Gracias por todos los peces aquí!
Akash