Estoy trabajando en un proyecto y necesito recursos para ponerme al día.
El conjunto de datos es de alrededor de 35000 observaciones en aproximadamente 30 variables. Aproximadamente la mitad de las variables son categóricas y algunas tienen muchos valores posibles diferentes, es decir, si divide las variables categóricas en variables ficticias, tendría muchas más de 30 variables. Pero todavía probablemente del orden de un par de cientos como máximo. (n> p).
La respuesta que queremos predecir es ordinal con 5 niveles (1,2,3,4,5). Los predictores son una mezcla de continuo y categórico, aproximadamente la mitad de cada uno. Estos son mis pensamientos / planes hasta ahora: 1. Trate la respuesta como continua y ejecute una regresión lineal de vainilla. 2. Ejecute la regresión logística y probit nominal y ordinal 3. Utilice MARS y / u otro sabor de regresión no lineal
Estoy familiarizado con la regresión lineal. MARS está suficientemente descrito por Hastie y Tibshirani. Pero estoy perdido cuando se trata de logit / probit ordinal, especialmente con tantas variables y un gran conjunto de datos.
El paquete r glmnetcr parece ser mi mejor apuesta hasta ahora, pero la documentación apenas es suficiente para llevarme a donde necesito estar.
¿Dónde puedo ir para aprender más?