Tengo los datos del vino de aquí que consisten en 11 variables numéricas independientes con una calificación dependiente asociada con cada entrada con valores entre 0 y 10. Esto hace que sea un gran conjunto de datos utilizar un modelo de regresión para investigar la relación entre las variables y las asociadas. clasificación. Sin embargo, ¿sería apropiada la regresión lineal, o es mejor usar la regresión logística multinomial / ordenada?
La regresión logística parece mejor dadas categorías específicas, es decir, no una variable dependiente continua, pero (1) hay 11 categorías (¿un poco demasiado?) Y (2) después de la inspección, solo hay datos para 6-7 de esas categorías, es decir, el resto 5-4 categorías no tienen ejemplo en el conjunto de datos.
Por otro lado, la regresión lineal debería estimar linealmente una calificación entre 0-10 que parece más cercana a lo que estoy tratando de averiguar; Sin embargo, la variable dependiente no es continua en el conjunto de datos.
¿Cuál es el mejor enfoque? Nota: estoy usando R para el análisis
Editar, abordando algunos de los puntos mencionados en las respuestas:
- No hay un objetivo comercial ya que esto es realmente para un curso universitario. La tarea es analizar un conjunto de datos de elección de la manera que yo considere conveniente.
- La distribución de las calificaciones parece normal (histograma / qq-plot). Los valores reales en el conjunto de datos están entre 3-8 (aunque técnicamente 0-10).