Supongamos que quiero construir un modelo para predecir algún tipo de razón o porcentaje. Por ejemplo, digamos que quiero predecir el número de niños frente a niñas que asistirán a una fiesta, y las características de la fiesta que puedo usar en el modelo son cosas como la cantidad de publicidad para la fiesta, el tamaño del lugar, si hay habrá alcohol en la fiesta, etc. (Este es solo un ejemplo inventado; las características no son realmente importantes).
Mi pregunta es: ¿cuál es la diferencia entre predecir una relación frente a un porcentaje, y cómo cambia mi modelo dependiendo de cuál elijo? ¿Es uno mejor que el otro? ¿Alguna otra función es mejor que cualquiera? (Realmente no me importan los números específicos de relación versus porcentaje; solo quiero poder identificar qué partes tienen más probabilidades de ser "fiestas de niños" frente a "fiestas de niñas"). Por ejemplo, estoy pensando:
- Si quiero predecir un porcentaje (por ejemplo,
# boys / (# boys + # girls)
dado que mi función dependiente está limitada entre 0 y 1, probablemente debería usar algo como una regresión logística en lugar de una regresión lineal). - Si quiero predecir una relación (por ejemplo,
# boys / # girls
o# boys / (1 + # girls)
para evitar errores de división por cero), entonces mi característica dependiente es positiva, así que ¿debería aplicar algún tipo de transformación (log?) Antes de usar una regresión lineal? (¿O algún otro modelo? ¿Qué tipo de modelos de regresión se utilizan para datos positivos sin recuento?) - ¿Es mejor predecir (decir) en general el porcentaje en lugar de la razón, y si es así, ¿por qué?