Pregunta de la entrevista del científico de datos: regresión lineal baja


10

Enfrenté una pregunta de entrevista para un trabajo donde el entrevistador me preguntó si su es muy bajo (entre 5 y 10%) para un modelo de elasticidad de precios. ¿Cómo resolverías esta pregunta?R2

No puedo pensar en otra cosa que no sea el hecho de que haré diagnósticos de regresión para ver qué salió mal o si se debe aplicar algún método no lineal. De alguna manera creo que el entrevistador no estaba satisfecho con mi respuesta. ¿Hay algo más que se haga en tal escenario para ajustar un modelo y usarlo para la predicción del nivel de producción a pesar de tener un bajo ?R2

Editar : en una etapa posterior, me dieron los datos para modelar el problema durante la entrevista y traté de agregar variables rezagadas, el impacto del precio de la competencia, las variables de estacionalidad para ver si había alguna diferencia. fue de 17.6 por ciento y su desempeño en la muestra de reserva fue deficiente. Personalmente, creo que no es ético poner un modelo de predicción de este tipo en un entorno en vivo, ya que dará resultados erróneos y provocará la pérdida de clientes (¡imagínese usar la recomendación de precios de dicho modelo en los ingresos de su empresa!). ¿Hay algo más que se haga en tales escenarios que sea demasiado obvio que todos necesitan saber? ¿Algo de lo que no estoy al tanto y que me siento tentado a decir 'una bala de plata'?R2

Además, imaginemos que después de agregar una variable exógena mejora en un 2% adicional, ¿qué se puede hacer en este escenario? ¿Deberíamos descartar el proyecto de modelado o todavía hay alguna esperanza de desarrollar un modelo de calidad de nivel de producción que se indica por el rendimiento en la muestra reservada?R2

Edit2 : he publicado esta pregunta en el foro economics.stackexchange.com para entender este problema desde la perspectiva de la economía


12
R2R2

1
Lo etiqueté para auto estudio @Glen_b, avíseme si necesito agregar más detalles. ¡Gracias!
Entusiasta

2
Gracias, eso es algo bueno que hacer. Pero más detalles incluirían la pregunta real que necesitaba resolver. "Suponga que X" presenta una situación que no le pide que resuelva nada.
Glen_b -Reinstate a Monica

1
Publicación cruzada en economics.stackexchange.com/q/16617 . Intente decidir el mejor sitio para una pregunta: si cree que vale la pena adaptar variantes a diferentes sitios, aún así vincúlelos.
Scortchi - Restablece a Monica

1
@Scortchi, agregué el enlace como edición adicional en ambos foros. ¡Gracias!
Entusiasta

Respuestas:


11

¿Qué pasa si miramos el problema desde esta perspectiva? La elasticidad precio es la relación entre la demanda y el precio de un producto.

Cuando el r-cuadrado en esta situación es bajo, podríamos implicar que la relación entre el precio y la demanda de ese producto en particular no es sólida.

Desde el punto de vista de la fijación de precios, podría significar que ha encontrado un producto para el que puede fijar el precio arbitrariamente sin un gran impacto en la demanda O que la demanda es bastante errática a pesar de los precios diferenciales.

Si nos fijamos en los productos Veblen , son ejemplos en los que la elasticidad es inversa. A medida que aumenta el precio, aumenta la demanda.

Si, por otro lado, r-cuadrado es bajo, simplemente podría significar una categoría de producto para la cual el precio es relativamente poco importante cuando se trata de la demanda. De la parte superior de mi cabeza, un medicamento contra el cáncer podría ser algo que pudiera adherirse a esta propiedad. Donde la importancia de la droga supera el precio que exige y no puede mostrar ningún cambio en la demanda.

Y en conclusión, supongo que la intención del entrevistador podría haber sido juzgar si supieras lo que implica la implicación de un r-cuadrado bajo en lugar de descubrir cómo construir un mejor modelo con un r-cuadrado más alto.


+1 para la conclusión. También estoy pensando que el propósito de esta pregunta es tratar de ver si el candidato persigue ciegamente una métrica sin entenderlo completamente.
Haitao Du

5

No estoy seguro de lo que buscaba el entrevistador, pero cuando me enfrento a un modelo mal preformado, estas son las cosas que considero y una respuesta que me encantaría escuchar como entrevistador (he estado entrevistando durante un par de años).

  1. Obteniendo más datos : Esto no siempre ayuda, pero hay algunas cosas que pueden ayudarlo a evaluar los efectos de esta solución:

    • Ejecute el modelo con diferentes tamaños de muestra: si los resultados mejoran con más datos, entonces es razonable suponer que obtener más datos continuará mejorando el rendimiento del modelo.
    • Relación de características a muestras: después de seleccionar las características, intente comprender si tiene suficientes muestras por cada valor de característica. Vea una pregunta contestada sobre este tema .
    • Faltan valores objetivo: la elasticidad podría no comportarse de manera similar entre diferentes rangos de precios. En una situación en la que los datos de las muestras están sesgados hacia un rango específico, existe una buena posibilidad de que no pueda generalizar (por ejemplo, el 90% de las muestras son para precios entre 0-10 y el otro 10% para precios entre 1000-10000). Hay maneras de abordar este problema además de obtener más datos (dividir el entrenamiento del modelo, no usar regresión).
  2. Mejor ingeniería de características : si tiene suficientes datos y conoce el aprendizaje profundo, entonces quizás este sea irrelevante. En caso de que no cumpla con los criterios mencionados, concentre sus esfuerzos en este. En los modelos de comportamiento del usuario, hay muchas relaciones que nuestra intuición humana comprende mejor que un modelo entrenado en máquina.
    Como en su caso, donde diseñó un par de características más y mejoró el rendimiento del modelo. Este paso es propenso a errores ya que generalmente involucra código basado en lógica (If Elses / Fórmulas matemáticas).

  3. Mejor selección de modelo : como sugirió, quizás un modelo no lineal funcionará mejor. ¿Sus datos son homogéneos? ¿Tiene razones para creer que las características cruzadas explicarán mejor la elasticidad del precio? (estacionalidad * precio del competidor).

  4. Ajuste de hiperparámetros : los hiperparámetros del modelo de búsqueda de cuadrícula (+ resultados de validación cruzada) son una buena práctica, pero en lo que respecta a mi experiencia, rara vez mejora mucho el rendimiento (seguramente no del 5% al ​​90%).

Hay más cosas que se pueden hacer, pero estos puntos son lo suficientemente genéricos.


1

Además de lo sugerido por @DaFanat y @Arun, me gustaría agregar que alguna inspección visual podría ayudar.

R2


Gracias por compartir información específica del dominio, ya que este es realmente un problema de gestión de ingresos
Entusiasta
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.