Quiero investigar el comportamiento de fijación de precios de las aerolíneas, específicamente cómo las aerolíneas reaccionan a los precios de la competencia.
Como diría, mi conocimiento sobre análisis más complejos es bastante limitado. He realizado principalmente todos los métodos básicos para obtener una visión general de los datos. Esto incluye gráficos simples que ya ayudan a identificar patrones similares. También estoy usando SAS Enterprise 9.4.
Sin embargo, estoy buscando un enfoque más basado en números.
Conjunto de datos
El conjunto de datos (auto) recopilados que estoy usando contiene alrededor de ~ 54,000 tarifas. Todas las tarifas se cobraron dentro de un período de 60 días, diariamente (todas las noches a las 00:00).
Por lo tanto, cada tarifa dentro de ese intervalo de tiempo ocurre veces sujeta a la disponibilidad de la tarifa, así como a la fecha de salida del vuelo, cuando se pasa por la fecha de cobro de la tarifa. (No puede cobrar una tarifa para un vuelo cuando la fecha de salida del vuelo es anterior)
El no formateado que se ve básicamente así: (datos falsos)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture" se calcula a través de donde
- I e intervalo (días antes de la salida)
- Fecha y fecha de la tarifa (salida del vuelo)
- c & fecha de cobro de la tarifa
Aquí hay un ejemplo de conjunto de datos agrupados por I (DaysBeforeDep.) (Datos falsos):
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
Lo que se me ocurrió hasta ahora
Mirando los gráficos de líneas, ya puedo estimar que varias líneas tendrán un factor de correlación alto. Por lo tanto, intenté usar el análisis de correlación primero en los datos agrupados. ¿Pero es esa la forma correcta? Básicamente, ¿ahora trato de hacer correlaciones en los promedios en lugar de los precios individuales? ¿Hay otra manera?
No estoy seguro de qué modelo de regresión se ajusta aquí, ya que los precios no se mueven en ninguna forma lineal y parecen no lineales. ¿Necesitaría adaptar un modelo a cada uno de los desarrollos de precios de una aerolínea
PD: Este es un largo muro de texto. Si necesito aclarar algo, hágamelo saber. Soy nuevo en este submarino.
Alguien una pista? :-)