Predecir el mejor momento de la llamada

Tengo un conjunto de datos que incluye un conjunto de clientes en diferentes ciudades de California, la hora de llamar a cada cliente y el estado de la llamada (Verdadero si el cliente responde la llamada y Falso si el cliente no responde).

Tengo que encontrar un momento adecuado para llamar a futuros clientes, de modo que la probabilidad de responder la llamada sea alta. Entonces, ¿cuál es la mejor estrategia para este problema? ¿Debería considerarlo como un problema de clasificación que las horas (0,1,2, ... 23) son las clases? ¿O debería considerarlo como una tarea de regresión que el tiempo es una variable continua? ¿Cómo puedo asegurarme de que la probabilidad de responder la llamada sea alta?

Cualquier ayuda sería apreciada. También sería genial si me refieres a problemas similares.

A continuación se muestra una instantánea de los datos.

— Hamid Mahdavian
fuente

Sean Owen, ¿cómo fue la tarea? Ahora estoy tratando de resolver un problema similar y me encantaría escuchar su experiencia, no hay muchos recursos en este tema en la web. ¡Gracias por adelantado!

— Dominika

Respuestas:

En realidad, puede encontrar problemas si modela esto como un problema de regresión sin una transformación adecuada. Por ejemplo, sabemos que la mayoría de las llamadas probablemente se responden durante el día y menos durante la noche y temprano en la mañana. Una regresión lineal tendría dificultades porque la relación es probablemente curvilínea, no lineal. Por la misma razón, tratar esto como una tarea de clasificación con regresión logística también sería problemático.

Según lo sugerido por otros encuestados, será útil reclasificar sus datos en períodos de tiempo, y le sugiero que primero pruebe algo como un árbol de decisión o un bosque aleatorio.

Dicho todo esto, este podría ser un caso para estadísticas descriptivas simples. Si traza la proporción de llamadas contestadas por hora del día (dividida por ciudad o cualquier otro grupo demográfico), ¿hay un mejor momento claro ? Si es así, ¿por qué complicar las cosas con un modelo?

— HEITZ
fuente

Puedes probar lo siguiente:

Divide el día en varias partes: temprano en la mañana, mañana, mediodía, tarde, tarde, tarde, noche, etc.
Asigne límites de tiempo a cada parte del día, por ejemplo, el mediodía puede ser de 12 p.m. a 1 p.m.
Cree 3 etiquetas nuevas: "parte del día para llamar al cliente", para cada caso positivo (estado de la llamada = verdadero) asígnele la etiqueta correspondiente (mañana / mediodía / tarde). Estas etiquetas estarán en un formato codificado en caliente, por ejemplo prefer_morning = 0/1, prefer_noon, prefer_evening, etc.
Cree 3 modelos para predecir si el líder prefiere el horario matutino / mediodía / vespertino del día para que una llamada sea exitosa.

Además, recomiendo agregar características adicionales como ocupación, género, etc., ya que las características enumeradas en la tabla (ciudad, etc.) son demasiado ambiguas y no brindan mucha información para diferenciar entre los clientes.

EDITADO según la sugerencia en los comentarios:

Al usar el modelo, cada cliente potencial se clasificaría como prefers_morning = yes / no, prefers_noon = yes / no y prefers_evening = yes / no. Según la hora del día, por ejemplo, en la mañana, el agente del centro de llamadas (o software) podría recoger y llamar a los clientes potenciales clasificados en el conjunto de preferencias de la mañana. Cuando es mediodía, el software de la llamada se recoge de la lista preferida de mediodía, y así sucesivamente.

— Sandeep S. Sandhu
fuente

@ sandeep-s-sandhu Esta es una manera simple de convertir el problema en un problema de clasificación de ciencia de datos. Pero parece que este enfoque puede tener algunas desventajas: 1. la información de la etiqueta solo incluye un caso positivo, la pérdida de la información del caso negativo 2. Un cliente solo puede tener una de las etiquetas. En la práctica, un cliente puede tener más de una etiqueta (es decir, prefiero que las personas me llamen a última hora de la tarde o de la noche). ¿Qué piensas?

— nkhuyu

@nkhuyu, 1) la etiqueta también incluye mayúsculas y minúsculas. Creo que entendió mal la declaración "Crear una nueva etiqueta -" parte del día para llamar al cliente ", para cada caso positivo (estado de la llamada = verdadero)". Este paso tiene la intención de crear una etiqueta adicional, la etiqueta original de si la llamada fue exitosa o no, permanece tal cual. 2) Sí, tienes razón, editó la respuesta para reflejar esto.

— Sandeep S. Sandhu

@ sandeep-s-sabdhu Gracias por la respuesta. Sí, lo entendí mal. OKAY. Luego tendrá dos etiquetas (estado de la llamada, su nueva etiqueta). Entonces, ¿cómo puedes resolver este problema? No es un problema de clasificación regular.

— nkhuyu

@nkhuyu, gracias por notar esto, ahora he editado y aclarado esto en el paso 4. Cada uno de los tres modelos dará un conjunto de clientes potenciales que elegirán la llamada para esa hora del día en particular, el centro de llamadas usa esto para priorizar sus llamadas.

— Sandeep S. Sandhu

El paso 1 es seguido por el paso 3 y los he sugerido para crear etiquetas apropiadas para la capacitación. La consulta principal fue: "Tengo que encontrar un momento apropiado para llamar ...". Depende del OP decidir si estos deben ser mañana / mediodía / tarde o más granulares, como por hora.

— Sandeep S. Sandhu

Usaría una regresión logística: necesitará muestras donde no se recuperaron. Luego trataría la hora como un regresor ficticio estacional (23 horas como variables ficticias y dejaría que una fluya hacia la intersección).

Si no lo trata como un regresor ficticio estacional, tendrá que realizar algún tipo de transformación, porque la relación no será lineal.

Alguien sugirió previamente sustituir a media tarde, etc. como una variable categórica. Esa es una mala idea porque tienes los detalles y los estás perdiendo allí. Eso tendría un efecto similar a utilizar un binning óptimo para hacer que la relación sea lineal, pero todavía no creo que funcione. Prueba los regresores ficticios de temporada.

— Michael Corley MBA LSSBB
fuente