Estadísticas para sitios de citas en línea


10

Tengo curiosidad por saber cómo un sistema de citas en línea podría usar datos de encuestas para determinar coincidencias.

Supongamos que tienen datos de resultados de partidos pasados ​​(p. Ej., 1 = felizmente casados, 0 = sin segunda fecha).

A continuación, supongamos que tenían 2 preguntas de preferencia,

  • "¿Cuánto disfrutas de las actividades al aire libre? (1 = no te gusta mucho, 5 = te gusta mucho)"
  • "¿Qué tan optimista eres acerca de la vida? (1 = fuertemente desagradable, 5 = fuertemente gusta)"

Supongamos también que para cada pregunta de preferencia tienen un indicador "¿Qué tan importante es que su cónyuge comparta su preferencia? (1 = no importante, 3 = muy importante)"

Si tienen esas 4 preguntas para cada par y un resultado sobre si la coincidencia fue un éxito, ¿cuál es un modelo básico que usaría esa información para predecir futuras coincidencias?


2
Pensé que una coincidencia de éxito sucedería cuando la niña es bonita o el hombre es rico. Todo lo demás es secundario.
user4951

44
Consulte blog.okcupid.com : en algún lugar hablan sobre los modelos de coincidencia subyacentes.
Felix S

¿Puedes mencionar en qué tipo de cosas te gustaría tener más profundidad? La respuesta de Michael es una descripción bastante sólida.
Dan

Si lee la patente (patente 6,735,568 - google.com/… ) para EHarmony, su sistema usa una combinación de Análisis de componentes principales, Análisis factorial y una Red neuronal. Como otros han mencionado, métodos como K-NN, CARTS y GLM también funcionarían bien.
Chris Simokat

@ChrisSimokat - ¡GUAU! Muchas gracias por el increíble enlace. Eso es interesante sin embargo. Nunca pensé que podías "proteger" los métodos y algoritmos estadísticos.
d_a_c321

Respuestas:


4

Una vez hablé con alguien que trabaja para uno de los sitios de citas en línea que usa técnicas estadísticas (probablemente preferiría que no dijera quién). Fue bastante interesante: para empezar, usaron cosas muy simples, como vecinos más cercanos con distancias euclidianas o L_1 (bloque de ciudades) entre vectores de perfil, pero hubo un debate sobre si emparejar a dos personas que eran demasiado similares era bueno o malo. cosa. Luego continuó diciendo que ahora han reunido una gran cantidad de datos (quién estaba interesado en quién, quién salió con quién, quién se casó, etc., etc.), lo están usando para capacitar constantemente a las modelos. El trabajo en un marco de lote incremental, donde actualizan sus modelos periódicamente utilizando lotes de datos, y luego recalculan las probabilidades de coincidencia en la base de datos. Cosas bastante interesantes, pero yo '


3

Solicitaste un modelo simple. Así es como comenzaría con el código R:

 glm(match ~ outdoorDif*outdoorImport + optimistDif*optimistImport,
     family=binomial(link="logit"))

outdoorDif = la diferencia de las respuestas de las dos personas sobre cuánto disfrutan las actividades al aire libre. outdoorImport = el promedio de las dos respuestas sobre la importancia de un partido con respecto a las respuestas sobre el disfrute de actividades al aire libre.

El * indica que los términos anteriores y siguientes se interactúan y también se incluyen por separado.

Sugiere que los datos de coincidencia son binarios con las dos únicas opciones: "felizmente casado" y "sin segunda cita", así que eso es lo que asumí al elegir un modelo logit. Esto no parece realista. Si tiene más de dos resultados posibles, deberá cambiar a un logit multinomial u ordenado o algún modelo similar.

Si, como sugiere, algunas personas tienen múltiples intentos de emparejamiento, entonces eso probablemente sería algo muy importante para tratar de tener en cuenta en el modelo. Una forma de hacerlo podría ser tener variables separadas que indiquen el número de intentos previos de coincidencias para cada persona y luego interactuar con las dos.


Gracias por la gran respuesta ... ¡Te estoy dando la recompensa! :) Eso parece un buen enfoque. Quizás si tuviera N preguntas que encajan en categorías similares a M (por ejemplo, preguntas de atletismo) podría enriquecer el modelo utilizando un promedio de la importancia y las diferencias dentro de esa categoría y agregarlo como un término adicional. No es perfecto, pero esa puede ser una forma simple de capturar la interacción de varias variables correlacionadas. Gracias de nuevo, me alegraría escuchar cualquier otro pensamiento que no haya respondido;).
d_a_c321

¿No deberías normalizar las respuestas primero? Si todos disfrutaran del aire libre, entonces la respuesta al aire libre debería ser menos relevante, ya que sería un mal predictor de compatibilidad.
Sklivvz

@Skliwz, no estoy seguro de cómo normalizaría una respuesta de opción múltiple (ordinal). Además, recuerde que las transformaciones lineales de las variables predictoras continuas a veces son deseables por las razones discutidas aquí: stats.stackexchange.com/q/7112/3748 y aquí: stats.stackexchange.com/q/19216/3748 pero no cambiarán el predicciones de modelos salvo algunos problemas computacionales inusuales. Si todos disfrutan del aire libre, el aire libre por igual, la respuesta al aire libre es menos relevante, pero no creo que sea realmente un problema para el modelo como lo especifiqué. (No es que mi modelo sea perfecto)
Michael Bishop

1

Un enfoque simple sería el siguiente.

Para las dos preguntas de preferencia, tome la diferencia absoluta entre las respuestas de los dos encuestados, dando dos variables, digamos z1 y z2, en lugar de cuatro.

Para las preguntas de importancia, podría crear una puntuación que combine las dos respuestas. Si las respuestas fueran, digamos, (1,1), daría un 1, un (1,2) o (2,1) obtiene un 2, un (1,3) o (3,1) obtiene un 3, un (2,3) o (3,2) obtiene un 4, y un (3,3) obtiene un 5. Llamemos a eso el "puntaje de importancia". Una alternativa sería usar max (respuesta), dando 3 categorías en lugar de 5, pero creo que la versión de 5 categorías es mejor.

Ahora crearía diez variables, x1 - x10 (para concreción), todas con valores predeterminados de cero. Para aquellas observaciones con una puntuación de importancia para la primera pregunta = 1, x1 = z1. Si la puntuación de importancia para la segunda pregunta también = 1, x2 = z2. Para aquellas observaciones con una puntuación de importancia para la primera pregunta = 2, x3 = z1 y si la puntuación de importancia para la segunda pregunta = 2, x4 = z2, y así sucesivamente. Para cada observación, exactamente uno de x1, x3, x5, x7, x9! = 0, y de manera similar para x2, x4, x6, x8, x10.

Una vez hecho todo eso, realizaría una regresión logística con el resultado binario como la variable objetivo y x1 - x10 como los regresores.

Las versiones más sofisticadas de esto podrían crear puntuaciones de mayor importancia al permitir que la importancia de los encuestados masculinos y femeninos sea tratada de manera diferente, por ejemplo, a (1,2)! = A (2,1), donde hemos ordenado las respuestas por sexo.

Una deficiencia de este modelo es que podría tener múltiples observaciones de la misma persona, lo que significaría que los "errores", en términos generales, no son independientes entre las observaciones. Sin embargo, con muchas personas en la muestra, probablemente ignoraría esto, para un primer paso, o construiría una muestra donde no hubiera duplicados.

Otro déficit es que es posible que a medida que aumenta la importancia, el efecto de una diferencia dada entre las preferencias sobre p (falla) también aumente, lo que implica una relación entre los coeficientes de (x1, x3, x5, x7, x9) y también entre los coeficientes de (x2, x4, x6, x8, x10). (Probablemente no sea un pedido completo, ya que no está claro a priori cómo se relaciona un puntaje de importancia (2,2) con un puntaje de importancia (1,3).) Sin embargo, no lo hemos impuesto en el modelo. Probablemente ignoraría eso al principio, y vería si estoy sorprendido por los resultados.

La ventaja de este enfoque es que no impone suposición sobre la forma funcional de la relación entre "importancia" y la diferencia entre las respuestas de preferencia. Esto contradice el comentario anterior sobre el déficit, pero creo que la falta de una forma funcional impuesta es probablemente más beneficiosa que la falta relacionada de tener en cuenta las relaciones esperadas entre los coeficientes.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.