Estoy tratando de armar un paquete de minería de datos para los sitios de StackExchange y, en particular, estoy estancado en tratar de determinar las preguntas "más interesantes". Me gustaría usar el puntaje de la pregunta, pero elimino el sesgo debido a la cantidad de vistas, pero no sé cómo abordar esto rigurosamente.
En el mundo ideal, podría ordenar las preguntas calculando , dondees el total de votos es el número de visitas. Después de todo, mediría el porcentaje de personas que votaron a favor de la pregunta, menos el porcentaje de personas que votaron a favor de la pregunta.
Lamentablemente, el patrón de votación es mucho más complicado. Los votos tienden a "estabilizarse" hasta cierto nivel y esto tiene el efecto de subestimar drásticamente las preguntas extremadamente populares. En la práctica, una pregunta con 1 punto de vista y 1 voto positivo ciertamente obtendría un puntaje más alto que cualquier otra pregunta con 10,000 puntos de vista, pero menos de 10,000 votos.
Actualmente estoy usando como fórmula empírica, pero me gustaría ser preciso. ¿Cómo puedo abordar este problema con rigor matemático?
Para abordar algunos de los comentarios, intentaré reformular el problema de una mejor manera:
Digamos que tengo una pregunta con votos en total y vistas. Me gustaría poder estimar qué votos totales es más probable cuando las vistas alcanzan .
De esta manera, simplemente podría elegir un valor nominal para y ordenar todas las preguntas de acuerdo con el total esperado .
He creado dos consultas en el datadump SO para mostrar mejor el efecto del que estoy hablando:
Resultado:
Puntuación media por vistas (cubos de 100 vistas)
Resultado:
Resultados, no estoy seguro si más recto es mejor: ( en azul,