Recientemente hice un análisis de los efectos de la reputación en los votos a favor (ver la publicación del blog ), y posteriormente tuve algunas preguntas sobre análisis y gráficos posiblemente más esclarecedores (o más apropiados).
Entonces, algunas preguntas (y siéntase libre de responder a cualquiera en particular e ignorar a los demás):
En su actual encarnación, no quise centrar el número de publicación. Creo que lo que esto hace es dar la falsa apariencia de una correlación negativa en el diagrama de dispersión, ya que hay más publicaciones hacia el extremo inferior del recuento de publicaciones (ves que esto no sucede en el panel Jon Skeet, solo en los usuarios mortales panel). ¿Es inapropiado no centrar la media del número de publicación (ya que me refiero a centrar la puntuación por puntuación media del usuario)?
Debería ser obvio a partir de los gráficos que la puntuación está muy sesgada (y el centrado medio no cambió eso). Al ajustar una línea de regresión, ajusté tanto los modelos lineales como los modelos que usan los errores de arena de Huber-White (que se encuentran
rlm
en el paquete MASS R ) y no hizo ninguna diferencia en las estimaciones de la pendiente. ¿Debería haber considerado una transformación de los datos en lugar de una regresión robusta? Tenga en cuenta que cualquier transformación debería tener en cuenta la posibilidad de 0 y puntuaciones negativas. ¿O debería haber usado algún otro tipo de modelo para los datos de conteo en lugar de OLS?Creo que los dos últimos gráficos, en general, podrían mejorarse (y también están relacionados con estrategias de modelado mejoradas). En mi opinión (cansada), sospecharía que si los efectos de reputación son reales, se darían cuenta bastante temprano en la historia de los pósters (supongo que si es cierto, estos podrían reconsiderarse ", dio algunas respuestas excelentes, así que ahora votaré a todos sus publica efectos "en lugar de" reputación por puntuación total "). ¿Cómo puedo crear un gráfico para demostrar si esto es cierto, teniendo en cuenta el trazado excesivo? Pensé que tal vez una buena manera de demostrar esto sería ajustar un modelo de la forma;
donde es el (igual que en los diagramas de dispersión actuales), X 1 es el , y Z 1 ⋯ Z k son variables ficticias que representan un rango arbitrario de números de publicación (por ejemplo, Z 1 es igual si el número de publicación es , Z 2 es igual si el número de publicación es etc.). β 0 y ϵ son el término de gran intercepción y error respectivamente. Entonces solo examinaría el γ estimadoscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
pendientes para determinar si los efectos de reputación aparecieron al principio de la historia de los carteles (o mostrarlos gráficamente). ¿Es este un enfoque razonable (y apropiado)?
Parece popular ajustar algún tipo de línea de suavizado no paramétrico a diagramas de dispersión como estos (como loess o splines), pero mi experimentación con splines no reveló nada esclarecedor (cualquier evidencia de efectos positivos al principio de la historia del póster fue leve y temperamental a la cantidad de splines que incluí). Dado que tengo la hipótesis de que los efectos ocurren desde el principio, ¿es mi enfoque de modelado más razonable que las splines?
También tenga en cuenta que aunque he dragado todos estos datos, todavía hay muchas otras comunidades para examinar (y algunas como superusuario y servidor predeterminado tienen muestras similares de gran tamaño para extraer), por lo que es bastante razonable sugerir en el futuro análisis que utilizo una muestra de reserva para examinar cualquier relación.