¿Cómo medir la "redondez" de los contribuyentes de SE?


12

Stack Exchange, como todos lo sabemos, es una colección de sitios de preguntas y respuestas con temas diversificados. Suponiendo que cada sitio es independiente el uno del otro, dadas las estadísticas que tiene un usuario, ¿cómo calcular su "redondez" en comparación con el siguiente tipo? ¿Cuál es la herramienta estadística que debo emplear?

Para ser honesto, no sé cómo definir matemáticamente la "redondez del pozo", pero debe tener las siguientes características:

  1. En igualdad de condiciones, cuanto más representante tenga un usuario, más completo será
  2. En igualdad de condiciones, cuantos más sitios participe un usuario, más completo será.
  3. Si la respuesta o la pregunta no afecta la redondez del pozo

¿Cómo definirías "redondez" en el contexto de SE, en primer lugar?
JM no es estadístico

@JM, no lo sé, es por eso que espero que la comunidad ayude a desarrollar los conceptos un poco más.
Graviton

1
A riesgo de sonar como uno de los policías de PC de rodillas, incluyamos a las mujeres que visitan nuestro sitio. @ Graviton, todas sus referencias son para hombres.
rolando2

La redondez definida por una ID de usuario no le informa sobre la redondez de un contribuyente , ya que un contribuyente puede tener diferentes ID de usuario para diferentes SE. Algunas ID de usuario también pueden ser utilizadas por más de un contribuyente (por ejemplo, socios que comparten una cuenta).
Alexis

Respuestas:


7

También debe tener en cuenta la similitud entre los sitios. Alguien que participa en StackOverflow y Seasoned Advice es más completo que alguien que participa en SO y CrossValidated, que a su vez (yo diría) es más completo que alguien que participa en SO y Programmers . Indudablemente, hay muchas maneras de hacerlo, pero puede verificar el registro superpuesto para tener una idea.


1
@Matt Parker, buenos puntos: si el representante es parte de la métrica, también creo que debe ver cómo se ganó el representante. Una persona que obtuvo su representante de pequeñas ganancias en muchas preguntas / respuestas probablemente estaría más completa que una persona que obtuvo el mismo representante en una sola pregunta que obtuvo una tonelada de votos positivos.
DQdlM

3
@Kenny Ese es un buen punto y creo que la forma en que lo has dicho es correcta, pero creo que muchas de las preguntas y respuestas más votadas son a menudo menos indicativas de experiencia, mientras que las buenas respuestas a preguntas técnicas realmente arenosas a menudo tienen Muy bajos votos.
Matt Parker

1
Mira las respuestas de whuber, por ejemplo. Sus respuestas son uniformemente excelentes, entonces, ¿qué diferencia entre sus respuestas altamente calificadas y sus 1 votantes? Cuando miro el primero, veo excelentes respuestas a las preguntas que entiendo; en este último, excelentes respuestas a preguntas que ni siquiera empiezo a asimilar. Por lo tanto, las respuestas con voto bajo en realidad pueden ser indicativas de una especialización profunda (pero tenga en cuenta: si tiene curiosidad sobre cómo se ve un usuario de SE completo, este es el caso ).
Matt Parker

1
De hecho, @Graviton, podría ser aconsejable buscar usuarios de sitios múltiples que considere completos y ver cómo funcionan en sus diversas métricas.
Matt Parker

1
@KennyPeanuts, para complementar el punto anterior de @ Matt, parece que también hay un número apreciable de usuarios en los sitios de SE que responden a una gran cantidad de preguntas, pero que producen pocos votos positivos. Eso tampoco suele ser indicativo de experiencia o redondez. (Sin embargo, es una de las estrategias más fáciles de obtener "reputación").
cardenal

6

EJEMPLO: digamos que hay tres sitios, y queremos comparar la redondez de los usuarios A, B, C. Escribimos las reputaciones de los usuarios en los tres sitios en forma vectorial:

Usuario A: [23, 23, 0]

Usuario B: [15, 15, 0]

Usuario C: [10, 10, 10]

Consideraríamos que A es más completo que B (sus reputaciones están distribuidas de manera uniforme en dos sitios, pero A tiene una reputación más total). Además, consideraríamos que C es más completo que B (tienen la misma reputación total, pero C tiene una distribución uniforme en más sitios). No se sabe si A debe considerarse más completo que C, o viceversa. .

Deje que , , sean los vectores de reputación anteriores respectivamente.x B x CxAxBxC

Queremos medir la "redondez" de un usuario en función de su vector de reputación . Por lo anterior, nos gustaría que nuestra función satisfaga , y .f f ( x A ) > f ( x B ) f ( x C ) > f ( x B )f(x)ff(xA)>f(xB)f(xC)>f(xB)

Cualquier que sea cóncava y creciente hará el truco.f(x)

Dos ejemplos comunes de funciones convexas son la 'norma fraccional'

f([x1,...,xm])=ixip

0<p<1

p=1/2

f(xA)=2239.6
f(xB)=2157.7
f(xC)=3109.5

1/2

f

f([x1,...,xm])=ixilog(xi/c).

c=ixi

f

f(xA)=46log(2)31.9
f(xB)=30log(2)20.8
f(xC)=30log(3)33.0

Medido de acuerdo con la entropía de Shannon escalada, entonces, diríamos que C es el más completo de los tres, y A el segundo más completo.

f(x)

EDIT2: Se agregó un ejemplo a la luz del comentario de whuber.


f

f[1,101]f

La norma fraccional no está definida cuando cualquier x_i <0. La entropía de Shannon falla cuando cualquier x_i / c ≤ 0. No tiene sentido que una medida de redondez bien explote repentinamente cuando algo de x_i cambia de 0 a -𝜀.
200_success

4

Esta es una pregunta muy, muy interesante (de hecho, estoy un poco enamorado de la idea de modelar los sitios de intercambio de pila en general).

Sobre el tema de la redondez, una forma de evaluar esto sería a través de las etiquetas que los usuarios particulares tienden a responder, y su distribución entre sitios. Los ejemplos pueden aclarar esto.

Soy miembro de TeX, StackOverflow, CrossValidated y AskUbuntu. Ahora, realmente solo contribuyo aquí y StackOverflow, y solo sobre R en Stackoverflow. Por lo tanto, para definir una redondez completa, vería a) la cantidad de etiquetas que tienen en común dos sitios (para definir la similitud entre sitios) y la medida en que un usuario responde preguntas en sitios que tienen poca o ninguna etiqueta en común.

Si, por ejemplo, alguien contribuye a las etiquetas de Python en StackOverflow y cocina, esa persona está más completa que alguien que está respondiendo preguntas de software estadístico (por ejemplo) en Overflow y preguntas de estadísticas aquí.

Espero que esto sea de alguna ayuda.


44
(+1) Alguien que está contribuyendo a las etiquetas de Python tanto en SO como en cocina tiene algunos sabores exóticos en la comida :-) Escuché que sabe a pollo.
whuber

3

Si define 'redondez completa' como 'contribución a muchos sitios diferentes de Stack Exchange', calcularía alguna métrica de contribución por sitio. Podrías usar publicaciones totales, o publicaciones promedio por día, o tal vez reputación. Luego, observe la distribución de esta métrica en todos los sitios y calcule su sesgo de alguna manera que tenga sentido.

En otras palabras, una persona 'bien redondeada' sería la que contribuye a muchos sitios diferentes, mientras que una persona 'no bien redondeada' sería la que contribuye principalmente a un sitio. Puede mejorar aún más esto al escalar su métrica con el total de un usuario en todos los sitios. es decir, alguien que ha contribuido mucho a muchos sitios diferentes debe considerarse más completo que alguien que no ha contribuido nada a ninguno de los sitios. ¡Una persona que nunca ha usado SE no está muy completa!


1

Ya hay muchas buenas respuestas, ¿por qué una más? Esto es principalmente para llamar la atención sobre las interesantes ideas discutidas aquí en The n-Category Café . Si bien la diversidad en ecología (y en otros lugares) en su mayoría solo considera la abundancia, también se debe observar cuán similares / diferentes son las diferentes especies.

Al representar la especie (o lo que sea, como los sitios SE ...) como puntos en un espacio métrico, esto lleva a generalizar la entropía a espacios métricos, ver por ejemplo La máxima entropía de un espacio métrico por Tom Leinster, Emily Roff . Las mismas ideas podrían usarse dentro de los sitios de SE mirando las etiquetas como puntos en un espacio métrico.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.