Si has estado leyendo los boletines de la comunidad últimamente, es probable que hayas visto The Hunting of the Snark, una publicación en el blog oficial de StackExchange de Joel Spolsky, CEO de la red StackExchange. Analiza un análisis estadístico realizado en una muestra de comentarios SE para evaluar su "amabilidad" desde la perspectiva de un usuario externo. Los comentarios se tomaron al azar de StackOverflow y los analistas de contenido eran miembros de la comunidad Mechanical Turk de Amazon, un mercado de trabajo que conecta a las empresas con los trabajadores que realizan tareas pequeñas y cortas por tarifas asequibles.
No hace mucho tiempo, era un estudiante graduado en ciencias políticas y una de las clases que tomé fue el Análisis Estadístico de Contenido . El proyecto final de la clase, de hecho, su propósito completo, era llevar a cabo un análisis detallado de los informes de guerra del New York Times, para probar si muchos de los supuestos que los estadounidenses hacen sobre la cobertura de noticias durante las guerras eran precisos (spoiler: la evidencia sugiere que son no). El proyecto fue enorme y bastante divertido, pero su sección más dolorosa fue la 'fase de prueba de capacitación y confiabilidad', que ocurrió antes de que pudiéramos realizar un análisis completo. Tenía dos propósitos (consulte la página 9 del documento vinculado para obtener una descripción detallada, así como referencias a los estándares de confiabilidad del intercodificador en la literatura estadística de análisis de contenido):
Confirme que todos los codificadores, es decir, los lectores del contenido, fueron entrenados en las mismas definiciones cualitativas. En el análisis de Joel, esto significaba que todos sabrían exactamente cómo el proyecto definía "amigable" y "hostil".
Confirme que todos los codificadores interpretaron estas reglas de manera confiable, es decir, muestreamos nuestra muestra, analizamos el subconjunto y luego demostramos estadísticamente que nuestras correlaciones por pares en las evaluaciones cualitativas fueron bastante similares.
Las pruebas de confiabilidad duelen porque tuvimos que hacerlo tres o cuatro veces. Hasta que -1- se bloqueó y -2- mostró correlaciones por pares suficientemente altas, nuestros resultados para el análisis completo fueron sospechosos. No se pudieron demostrar válidos o inválidos. Lo que es más importante, tuvimos que hacer pruebas piloto de confiabilidad antes del conjunto de muestra final.
Mi pregunta es la siguiente: el análisis estadístico de Joel careció de una prueba de confiabilidad piloto y no estableció ninguna definición operativa de "amabilidad". ¿Fueron los datos finales lo suficientemente confiables como para decir algo sobre la validez estadística de sus resultados?
Para una perspectiva, considere este manual sobre el valor de la confiabilidad del intercodificador y las definiciones operacionales consistentes. Desde lo más profundo en la misma fuente, puede leer sobre las pruebas de fiabilidad del piloto (elemento 5 de la lista).
Según la sugerencia de Andy W. en su respuesta, estoy tratando de calcular una variedad de estadísticas de confiabilidad en el conjunto de datos, que está disponible aquí, usando esta serie de comandos en R (actualizado a medida que calculo nuevas estadísticas).
Las estadísticas descriptivas están aquí.
Porcentaje de acuerdo (con tolerancia = 0): 0.0143
Porcentaje de acuerdo (con tolerancia = 1): 11.8
Alfa de Krippendorff: 0.1529467
También intenté un modelo de respuesta al ítem para estos datos en otra pregunta.