Sobre el uso de correlaciones ponderadas en datos agregados de encuestas

Estoy analizando datos de dos encuestas que fusioné:

Encuesta del personal escolar, para los años 2005-06 y 2007-08
Encuesta de estudiantes escolares, para los años 2005-06 a 2008-09

Para ambos conjuntos de datos, tengo observaciones (a nivel de estudiantes o personal) de 3 distritos escolares diferentes, cada uno con muestras representativas por año dentro de su distrito escolar distinto.

Para el análisis, combiné los datos de los estudiantes en dos períodos de 2 años (2005-07 y 2007-09). Luego, 'doblé' cada conjunto de datos para obtener porcentajes de personal o estudiantes que respondieron a las preguntas de acuerdo con los límites (por ejemplo, si respondieron afirmativamente, "De acuerdo", o si el estudiante marcó que consumió alcohol, etc.) Entonces, cuando fusioné los conjuntos de datos de nivel de personal y estudiantes, la escuela es la unidad de análisis, y solo tengo 1 observación por escuela por períodos de 2 años (dado que a la escuela no le faltaban datos para un período de tiempo determinado )

Mi objetivo es estimar las asociaciones entre el personal y las respuestas de los estudiantes. Hasta ahora, mi plan era obtener coeficientes de correlación de Pearson entre todas las variables (ya que todas son respuestas continuas que representan porcentajes) para cada distrito escolar por separado (ya que esto elimina el supuesto de generalización para los otros distritos en este conjunto de datos) . Para hacer esto, promediaría los datos del distrito durante los dos años de todos modos para obtener solo una observación por escuela.

Preguntas:

¿Es este un plan de análisis apropiado? ¿Hay algún otro método que pueda usar que pueda proporcionarme una mejor inferencia o poder?
Si mi plan es apropiado, ¿debo obtener correlaciones ponderadas basadas en la inscripción de la escuela (ya que hay más escuelas más pequeñas que grandes que estarían contribuyendo desproporcionadamente a los coeficientes de correlación)?

Le pregunté al administrador de datos sobre esto, y él mencionó que los factores principales que determinan la necesidad de ponderar mis datos es si creo que el tamaño de la escuela afecta o no el grado de correlación y si mi interpretación será a nivel de estudiante o escuela. Creo que mi interpretación será a nivel escolar (por ejemplo, "una escuela con este porcentaje de personal respondiendo de esta manera se correlaciona con este porcentaje de estudiantes que responden de esta manera ...").

correlation survey multilevel-analysis

— Iris Tsui
fuente

Me imagino que esto ya es historia, pero por si acaso ...

1) Sí, esto parece apropiado. Su pregunta de investigación debe ser "¿las actitudes / comportamientos de los maestros en una escuela están relacionados con las actitudes / comportamientos de los estudiantes en esa escuela?" Si esta es su pregunta, una escuela es la unidad de análisis apropiada (y de todos modos no habría forma de relacionar a los maestros individuales con los estudiantes).

Simplemente agregaría advertencias sobre el uso del coeficiente de correlación de Pearson, sin relación con la cuestión de la unidad de análisis o la estrategia de muestreo. El coeficiente de correlación no puede detectar relaciones no lineales, puede ser engañoso de interpretar, se distorsiona fácilmente por algunos valores atípicos, y la inferencia clásica basada en ello depende de la Normalidad (que no se mantendrá exactamente con los datos de su proporción, aunque puede ser una aproximación razonable). Como mínimo, usaría cuidadosamente los métodos gráficos para verificar que este es un enfoque sensato y que no hay una mejor manera de inferir la relación entre las dos variables.

2) No creo que necesite sopesar los datos, pero ciertamente lo probaría (y espero que no cambie los resultados). Pero yo consideraría el tamaño de su muestra en la escuela, no el tamaño de la inscripción. La razón sería sobre la estimación en lugar de su unidad de análisis o cualquier necesidad de "ponderar a la población". Solo tiene una estimación de las respuestas verdaderas del maestro y del alumno en cada escuela, basándose en su muestra finita. Las escuelas en las que tenía una muestra más grande confían más en su estimación y, por lo tanto, sería bueno si se tomaran más en serio para ajustar su correlación o regresión lineal.

— Peter Ellis
fuente

Gracias por su respuesta confirmatoria, así como por su consejo. Terminé no usando este tipo de análisis por varias razones (tiempo y recursos, incluidos) y en su lugar, presenté cosas solo de manera descriptiva. Me sentí incómodo al tratar de sacar conclusiones relacionadas con la correlación sobre la tendencia usando solo dos puntos de tiempo, así que tomé la ruta segura. Desafortunadamente, significa que los datos no tienen mucho que decir sobre mi objetivo de investigación. Oh bien.

— Iris Tsui