Cómo tratar correctamente múltiples puntos de datos por cada sujeto


10

Actualmente estoy discutiendo con alguien sobre cómo tratar correctamente los datos con múltiples mediciones para cada sujeto. En este caso, se recopilaron datos para cada sujeto en un corto período de tiempo para diferentes condiciones dentro de cada sujeto. Todas las mediciones reúnen exactamente la misma variable, solo múltiples.

Una opción ahora es simplemente agrupar los datos por condiciones y no importar que múltiples puntos de datos provengan de un tema. Sin embargo, los puntos de datos de cada sujeto probablemente no sean completamente independientes.

La otra alternativa es tomar primero la media de todas las mediciones para cada condición de cada sujeto y luego comparar las medias. Sin embargo, esto probablemente afectará la importancia, ya que en el análisis final no se tiene en cuenta que los medios tienen menos error.

¿Cómo puede analizar correctamente dichos datos? ¿Esto se soluciona de alguna manera en SPSS? En principio, debería ser posible calcular el margen de error al calcular una media y después de considerar esto en el análisis final, pero no creo que SPSS esté haciendo este cálculo de alguna manera a mis espaldas.


1
¿Es este un diseño de medidas repetidas de tal manera que cada sujeto corre en todas o muchas de las condiciones? ¿O es solo un diseño de grupos o medidas independientes donde cada sujeto se encuentra en una condición?
John

En este diseño, cada sujeto se ejecuta en todas las condiciones. Sin embargo, hay algunos puntos de datos que deben rechazarse porque los sujetos fallaron en la tarea en cuestión. Es poco probable que un sujeto falle en todas las subtareas para una sola condición (hay aproximadamente 40 repeticiones por condición), por lo que lo más probable es que cada sujeto tenga puntos de datos para todas las condiciones.
LiKao

Respuestas:


9

Sería una violación de la independencia "agrupar los datos por condiciones y no importar que múltiples puntos de datos provengan de un sujeto". Entonces eso es un no ir. Un enfoque es "tomar la media de todas las mediciones para cada condición de cada sujeto y luego comparar las medias". Podría hacerlo de esa manera, no violaría la independencia, pero está perdiendo información en la agregación a nivel de materia.

A primera vista, esto suena como un diseño mixto con condiciones entre sujetos y múltiples períodos de tiempo medidos dentro de los sujetos. Sin embargo, eso plantea la pregunta, ¿por qué recopiló datos en múltiples puntos de tiempo? ¿Se espera que el efecto del tiempo o la progresión de una variable a lo largo del tiempo sea diferente entre las condiciones? Si la respuesta es afirmativa a cualquiera de esas preguntas, dada la estructura de los datos, esperaría que lo que le interesa sea un ANOVA mixto. El ANOVA mixto dividirá la varianza del sujeto del SSTotal "a sus espaldas" por así decirlo. Pero si esa partición ayuda a su prueba de condiciones entre sujetos depende de varios otros factores.

De todos modos, en SPSS / PASW 18 Analizar -> Modelo lineal general -> Medidas repetidas. Tendrá una fila para cada sujeto y una columna para cada punto de tiempo, así como una como su identificador de condición. El identificador de condición entrará en la sección "entre" y las medidas repetidas se tendrán en cuenta cuando defina el factor de medida repetido.


Ok, esto es lo que he pensado. Los puntos de datos múltiples por condición se recopilan por dos razones. Una es que los datos deberían ser más confiables de esta manera. La otra razón es que algunos puntos de datos deben descartarse (los sujetos no siguieron las instrucciones correctamente en todo momento). Las condiciones están completamente dentro de los sujetos, por lo que no tenemos un diseño mixto en este caso en absoluto. Lamentablemente, una medida repetida está fuera de discusión, ya que tenemos alrededor de 40 repeticiones por condición en cada tema. Sin embargo, el alto número de repeticiones significa que perdemos mucha información cuando utilizamos la media.
LiKao

Entonces recomiendo la respuesta de John. Un modelo mixto es probablemente preferible. Eso puede modelar tanto la media como la variabilidad dentro de cada tema y respetar el anidamiento. Un problema con dicho análisis es que los grados 'correctos' de libertad no están claros y, por lo tanto, los umbrales de significación estadística tampoco están claros. En contraste con el código provisto por John, recomendaría ajustar una pendiente aleatoria para el efecto de su condición (diferentes sujetos muestran diferentes efectos). He visto algunas simulaciones que sugieren que no hacerlo puede elevar su tasa de error Tipo I.
russellpierce

4

El diseño de medidas repetidas es la forma tradicional de manejar esto, como menciona drknexus. Al hacer ese tipo de análisis, debe agregar a un puntaje / condición / materia. Es sensible a las violaciones de los supuestos de esfericidad y otros problemas. Sin embargo, la técnica más moderna es utilizar modelado multinivel o efectos lineales mixtos. Con esta técnica, no agrega los datos. Hay varios tratamientos disponibles, pero actualmente no conozco el mejor tutorial básico. Baayen (2008) Capítulo 7 es bueno. Pinheiro & Bates (2000) es muy bueno, pero según el sonido de las cosas, siga sus consejos en la introducción y lea los fragmentos recomendados para principiantes.

Si solo desea obtener un resultado de estilo ANOVA, suponiendo que todos sus datos estén en formato largo (una línea / punto de datos) y tenga columnas que indiquen el sujeto, la respuesta (y) y una variable de condición (x), puede intentar mirando algo como esto en R (asegúrese de que el paquete lme4 esté instalado).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

Por supuesto, podría tener muchas más columnas variables de condiciones, tal vez interactuando. Entonces puede cambiar el comando lmer a algo como ...

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(Por cierto, creo que no agregar en medidas repetidas para aumentar el poder es una falacia formal. ¿Alguien recuerda el nombre?)


Creo que la falacia de no agregar y usar el df del número de respuestas en lugar del número de sujetos es una violación de la independencia. Alternativamente, (creo) podría pensarse en hacer una inferencia a nivel de respuestas de ítems individuales para un conjunto fijo de sujetos.
russellpierce
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.