¿Qué hacer cuando algunos puntos temporales tienen respuestas muy sesgadas y otras no en un estudio de medidas repetidas?

Típicamente, cuando uno encuentra medidas de resultado continuas pero sesgadas en un diseño longitudinal (digamos, con un efecto entre sujetos), el enfoque común es transformar el resultado en normalidad. Si la situación es extrema, como en el caso de las observaciones truncadas, uno podría ponerse elegante y usar un modelo de curva de crecimiento Tobit, o algo así.

Pero me siento perdido cuando veo resultados que normalmente se distribuyen en ciertos puntos de tiempo y luego están muy sesgados en otros; la transformación puede tapar una fuga pero provocar otra. ¿Qué podrías sugerir en tal caso? ¿Existen versiones "no paramétricas" de modelos de efectos mixtos que desconozco?

Nota: un ejemplo aplicado sería los puntajes de las pruebas de conocimiento antes / después de una serie de intervenciones educativas. Los puntajes comienzan de manera normal, pero luego se agrupan en el extremo superior de la escala más adelante.

repeated-measures data-transformation skewness

— Brenden Dufault
fuente

El ejemplo es interesante porque ocurre todo el tiempo. Hay transformaciones bien conocidas para enfrentarlo, como las transformaciones de poder "plegadas" de Tukey. Estos hacen pocos cambios en el medio de la escala pero curan la asimetría en ambos extremos. He descubierto que las raíces y los registros plegados funcionan muy bien para las comparaciones estandarizadas antes y después de la prueba.

— whuber

Gracias Whuber . Examinaré el enfoque de transformación plegado.

— Brenden Dufault

Para una definición y ejemplos, Brenden, consulte stats.stackexchange.com/a/10979 . Para obtener instrucciones sobre su uso, consulte los últimos capítulos del libro EDA de Tukey .

— whuber

Una nota adicional: recuerde que se hacen suposiciones sobre los residuos del modelo, no sobre las variables reales involucradas.

— Peter Flom - Restablece a Monica

Respuestas:

Suponiendo que el problema se produce en sus residuos (como la distribución de la variable de resultado en sí no suele ser un problema), estaría buscando investigar la causa del problema en lugar de tratar de "solucionarlo" a través de una transformación o aplicación de un modelo no paramétrico

Si es el caso de que parece haber una tendencia (por ejemplo, progresivamente volverse más o menos normal), o un claro intervalo entre cuando pasa de normal a no normal, entonces sugiere un "cambio de régimen" de algún tipo en sus datos (es decir, el mecanismo de generación de datos está cambiando con el tiempo) o algún tipo de problema de variable faltante.

Si es el caso de que no hay un patrón obvio (por ejemplo, los períodos de tiempo 1 y 3 parecen normales y los períodos de tiempo 2 y 4 no lo son), estaría buscando con mucho cuidado un problema de integridad de datos.

Una manera simple de verificar si tiene un cambio de régimen es estimar el modelo usando solo los períodos de tiempo "normales" y luego volver a estimar usando los otros períodos de tiempo y ver qué diferencia ocurre. Un enfoque más complicado es usar un modelo de clase latente, quizás con el tiempo como una variable concomitante.

Con respecto a su pregunta sobre los modelos de efectos mixtos no paramétricos, depende de lo que usted quiere decir con no paramétrico. Si se refiere a modelos que no asumen una variable dependiente numérica, entonces hay muchos de esos modelos (por ejemplo, LIMDEP tiene bastantes). Además, tenga en cuenta que la violación del supuesto de normalidad probablemente solo sea problemática desde una perspectiva de inferencia si el tamaño de su muestra es pequeño. Una forma de investigar esto sería probar las diversas transformaciones discutidas en otros comentarios y respuestas y ver si tiene un gran impacto en sus conclusiones.

— Tim
fuente

+1 Gracias, Tim. Agradezco sus sugerencias con respecto a los modelos de clase latentes y LIMDEP. Estos enfoques me están atrayendo a medida que empiezo a aprender más sobre ellos.

— Brenden Dufault

Existen las transformaciones de Box-Cox que elevan la variable a una potencia lambda donde lambda se incluye en la estimación del parámetro del modelo. No estoy familiarizado con la transformación de poder plegado de Tukey, así que no sé si estamos hablando de lo mismo. Para estimar lambda, necesita varios puntos en el ajuste. ¿Desea ajustar una distribución diferente en cada punto de tiempo donde la distribución se define en un conjunto de sujetos que toman la prueba en cada punto de tiempo? Incluso si ese es el caso, si sabe que algunos puntos de tiempo deben tener la misma distribución, es posible que desee combinarlos en un solo ajuste.

Otro enfoque que no es paramétrico y no implica transformaciones a la normalidad sería aplicar el bootstrap en cada punto de tiempo o en cada conjunto combinado de puntos de tiempo.

— Michael R. Chernick
fuente