¿Cómo se pueden tratar los datos faltantes cuando se usan splines o polinomios fraccionales?


12

Estoy leyendo Construcción de modelos multivariables: un enfoque pragmático para el análisis de regresión basado en polinomios fraccionados para modelar variables continuas de Patrick Royston y Willie Sauerbrei. Hasta ahora, estoy impresionado y es un enfoque interesante que no había considerado antes.

Pero los autores no tratan con datos faltantes. De hecho, en la p. 17 dicen que los datos faltantes "introducen muchos problemas adicionales. No se consideran aquí".

¿La imputación múltiple funciona con polinomios fraccionales>

FP es, en algunos aspectos (pero no todos) una alternativa a las splines. ¿Es más fácil lidiar con los datos faltantes para la regresión de splines?


¿Estás lidiando con x's faltantes o y's faltantes o ambas?
Glen_b -Reinstate Monica

2
+1 (!) Estoy muy contento de ver a alguien más hacer una pregunta similar. Recientemente publiqué esta pregunta: stats.stackexchange.com/questions/295977/... sobre cómo usar splines cúbicas restringidas en los ratones de R. Optaría específicamente por las splines, ya que no requieren la especificación de un polinomio fraccionario, mientras que las splines son lo suficientemente flexibles para muchas formas funcionales. Sin embargo, no sé si esto responde a su pregunta (de ahí este comentario).
IWS

2
Esta es una pregunta interesante, que abre (como una dimensión de una posible respuesta) la posibilidad de efectuar una crítica de estas diversas técnicas de suavizado / interpolación al contrastar su capacidad para acomodar los datos faltantes. (Hasta cierto punto, la fragilidad hacia la falta es una 'vergüenza' para un método moderno). Solo noto al pasar el punto obvio de que una implementación bayesiana le daría su imputación 'gratis'.
David C. Norris

2
@ DavidC.Norris ¡Tu comentario me intriga! ¿Podría dar más detalles sobre cómo los métodos bayesianos acomodan la falta 'gratis' (lo que supongo que quiere decir es manejado por los métodos de análisis de manera apropiada, 'automáticamente' y por defecto)? (O señalarme una referencia)
IWS

2
La parte de "gratis" sin almuerzo es que debe escribir un modelo bayesiano, lo que implica pensar explícitamente sobre el proceso de generación de datos ( DGP ). Una vez que haya hecho eso, trata los valores faltantes como parámetros [molestos]. (En Bayesiano, "todo es un parámetro". Consulte también la variable latente ). Su MCMC esencialmente explota el DGP que ha especificado para 'imputar' los valores faltantes "de forma gratuita" mientras avanza.
David C. Norris

Respuestas:


1

f(x)f(x)=x+x.5fm()M1MmMfm(x)

Suponiendo que el software que está utilizando puede proporcionar una estimación de error estándar para cada valor único de x, puede usar la fórmula de Rubin (imputación múltiple para no responder en encuestas; 1987) para calcular los errores estándar. Existen fórmulas de muestra pequeñas y grandes para los grados de libertad con imputación múltiple. La fórmula de muestra grande (también en Rubin) solo toma las mismas entradas que el error estándar, por lo que también se puede usar. El pequeño caso de muestra toma los grados de libertad del modelo como entrada; No es obvio para mí si esta fórmula se puede aplicar aquí.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.