Consejos para identificar la forma de la curva usando quantreg


10

Estoy usando el paquete quantreg para hacer un modelo de regresión usando el percentil 99 de mis valores en un conjunto de datos. Basado en el consejo de una pregunta anterior de stackoverflow que hice, utilicé la siguiente estructura de código.

mod <- rq(y ~ log(x), data=df, tau=.99)    
pDF <- data.frame(x = seq(1,10000, length=1000) ) 
pDF <- within(pDF, y <- predict(mod, newdata = pDF) )

que muestro graficado en la parte superior de mis datos. He trazado esto usando ggplot2, con un valor alfa para los puntos. Creo que la cola de mi distribución no se considera suficientemente en mi análisis. Quizás esto se deba al hecho de que hay puntos individuales, que están siendo ignorados por la medición del tipo de percentil.

Uno de los comentarios sugirió que

La viñeta del paquete incluye secciones sobre regresión cuantil no lineal y también modelos con splines de suavizado, etc.

Basado en mi pregunta anterior, asumí una relación logarítmica, pero no estoy seguro de si eso es correcto. Pensé que podría extraer todos los puntos en el intervalo del percentil 99 y luego examinarlos por separado, pero no estoy seguro de cómo hacerlo, o si ese es un buen enfoque. Agradecería cualquier consejo sobre cómo mejorar la identificación de esta relación.

ingrese la descripción de la imagen aquí


Hay un par de buenas preguntas en el sitio que ya hablan sobre la transformación de datos como este, vea stats.stackexchange.com/q/1444/1036 o stats.stackexchange.com/q/298/1036
Andy W

¿Puedes actualizar la trama para agregar la mediana condicional? esto me parece más como un problema cuantil cruce en lugar de un problema de transformación de datos ...
user603

@ user603 ¿Qué quiere decir con la mediana condicional? (Busqué en línea pero no estoy seguro de cómo calcularlo)
celenius

tau = 0.5 en la función rq ().
usuario603

1
Si su objetivo es estimar específicamente el percentil 99 condicional, votaría por la regresión cuantil no lineal (de algún tipo, no conozco bien los paquetes R), ya que no parece que conozca la verdadera forma funcional . Sin embargo, aún no estaba claro para su pregunta anterior cuál es el objetivo real, por lo que reiteraría el comentario sobre su pregunta anterior de Spacedman el 4 de enero a las 17:01
David M Kaplan el

Respuestas:


1

Todos los modelos están equivocados, pero algunos son útiles (George Box). Estás forzando una forma logrítmica a tu curva ajustada y, sinceramente, no se ve tan mal. El ajuste es pobre en la cola porque hay menos puntos allí; los dos parámetros que ha permitido se ajustarán a la mayor parte de los datos. En otras palabras, en una escala logarítmica, esa cola no está lo suficientemente lejos de la mayor parte de sus datos para proporcionar apalancamiento. No tiene que ver con la naturaleza cuantil de la regresión; OLS también ignoraría esos puntos (especialmente en la escala logarítmica).

Es bastante fácil permitir algo más de no linealidad. Soy parcial a las splines naturales, pero de nuevo, todos los modelos están equivocados:

library(splines)
mod <- rq(y ~ ns(log(x), df=6), data=df, tau=.99)

El quantregpaquete tiene algunos ganchos especiales para estrías monótonas si eso le preocupa.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.