Casi todo lo que leo sobre regresión lineal y GLM se reduce a esto: donde es una función no creciente o no decreciente de y es el parámetro que usted estimar y probar hipótesis sobre. Hay docenas de funciones de enlace y transformaciones de y para hacer una función lineal de .f ( x , β ) y x y f ( x , β )
Ahora, si elimina el requisito que no aumenta / no disminuye para , conozco solo dos opciones para ajustar un modelo linealizado paramétrico: funciones trigonométricas y polinomios. Ambos crean una dependencia artificial entre cada predicho el conjunto completo de , lo que los convierte en un ajuste muy poco robusto a menos que existan razones previas para creer que sus datos realmente se generan por un proceso cíclico o polinómico.y X
Este no es un tipo de caso de borde esotérico. Es la relación real de sentido común entre el agua y el rendimiento de los cultivos (una vez que las parcelas son lo suficientemente profundas bajo el agua, los rendimientos de los cultivos comenzarán a disminuir), o entre las calorías consumidas en el desayuno y el rendimiento en un examen de matemáticas, o el número de trabajadores en una fábrica y la cantidad de widgets que producen ... en resumen, casi cualquier caso de la vida real para el que se usan modelos lineales, pero con los datos que cubren un rango lo suficientemente amplio como para pasar de rendimientos decrecientes a retornos negativos.
Intenté buscar los términos 'cóncavo', 'convexo', 'curvilíneo', 'no monótono', 'bañera', y olvidé cuántos otros. Pocas preguntas relevantes y aún menos respuestas utilizables. Entonces, en términos prácticos, si tuviera los siguientes datos (código R, y es una función de la variable continua xy del grupo de variables discretas):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Primero puede probar una transformación de Box-Cox y ver si tiene sentido mecanicista, y en su defecto, puede ajustar un modelo de mínimos cuadrados no lineales con una función de enlace logístico o asintótico.
Entonces, ¿por qué debería renunciar a los modelos paramétricos por completo y recurrir a un método de caja negra como splines cuando descubre que el conjunto de datos completo se ve así?
plot(y~x,updown,col=group);
Mis preguntas son:
- ¿Qué términos debo buscar para encontrar funciones de enlace que representen esta clase de relaciones funcionales?
o
- ¿Qué debo leer y / o buscar para enseñarme a mí mismo cómo diseñar funciones de enlace para esta clase de relaciones funcionales o extender las existentes que actualmente son solo para respuestas monótonas?
o
- ¡Diablos, incluso qué etiqueta de StackExchange es más apropiada para este tipo de preguntas!
R
código tiene errores de sintaxis: group
no debe citarse. (2) La trama es hermosa: los puntos rojos exhiben una relación lineal, mientras que los negros podrían ajustarse de varias maneras, incluida una regresión lineal por partes (obtenida con un modelo de punto de cambio) y posiblemente incluso como exponencial. Estoy no recomendar estos, sin embargo, porque las opciones de modelado debe ser informado por un entendimiento de lo producido los datos y motivado por las teorías en las disciplinas pertinentes. Podrían ser un mejor comienzo para su investigación.