¿Qué tipo de regresión usar, considerando una variable con límite superior?

9

No estoy seguro de qué método usar para modelar la relación entre dos variables ( e ) en el experimento que se describe a continuación: $x$ $y$

Hay 3 variables: , e . $x_{aim}$ $x$ $y$
El valor de se establece al operar el experimento. Sin embargo, y no siempre son iguales. $x_{aim}$ $x$ $x_{aim}$
Coeficiente de correlación de Pearson entre y es de aproximadamente 0,9. $x_{aim}$ $x$
El coeficiente de correlación de Pearson entre e es mucho menor: aproximadamente 0,5. $x$ $y$
tiene un valor máximo posible ( ) que no se puede exceder. $y$ $y_{max}$
Cada punto de datos se obtiene después de establecer leer e . $x_{aim}$ $x$ $y$

Aunque el coeficiente de correlación de Pearson entre e no es bueno, parece que tiende a aumentar con . $x$ $y$ $y$ $x$

Después de hacer lineal simple regresiones de y (y la conversión de la última de nuevo como , a fin de visualizar en el mismo gráfico como por ejemplo), ambas pendientes son positivas, pero la pendiente de es mayor que la de . $y=f(x)$ $x=g(y)$ $g^{-1}$ $f$ $g^{-1}$ $f$

¿Tiene sentido decir o ? ( se alcanzaría antes en el segundo caso). $x_{max} = f^{-1}(y_{max})$ $x_{max} = g(y_{max})$ $x_{max}$

Considerando que está limitado por , ¿qué se puede decir sobre el posible valor máximo de que se podría alcanzar? $y$ $y_{max}$ $x$

Según tengo entendido, tiene sentido hacer una regresión lineal de la forma cuando es la variable independiente e es la variable dependiente. Sin embargo, en este contexto, no estoy seguro de si tiene sentido considerar que es independiente e es dependiente. $y=f(x)$ $x$ $y$ $x$ $y$

¿Sería más apropiada una regresión total por mínimos cuadrados? ¿Existen otros métodos para determinar qué valores de se pueden alcanzar (y con qué probabilidad)? $x_{max}$

(Si esto es importante, e no parecen seguir una distribución normal, ya que se han hecho más intentos para tratar de alcanzar valores más altos de ). $x$ $y$ $x$

regression correlation

— Bruno
fuente

¿Qué harás con esta relación, si la encuentras? ¿Probarás las hipótesis o simplemente te interesará cómo se ve? Si hay muchos puntos de datos, debe considerar modelos no lineales.

— mpiktas

@mpiktas, en última instancia, me gustaría saber qué x_max es un objetivo razonable que podría intentar alcanzar de forma regular (no solo una vez), teniendo en cuenta que alcanzar o ir por encima de y_max hace que el experimento sea nulo (lo que implica efectivamente x = x_min por ese intento).

— Bruno

La regresión total de mínimos cuadrados (o errores en variables) se indica cuando la varianza de

vuelve considerable en comparación con la de

. La correlación del 90% con el

sugiere que la varianza de

puede ser lo suficientemente pequeña como para que pueda tratarse con seguridad como una variable independiente. Esto es algo que se puede comprobar después de la regresión comparando el RMSE de los residuos de

vs

para los RMSEs de residuos de

contra

. Si

es un problema depende; si ve un límite superior en el diagrama de dispersión con

x

$x$

y

$y$

x_{aim}

$x_\text{aim}$

x

$x$

x_{aim}

$x_\text{aim}$

x

$x$

y

$y$

x_{aim}

$x_\text{aim}$

y_{max}

$y_\text{max}$

x_{aim}

$x_\text{aim}$ Es una consideración importante.

— whuber

4

Quiero secundar los puntos de @ King. Es muy intuitivo sospechar que la regresión de sobre ('regresión directa') y la regresión de sobre ('regresión inversa') debería ser la misma. Sin embargo , esto no es cierto matemáticamente ni con respecto a cómo se relaciona la regresión con la situación que está analizando. Si traza en el eje vertical de un gráfico en el eje horizontal, puede ver lo que está sucediendo. La regresión directa encuentra la línea que minimiza las distancias verticales entre los puntos de datos y la línea, mientras que la regresión inversa minimiza las distancias horizontales. La línea que minimiza el uno solo minimizará el otro si $y$ $x$ $x$ $y$ $y$ $x$ . Debe decidir qué quiere explicar y qué quiere usar para explicarlo. La respuesta a esa pregunta le da qué variable es y y especifica su modelo. Además, (nuevamente siguiendo a @King), no estoy de acuerdo con tratar de decir , por las mismas razones. $r_{xy}=1.0$ $y$ $x$ $x_{max}=f^{-1}(y_{max})$

Con respecto al tema de una variable acotada, típicamente es concebible que la cantidad 'real' pueda aumentar, pero que simplemente no se puede medir. Por ejemplo, un termómetro externo fuera de mi ventana sube a 120, pero podría ser 140 afuera en algunos lugares, y solo tendría 120 como medida. Por lo tanto, la variable tendría un límite superior, pero lo que realmente quería pensar no lo hace. Si este es el caso, existen modelos tobit para tales situaciones.

Otro enfoque sería utilizar algo más robusto como loess, que puede ser perfectamente adecuado para sus necesidades.

— gung - Restablece a Monica
fuente

Disculpas por la demora, no había notado tu respuesta. Tendré que leer sobre el modelo Tobit.

— Bruno

No hay problema. Para obtener más información sobre la naturaleza de la regresión (frente a la regresión inversa), consulte aquí . Para obtener ayuda con la aplicación de la regresión tobit usando varios programas, intente aquí .

— gung - Restablece a Monica

3

$x_{max}=f^{-1}(y_{max})$ $x_{max}$

$x$ $y$

Si es posible, mire los residuos y vea si puede sacar algo de él. Podría haber otra variable que olvidó; o puede ayudar a transformar sus variables.

— Rey
fuente