Nomenclatura lateral izquierda y derecha en modelos de regresión

y = β_{0} + β_{1} x_{1} + ε_{0}

$y = \beta_{0} + \beta_{1}x_{1} + \varepsilon_{0}$

El lenguaje para describir modelos de regresión, como la regresión lineal muy simple especificada anteriormente, a menudo varía y estas variaciones a menudo conllevan cambios sutiles en los significados. Por ejemplo, la parte del modelo en el lado izquierdo de la ecuación puede denominarse (entre otras cosas que desconozco) con connotaciones y denotaciones entre paréntesis:

Variable dependiente (insinúa la dependencia causal)
Variable prevista (implica el modelo pronostica / hace predicciones)
Variable de respuesta (implica causalidad, o al menos secuenciación temporal)
Variable de resultado (implica causalidad)

La variación en la nomenclatura también es cierta en el lado derecho de la ecuación (el mismo descargo de responsabilidad que soy ignorante sobre otros términos):

Variable independiente (implica prioridad causal, pistas sobre diseño experimental)
Variable predictora (implica pronósticos, implica que la variable tiene una estimación de parámetro no cero asociada a ella)

En el curso de la propuesta de investigación de antecedentes, o la comunicación de la investigación, he tenido la oportunidad de no solo ser llamado por el uso de un término u otro, sino de ser llamado posteriormente por el término con el que elegí reemplazarlo. Mientras que las personas que llamaban eran, por supuesto, pedantes (NB: soy un pedante profesional, así que simpatizo), porque, por supuesto , todos entendimos lo que se comunicaba , todavía me pregunto:

¿Existen términos comúnmente utilizados para las variables de la mano izquierda y derecha en los modelos de regresión que son agnósticos con respecto a (a) los usos externos del modelo, (b) las relaciones causales entre las variables y (c) los aspectos del estudio diseños utilizados para producir las propias variables?

NB: Me no preguntando sobre las cuestiones importantes de la modelización adecuada y correcta interpretación (es decir, me importa mucho acerca de la causalidad, el diseño del estudio, etc.), pero estoy más interesado en un lenguaje para hablar de este tipo de modelos en general.

(Me doy cuenta de que las "variables de la izquierda" y las "variables de la derecha" podrían, supongo, ser interpretadas como una respuesta creíble, pero estos términos parecen torpes ... tal vez esta es una pregunta torpe. :)

regression terminology

— Alexis
fuente

No debe haber confusión sobre esto.

— Carl

Creo que la respuesta corta es no. Esto es por una buena razón en mi opinión. En casos formales, el lenguaje utilizado para identificar variables debe ser lo suficientemente matizado como para implicar una interpretación distinguida dentro de la aplicación / dominio de los modelos previstos (es decir, es muy importante saber si la causalidad está implícita o no en un modelo de regresión y el uso adecuado de la nomenclatura ayudará con este).

— Zachary Blumenfeld

@ZacharyBlumenfeld (a) No responda en comentarios. :) (b) Y, sin embargo, hablamos de "regresión" en términos generales, sin recurrir al diseño del estudio, dominios de conocimiento disciplinario, etc. (por ejemplo, mucha gente habla y escribe sobre el estimador de mínimos cuadrados sin invocar el diseño del estudio, la causalidad , etc.) Si tenemos un lenguaje agnóstico de aplicación para describir una amplia clase de esfuerzo estadístico, ¿por qué no hay un lenguaje agnóstico similar para los componentes de tales esfuerzos?

— Alexis

X (X^{'} X)^{- 1} X^{'} y

$X(X'X)^{-1}X'y$

y

$y$

X

$X$

@Kenji Estoy totalmente de acuerdo con la mayor parte de su perspectiva. Sin embargo, no estoy de acuerdo en que uno pueda / deba hablar solo de ecuaciones de regresión en un caso aplicado: debemos tener un lenguaje que pueda hablar sobre las variables de la mano izquierda y derecha de todos los modelos de regresión, por ejemplo, al examinar la aplicación de tales métodos en un meta nivel a través de disciplinas.

— Alexis

Esta es una excelente pregunta. En realidad, es tan bueno que no hay respuesta para eso. Que yo sepa, no existe un término "agnóstico" verdadero para describir Y.

En mi experiencia y lecturas, descubrí que la semántica es específica del dominio y también específica del modelo-objetivo.

Los econométricos utilizarán los términos de la variable dependiente cuando construyan un modelo que sea explicativo. Pueden usar los términos Variable pronosticada o ajustada o estimada cuando están construyendo un modelo de pronóstico que está más enfocado en la estimación / predicción precisa que en el poder explicativo teórico.

La multitud de Big Data / Deep Learning utiliza un lenguaje completamente diferente. Y, normalmente usarán los términos variable de respuesta o variable de destino. Sus modelos son cuadros negros que normalmente no intentan explicar un fenómeno, sino predecirlo y estimarlo con precisión. Pero, de alguna manera, no serían atrapados usando el término Predicho. Prefieren los términos Respuesta u Objetivo.

Estoy menos familiarizado con el término variable de resultado. Puede ser frecuente en otras áreas a las que estoy menos expuesto, como las ciencias sociales, incluida la psicología, la medicina, los ensayos clínicos, la epidemiología.

En vista de lo anterior, no podría proporcionarle ninguna semántica "agnóstica" para describir Y. En cambio, proporcioné un poco de información sobre qué semántica usar cuando atiendo a diferentes audiencias y también reflejando el objetivo de su modelo. En resumen, no creo que nadie salga lastimado si se habla de la variable dependiente con econométricos y la variable de respuesta u objetivo con los tipos de aprendizaje profundo. Con suerte, puedes separar a esas multitudes de lo contrario, de lo contrario podrías tener una pelea verbal de comida en tu mano.

— Sympa
fuente

Desearía poder darte un voto adicional para "pelea verbal por comida": D

— Alexis