Quiero decir que algunas de esas variables están fuertemente correlacionadas entre sí. ¿Cómo / por qué / en qué contexto los definimos como variables independientes ?
Quiero decir que algunas de esas variables están fuertemente correlacionadas entre sí. ¿Cómo / por qué / en qué contexto los definimos como variables independientes ?
Respuestas:
Si nos alejamos del énfasis actual en el aprendizaje automático y recordamos cuánto del análisis estadístico se desarrolló para estudios experimentales controlados, la frase "variables independientes" tiene mucho sentido.
En estudios experimentales controlados, el investigador toma independientemente las elecciones de un medicamento y sus concentraciones, o las elecciones de un fertilizante y sus cantidades por acre . El interés está en cómo una variable de respuesta de interés (por ejemplo, presión arterial, rendimiento del cultivo) depende de estas manipulaciones experimentales. Idealmente, las características de las variables independientes están estrechamente especificadas, esencialmente sin errores al conocer sus valores. Luego, la regresión lineal estándar, por ejemplo, modela las diferencias entre los valores de las variables dependientes en términos de los valores de las variables independientes más los errores residuales.
El mismo formalismo matemático utilizado para la regresión en el contexto de estudios experimentales controlados también se puede aplicar al análisis de conjuntos de datos observados con poca o ninguna manipulación experimental, por lo que quizás no sea sorprendente que la frase "variables independientes" se haya transferido a tales tipos de estudios. Pero, como señalan otros en esta página, esa es probablemente una elección desafortunada, con "predictores" o "características" más apropiadas en tales contextos.
En muchos sentidos, "variable independiente" es una elección desafortunada. Las variables no tienen que ser independientes entre sí, y por supuesto no tiene que ser independiente de la variable dependiente . En la enseñanza y en mi libro Estrategias de modelado de regresión utilizo la palabra predictor . En algunas situaciones, esa palabra no es lo suficientemente fuerte, pero funciona bien en promedio. Una descripción completa del papel de las variables (lado derecho) en un modelo estadístico puede ser demasiado larga para usarla cada vez: el conjunto de variables o medidas sobre las cuales está condicionada la distribución deEsta es otra forma de decir el conjunto de variables cuyas distribuciones no nos interesan actualmente, pero cuyos valores tratamos como constantes.X Y
Estoy de acuerdo con las otras respuestas aquí que "independiente" y "dependiente" es una terminología deficiente. Como explica EdM , esta terminología surgió en el contexto de experimentos controlados en los que el investigador podía establecer los regresores independientemente uno del otro. Hay muchos términos preferibles que no tienen esta connotación causal cargada, y en mi experiencia, los estadísticos tienden a preferir los términos más neutrales. Aquí se utilizan muchos otros términos , incluidos los siguientes:
Personalmente, utilizo los términos variables explicativas y variable de respuesta, ya que esos términos no tienen connotación de independencia estadística o control, etc. (Uno podría argumentar que 'respuesta' tiene una connotación causal, pero esta es una connotación bastante débil, así que yo no lo he encontrado problemático)
Para agregar a las respuestas de Frank Harrell y Peter Flom:
Estoy de acuerdo en que llamar a una variable "independiente" o "dependiente" a menudo es engañoso. Pero algunas personas todavía hacen eso. Una vez escuché una respuesta por qué:
"Dependiente" e "independiente" pueden ser términos confusos. Un sentido es pseudocausal o incluso causal y este es el que se entiende cuando se dice "variable independiente" y "variable dependiente". Queremos decir que la DV, en cierto sentido, depende de la IV. Entonces, por ejemplo, al modelar la relación de altura y peso en humanos adultos, decimos que el peso es el DV y la altura es el IV.
Esto captura algo que el "predictor" no capta, es decir, la dirección de la relación. La altura predice el peso, pero el peso también predice la altura. Es decir, si le dijeran que adivinara la altura de las personas y les dijeran su peso, eso sería útil.
Pero no diríamos que la altura depende del peso.
Basado en las respuestas anteriores, sí, estoy de acuerdo en que esta variable dependiente e independiente es una terminología débil. Pero puedo explicar el contexto en el que muchos de nosotros lo estamos utilizando. Usted dice que para un problema de regresión general tenemos una variable de Salida, digamos Y, cuyo valor depende de otras variables de entrada, digamos x1, x2, x3. Es por eso que se llama una "variable dependiente". Y dependiendo asimismo de este contexto solamente , y sólo para diferenciar entre la salida y la variable de entrada, x1, x2, x3 se denomina como la variable independiente. Porque a diferencia de Y, no depende de ninguna otra variable (pero sí, aquí no estamos hablando de la dependencia con ellos mismos).
Las variables independientes se llaman independientes porque no dependen de otras variables. Por ejemplo, considere el problema de predicción del precio de la vivienda. Supongamos que tenemos datos sobre house_size, location y house_price. Aquí, house_price se determina en función del tamaño y la ubicación de la casa, pero la ubicación y el tamaño de la casa pueden variar para diferentes casas.