Centrar y escalar variables ficticias


13

Tengo un conjunto de datos que contiene variables categóricas y variables continuas. Se me aconsejó transformar las variables categóricas como variables binarias para cada nivel (es decir, A_level1: {0,1}, A_level2: {0,1}). Creo que algunos han llamado a esto "variables ficticias".

Dicho esto, ¿sería engañoso centrar y escalar todo el conjunto de datos con las nuevas variables? Parece que perdería el significado de "encendido / apagado" de las variables.

Si es engañoso, ¿eso significa que debo centrar y escalar las variables continuas por separado y luego volver a agregarlas a mi conjunto de datos?

TIA


1
Si es aceptable o razonable centrar y / o escalar variables ficticias depende de la aplicación, del análisis que esté planeando y de las consideraciones específicas de la tarea. Entonces no hay una respuesta correcta única. En la formulación general más general, a menudo está bien hacerlo con variables ficticias predictoras; A menudo es una mala idea hacerlo con variables ficticias de respuesta o en métodos multivariados como la agrupación o el análisis factorial.
ttnphns

Respuestas:


13

Al construir variables ficticias para su uso en análisis de regresión, cada categoría en una variable categórica, excepto una, debería obtener una variable binaria. Por lo tanto, debe tener, por ejemplo, A_level2, A_level3, etc. Una de las categorías no debe tener una variable binaria, y esta categoría servirá como categoría de referencia. Si no omite una de las categorías, sus análisis de regresión no se ejecutarán correctamente.

Si usa SPSS o R, no creo que la escala y el centrado de todo el conjunto de datos generalmente sean un problema ya que esos paquetes de software a menudo interpretan variables con solo dos niveles como factores, pero puede depender de los métodos estadísticos específicos utilizados . En cualquier caso, no tiene sentido escalar y centrar variables binarias (o categóricas), por lo que solo debe centrar y escalar variables continuas si debe hacerlo.


2
Mi fuerte sentimiento es que la única parte de la respuesta que realmente responde a la pregunta OP es esa última oración, una parte que no se explica. Dices que no los escales pero no expliques por qué. Mientras tanto, el tema no es muy fácil.
ttnphns

Esta es solo una forma de codificar variables categóricas. No tengo tiempo para escribir una respuesta completa, pero buscar "contrastes" podría ayudar. Una respuesta relevante es stats.stackexchange.com/questions/60817/…
user20637

3

Si usa R y escala las variables ficticias o las variables que tienen 0 o 1 a una escala entre 0 y 1 solamente, entonces no habrá ningún cambio en los valores de estas variables, el resto de las columnas se escalarán.

maxs <- apply(data, 2, max) 
mins <- apply(data, 2, min)

data.scaled <- as.data.frame(scale(data, center = mins, scale = maxs - mins))

Consejo interesante Gracias por compartir. Ha pasado un tiempo desde que pregunté, pero es bueno ver que todavía puedo aprender de estas viejas publicaciones.
user2300643

2

El punto del centrado medio en la regresión es hacer que la intersección sea más interpretable. Es decir, si quiere decir centrar todas las variables en su modelo de regresión, entonces la intercepción (llamada constante en la salida de SPSS) es igual a la gran media general para su variable de resultado. Lo cual puede ser conveniente al interpretar el modelo final.

En cuanto a las variables ficticias de centrado medio, acabo de conversar con un profesor mío sobre las variables ficticias de centrado medio en un modelo de regresión (en mi caso, un modelo multinivel de diseño de bloques al azar con 3 niveles) y mi conclusión fue que centrar las variables ficticias en realidad no cambian la interpretación de los coeficientes de regresión (excepto que la solución está completamente estandarizada). Por lo general, no es necesario en la regresión interpretar el valor centrado medio del nivel de unidad real, solo los coeficientes. Y esto esencialmente no cambia, en su mayor parte. Ella dijo que cambia ligeramente porque está estandarizado, lo que, para los tontos, no es tan intuitivo de entender.

Advertencia: Eso fue lo que entendí cuando salí de la oficina de mi profesor. Podría, por supuesto, haberme equivocado.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.