¿Estoy buscando una distribución de mejor comportamiento para la variable independiente en cuestión, o para reducir el efecto de los valores atípicos, o algo más?
¿Estoy buscando una distribución de mejor comportamiento para la variable independiente en cuestión, o para reducir el efecto de los valores atípicos, o algo más?
Respuestas:
Siempre dudo en meterme en un hilo con tantas respuestas excelentes como esta, pero me sorprende que pocas de las respuestas proporcionen alguna razón para preferir el logaritmo a alguna otra transformación que "aplasta" los datos, como una raíz o reciproco.
Antes de llegar a eso, recapitulemos la sabiduría en las respuestas existentes de una manera más general. Se indica alguna reexpresión no lineal de la variable dependiente cuando se aplica cualquiera de los siguientes:
Los residuos tienen una distribución sesgada. El propósito de una transformación es obtener residuos que están distribuidos de forma aproximadamente simétrica (aproximadamente cero, por supuesto).
La propagación de los residuos cambia sistemáticamente con los valores de la variable dependiente ("heterocedasticidad"). El propósito de la transformación es eliminar ese cambio sistemático en la propagación, logrando una "homocedasticidad" aproximada.
Para linealizar una relación.
Cuando la teoría científica lo indica. Por ejemplo, la química a menudo sugiere expresar concentraciones como logaritmos (dando actividades o incluso el pH bien conocido).
Cuando una teoría estadística más nebulosa sugiere que los residuos reflejan "errores aleatorios" que no se acumulan de forma aditiva.
Para simplificar un modelo. Por ejemplo, a veces un logaritmo puede simplificar el número y la complejidad de los términos de "interacción".
(Estas indicaciones pueden entrar en conflicto entre sí; en tales casos, se necesita juicio).
Entonces, ¿ cuándo se indica específicamente un logaritmo en lugar de alguna otra transformación?
Los residuos tienen una distribución "fuertemente" positivamente sesgada. En su libro sobre EDA, John Tukey proporciona formas cuantitativas de estimar la transformación (dentro de la familia de las transformaciones de Box-Cox, o poder) en función de las estadísticas de rango de los residuos. Realmente se reduce al hecho de que si tomar el registro simula los residuos, probablemente fue la forma correcta de reexpresión; de lo contrario, se necesita alguna otra reexpresión.
Cuando la SD de los residuos es directamente proporcional a los valores ajustados (y no a alguna potencia de los valores ajustados).
Cuando la relación es cercana a exponencial.
Cuando se cree que los residuos reflejan errores de acumulación multiplicativa.
Realmente desea un modelo en el que los cambios marginales en las variables explicativas se interpreten en términos de cambios multiplicativos (porcentaje) en la variable dependiente.
Finalmente, algunas razones que no son para usar una reexpresión :
Hacer que los valores atípicos no parezcan valores atípicos. Un valor atípico es un dato que no se ajusta a una descripción parsimoniosa y relativamente simple de los datos. Cambiar la descripción para hacer que los valores atípicos se vean mejor suele ser una inversión incorrecta de las prioridades: primero obtenga una descripción de los datos científicamente válida y estadísticamente buena y luego explore los valores atípicos. ¡No permita que los valores atípicos ocasionales determinen cómo describir el resto de los datos!
Porque el software lo hizo automáticamente. (¡Basta de charla!)
Porque todos los datos son positivos. (La positividad a menudo implica asimetría positiva, pero no es necesario. Además, otras transformaciones pueden funcionar mejor. Por ejemplo, una raíz a menudo funciona mejor con datos contados).
Hacer que los datos "malos" (tal vez de baja calidad) aparezcan bien comportados.
Para poder trazar los datos. (Si se necesita una transformación para poder trazar los datos, probablemente sea necesaria por una o más buenas razones ya mencionadas. Si la única razón de la transformación es realmente para trazar, continúe y hágalo, pero solo para trazar el datos. Deje los datos sin transformar para su análisis.)
Siempre les digo a los estudiantes que hay tres razones para transformar una variable tomando el logaritmo natural. La razón para registrar la variable determinará si desea registrar las variables independientes, dependientes o ambas. Para ser claros, estoy hablando de tomar el logaritmo natural.
En primer lugar, para mejorar el ajuste del modelo, como han señalado otros carteles. Por ejemplo, si sus residuos no se distribuyen normalmente, tomar el logaritmo de una variable sesgada puede mejorar el ajuste al alterar la escala y hacer que la variable esté más "normalmente" distribuida. Por ejemplo, las ganancias se truncan en cero y a menudo exhiben sesgo positivo. Si la variable tiene un sesgo negativo, primero puede invertir la variable antes de tomar el logaritmo. Estoy pensando especialmente en las escalas Likert que se incorporan como variables continuas. Si bien esto generalmente se aplica a la variable dependiente, ocasionalmente tiene problemas con los residuos (por ejemplo, heterocedasticidad) causados por una variable independiente que a veces puede corregirse tomando el logaritmo de esa variable. Por ejemplo, cuando se ejecutaba un modelo que explicaba las evaluaciones del profesor en un conjunto de profesor y covariables de clase, la variable "tamaño de clase" (es decir, el número de estudiantes en la clase) tenía valores atípicos que inducían la heterocedasticidad porque la variación en las evaluaciones del profesor era menor en mayor cohortes que cohortes más pequeñas. El registro de la variable de estudiante ayudaría, aunque en este ejemplo, calcular los errores estándar robustos o usar mínimos cuadrados ponderados puede facilitar la interpretación.
La segunda razón para registrar una o más variables en el modelo es para la interpretación. Yo llamo a esto razón de conveniencia. Si registra sus variables dependientes (Y) e independientes (X), sus coeficientes de regresión ( ) serán elasticidades y la interpretación sería la siguiente: un aumento del 1% en X conduciría a un ceteris paribus % aumento en Y (en promedio). Registrar solo un lado de la "ecuación" de regresión conduciría a interpretaciones alternativas como se describe a continuación:
Y y X: un aumento de una unidad en X conduciría a un aumento / disminución en Y
Log Y y Log X: un aumento del 1% en X conduciría a un aumento / disminución % en Y
Log Y y X: un aumento de una unidad en X conduciría a un % de aumento / disminución en Y
Y y Log X: un aumento del 1% en X conduciría a un aumento / disminución en Y
Y finalmente podría haber una razón teórica para hacerlo. Por ejemplo, algunos modelos que nos gustaría estimar son multiplicativos y, por lo tanto, no lineales. Tomar logaritmos permite estimar estos modelos por regresión lineal. Buenos ejemplos de esto incluyen la función de producción de Cobb-Douglas en economía y la ecuación de Mincer en educación. La función de producción Cobb-Douglas explica cómo las entradas se convierten en salidas:
dónde
es la producción o producción total de alguna entidad, por ejemplo, empresa, granja, etc.
es la productividad total del factor (el cambio en la producción no causado por los insumos, por ejemplo, por el cambio de tecnología o el clima)
es el insumo laboral
es la entrada de capital
y son elasticidades de salida.
Tomar logaritmos de esto hace que la función sea fácil de estimar usando la regresión lineal de OLS como tal:
Para obtener más información sobre el excelente punto de Whuber sobre las razones para preferir el logaritmo a algunas otras transformaciones, como una raíz o recíproca, pero centrándose en la interpretación única de los coeficientes de regresión resultantes de la transformación logarítmica en comparación con otras transformaciones, consulte:
Oliver N. Keene. La transformación del registro es especial. Estadísticas en medicina 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF de dudosa legalidad disponible en http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Si registra la variable independiente x en la base b , puede interpretar el coeficiente de regresión (y el IC) como el cambio en la variable dependiente y por cada aumento de b en x . (Por lo tanto, los registros a la base 2 a menudo son útiles, ya que corresponden al cambio en y por duplicar en x , o los registros a la base 10 si x varía en muchos órdenes de magnitud, lo cual es más raro). Otras transformaciones, como la raíz cuadrada, no tienen una interpretación tan simple.
Si registra la variable dependiente y (no la pregunta original, sino una que varias de las respuestas anteriores han abordado), entonces encuentro atractiva la idea de Tim Sympercents de presentar los resultados (incluso los usé en un artículo una vez), aunque no parecen haber captado tanto:
Tim J Cole. Sympercents: las diferencias porcentuales simétricas en la escala de 100 log (e) simplifican la presentación de los datos transformados de log. Estadísticas en medicina 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Estoy muy contento de que Stat Med haya dejado de usar SICI como DOI ...]
Normalmente, se toma el registro de una variable de entrada para escalarla y cambiar la distribución (por ejemplo, para que se distribuya normalmente). Sin embargo, no se puede hacer a ciegas; debe tener cuidado al realizar cualquier escala para asegurarse de que los resultados aún sean interpretables.
Esto se analiza en la mayoría de los textos introductorios de estadística. También puede leer el documento de Andrew Gelman sobre "Escalar entradas de regresión dividiendo por dos desviaciones estándar" para una discusión sobre esto. También tiene una muy buena discusión sobre esto al comienzo de "Análisis de datos utilizando regresión y modelos multinivel / jerárquicos" .
Tomar el registro no es un método apropiado para tratar con datos incorrectos / valores atípicos.
Tiende a tomar registros de los datos cuando hay un problema con los residuos. Por ejemplo, si traza los residuos contra una covariable particular y observa un patrón creciente / decreciente (una forma de embudo), entonces una transformación puede ser apropiada. Los residuos no aleatorios generalmente indican que los supuestos de su modelo son incorrectos, es decir, datos no normales.
Algunos tipos de datos se prestan automáticamente a transformaciones logarítmicas. Por ejemplo, generalmente tomo registros cuando se trata de concentraciones o edad.
Aunque las transformaciones no se usan principalmente para tratar los valores atípicos, sí ayudan, ya que tomar registros aplasta sus datos.
La transformación de una variable independiente es una ocasión en la que uno puede ser empírico sin distorsionar la inferencia, siempre y cuando sea honesto sobre el número de grados de libertad en juego. Una forma es usar splines de regresión para continua que aún no se sabe que actúa linealmente. Para mí no se trata de log vs. escala original; Es una cuestión de qué transformación de ajusta a los datos. La normalidad de los residuos no es un criterio aquí.
Cuando está extremadamente sesgado, el cubicado de como se necesita en las funciones de spline cúbicas da como resultado valores extremos que a veces pueden causar problemas numéricos. Resuelvo esto ajustando la función spline cúbica en . El paquete R considera la variable más interna como el predictor, por lo que el trazado de valores predichos tendrá en el eje . Ejemplo:rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Esto se ajusta a una spline cúbica restringida en con 5 nudos en ubicaciones de cuantiles predeterminadas. El ajuste tiene 4 df (un término lineal, 3 términos no lineales). Las bandas de confianza y las pruebas de asociación respetan estos 4 df, reconociendo completamente la "incertidumbre de transformación".
Me gustaría responder a la pregunta del usuario 1690130 que se dejó como un comentario a la primera respuesta el 26 de octubre de 12 y dice lo siguiente: "¿Qué pasa con las variables como la densidad de población en una región o la proporción de niños por maestro para cada distrito escolar o el ¿Cuántos homicidios por 1000 en la población? He visto a profesores tomar el registro de estas variables. No me queda claro por qué. Por ejemplo, ¿la tasa de homicidios ya no es un porcentaje? El registro sería el cambio porcentual de ¿Por qué se preferiría el registro de la relación niño-maestro? "
Estaba buscando responder a un problema similar y quería compartir lo que mi antiguo libro de estadísticas ( Jeffrey Wooldridge. 2006. Econometría introductoria: un enfoque moderno, 4ª edición. Capítulo 6 Análisis de regresión múltiple: cuestiones adicionales. 191 ) dice al respecto. Wooldridge aconseja:
Las variables que aparecen en forma de proporción o porcentaje, como la tasa de desempleo, la tasa de participación en un plan de pensiones, el porcentaje de estudiantes que aprueban un examen estandarizado y la tasa de arrestos por delitos denunciados, pueden aparecer en forma original o logarítmica , aunque hay una tendencia a usarlos en formas de nivel . Esto se debe a que cualquier coeficiente de regresión que involucre la variable original, ya sea la variable dependiente o la independiente, tendrá una interpretación de cambio de punto porcentual. Si usamos, digamos, log ( unem ) en una regresión, donde unem es el porcentaje de personas desempleadas, debemos tener mucho cuidado de distinguir entre un cambio de punto porcentual y un cambio porcentual. Recuerde, si unemva de 8 a 9, esto es un aumento de un punto porcentual, pero un aumento del 12.5% desde el nivel inicial de desempleo. Usar el registro significa que estamos viendo el cambio porcentual en la tasa de desempleo: log (9) - log (8) = 0.118 o 11.8%, que es la aproximación logarítmica al aumento real del 12.5%.
En base a esto y a piggybanking en el comentario anterior de whuber a la pregunta del usuario 1690130, evitaría usar el logaritmo de una variable de densidad o tasa de porcentaje para mantener la interpretación simple a menos que usar el formulario de registro produzca una compensación importante, como ser capaz de reducir el sesgo de la densidad o tasa variable.
El punto de Shane de que tomar el registro para tratar los datos incorrectos está bien tomado. Al igual que Colin con respecto a la importancia de los residuos normales. En la práctica, encuentro que generalmente puede obtener residuos normales si las variables de entrada y salida también son relativamente normales. En la práctica, esto significa observar la distribución de los conjuntos de datos transformados y no transformados y asegurarse de que se han vuelto más normales y / o realizar pruebas de normalidad (por ejemplo, pruebas de Shapiro-Wilk o Kolmogorov-Smirnov) y determinar si el resultado es más normal. La interpretabilidad y la tradición también son importantes. Por ejemplo, en psicología cognitiva a menudo se utilizan transformaciones de registro del tiempo de reacción, sin embargo, al menos para mí, la interpretación de un registro RT no está clara. Además,