¿Por qué usar variables registradas?

Probablemente, esta es una pregunta muy básica, pero parece que no puedo encontrar una respuesta sólida para ella. Espero aquí, puedo.

Actualmente estoy leyendo documentos como preparación para mi propia tesis de maestría. Actualmente, estoy leyendo un artículo que investiga la relación entre los tweets y las características del mercado de valores.

En una de sus hipótesis, proponen que "un mayor volumen de tweets está asociado con un aumento en el volumen de operaciones".

Yo esperaría que ellos, en las correlaciones por pares, que se correlaciona tweetVolumecon tradingVolume, pero en cambio, el informe utilizando versiones logged: LN(tweetVolume)y LN(tradingVolume).

Para mi tesis, he replicado esta parte de su artículo. He recopilado tweets de aproximadamente 100 empresas durante más de 6 meses ( tweetVolume) y el volumen de negociación de acciones durante el mismo período de tiempo. Si correlaciono las variables absolutas, encuentro, r=.282, p.000pero cuando uso las versiones registradas, encuentror=.488, p=.000 .

No entiendo porque investigadores a veces usan versiones registradas de sus variables y por qué la correlación parece mucho mayor si lo hace. ¿Cuál es el razonamiento aquí y por qué está bien usar variables registradas?

Tu ayuda es muy apreciada :-)

correlation data-transformation logarithm

— Pr0no
fuente

Si ve los hilos relacionados en la parte inferior derecha de la página, el uso de logaritmos se ha cubierto varias veces antes. En particular, vea En regresión lineal, ¿cuándo es apropiado usar el registro de una variable independiente en lugar de los valores reales? .

— Andy W

Las razones para usar variables registradas se dividen en dos categorías: estadísticas y sustantivas.

Estadísticamente, si sus variables están sesgadas a la derecha (es decir, tienen una cola larga en el extremo superior), una medida como la correlación o la regresión puede verse muy influenciada por uno o unos pocos casos en el extremo superior en uno o ambos variables (valores atípicos, puntos de apalancamiento, puntos influyentes). Tomar el registro puede ayudar a esto al reducir o eliminar la inclinación.

Sustancialmente, algunos conceptos están mejor pensados en términos de razones que de diferencias. Tome las dos medidas de volumen que discute. Ahora, compare dos compañías: una, una pequeña empresa que cotiza en NASDAQ de la que pocas personas han oído hablar, y otra, una megacorporación. El primero recibirá muy pocos tweets por día. El último obtendrá muchos; Del mismo modo para el volumen de negociación. Supongamos (solo para elegir números) que la compañía A generalmente recibe 100 tweets al día y el último recibe 100,000.

Si los tweets de la compañía A aumentan de 100 a 500 (una diferencia de 400, una proporción de 5), eso es una gran noticia, algo debe estar sucediendo. Pero si la compañía B sube de 100,000 a 100,400 (una diferencia de 400, una relación muy cercana a 1), a nadie le importa. El equivalente aproximado sería si pasara de 100,000 a 500,000.

— Peter Flom - Restablece a Monica
fuente

Gracias por su rápida respuesta. Dos preguntas más provienen de su respuesta. Primero, si tengo 3 propiedades para un objeto (volumen de negociación de acciones, devoluciones y volatilidad) y tomo la versión registrada para una de ellas. Lo que usted dice para los tweets de la compañía A y B también puede contar para sus devoluciones: si las acciones de la compañía A aumentan de 1 a 1,50, las devoluciones son (50%) 0.50. La empresa B necesita un aumento de 400 a 600 (200) para un porcentaje de retorno similar. Y derivando de eso: si los retornos son negativos, LN (-0.50) obviamente no funciona. ¿Se le permite tomar -LN (0.50)?

— Pr0no

Además, si entiendo correctamente, tomar la variable registrada no es una opción libre, ¿tiene que ser discutida por skweness-charts (estadísticamente)? ¿Y sustantivamente es solo un razonamiento lógico para tomar registros que realmente proporciona beneficios para hacerlo? En otras palabras, ¿existen reglas generales aquí que definan umbrales por encima de los cuales debe tomar la versión registrada o es una cuestión de interpretación?

— Pr0no

No desea tomar registros de porcentajes en este caso: tomar el porcentaje hace lo que haría el registro. Es decir, hace que las cosas sean proporciones. Ciertamente, puede tomar el registro de algunas variables y no de otras. Tomar el registro no requiere gráficos de sesgo, pero generalmente las variables que deben registrarse son sesgadas a la derecha. Pero lo principal es la sustancia . Si no tiene sentido sustantivo tomar el registro, entonces no lo haga. En su lugar, use métodos estadísticos que funcionen con variables sesgadas. SUSTANCIA es lo primero.

— Peter Flom - Restablece a Monica