Amamos la forma normal
En la mayoría de los casos tratamos de hacer que actúen como normales. ¡No es un punto de vista de clasificadores sino su vista de extracción de características!
¿Qué transformación ?
El criterio principal para elegir una transformación es: ¿qué funciona con los datos? Como indican los ejemplos anteriores, es importante considerar también dos preguntas.
¿Qué tiene sentido físico (biológico, económico, lo que sea), por ejemplo en términos de comportamiento limitante a medida que los valores se vuelven muy pequeños o muy grandes? Esta pregunta a menudo conduce al uso de logaritmos.
¿Podemos mantener dimensiones y unidades simples y convenientes? Si es posible, preferimos escalas de medición en las que sea fácil pensar.
La raíz cúbica de un volumen y la raíz cuadrada de un área tienen las dimensiones de longitud, lejos de complicar las cosas, tales transformaciones pueden simplificarlas. Los recíprocos generalmente tienen unidades simples, como se mencionó anteriormente. Sin embargo, a menudo, las unidades algo complicadas son un sacrificio que debe hacerse.
¿Cuándo usar qué ?
Las transformaciones más útiles en el análisis introductorio de datos son el recíproco, el logaritmo, la raíz cúbica, la raíz cuadrada y el cuadrado. En lo que sigue, incluso cuando no se enfatiza, se supone que las transformaciones se usan solo en rangos en los que producen números reales (finitos) como resultados.
- Recíproco : El recíproco, x a 1 / x, con su hermano el recíproco negativo, x a -1 / x, es una transformación muy fuerte con un efecto drástico en la forma de distribución. No se puede aplicar a valores cero. Aunque puede aplicarse a valores negativos, no es útil a menos que todos los valores sean positivos. El recíproco de una razón a menudo se puede interpretar tan fácilmente como la razón misma: Ejemplo:
- la densidad de población (personas por unidad de área) se convierte en área por persona
- personas por médico se convierten en médicos por persona
- las tasas de erosión se convierten en tiempo para erosionar una unidad de profundidad
(En la práctica, es posible que queramos multiplicar o dividir los resultados de tomar el recíproco por alguna constante, como 1000 o 10000, para obtener números que sean fáciles de manejar, pero que en sí mismos no tengan ningún efecto sobre la asimetría o la linealidad).
El recíproco invierte el orden entre los valores del mismo signo: más grande se vuelve más pequeño, etc. El recíproco negativo conserva el orden entre los valores del mismo signo.
Logaritmo : El logaritmo, x log 10 x, o x log ex o ln x, o x log 2 x, es una transformación fuerte con un efecto importante en la forma de distribución. Se usa comúnmente para reducir el sesgo correcto y a menudo es apropiado para variables medidas. No se puede aplicar a valores cero o negativos. Una unidad en una escala logarítmica significa una multiplicación por la base de los logaritmos que se utilizan. Crecimiento o declive exponencial.
- y= a e x p ( b x )
se hace lineal mediante -
para que la variable de respuesta y se registre. (Aquí exp () significa elevar a la potencia e, aproximadamente 2.71828, que es la base de los logaritmos naturales). Un aparte en esta ecuación de crecimiento o disminución exponencial:
, y modo que a es la cantidad o el recuento cuando x = 0. Si a y b> 0, entonces y crece más rápido y una tasa más rápida (p. ej., interés compuesto o crecimiento demográfico sin control), mientras que si a> 0 y b <0, y disminuye a una tasa cada vez más lenta (p. ej., desintegración radiactiva).l n y= l n a + b xx = 0y= a e x p ( 0 ) = a
- Funciones de potencia :
y= a xsi se hacen lineales mediante
para que ambas variables y y x se registren. Un aparte en tales
funciones de potencia : poner , y para ,l o gy= l o ga + b l o gX
x=0b>0
y=axb=0 por lo que la función de potencia para b positivo pasa por el origen, que a menudo tiene sentido físico, biológico o económico. Piense: ¿cero para x implica cero para y? Este
tipo de función de potencia es una forma que se adapta
bastante bien a muchos conjuntos de datos .
- Considere las razones y = p / q donde p y q son positivas en la práctica.
Ejemplos son:
- Masculinos femeninos
- Dependientes / Trabajadores
- Longitud aguas abajo / Longitud del vano
Entonces y está en algún lugar entre 0 e infinito, o en el último caso, entre 1 e infinito. Si p = q, entonces y = 1. Tales definiciones a menudo conducen a datos asimétricos, porque hay un límite inferior claro y ningún límite superior claro. El logaritmo, sin embargo, es decir
log y = log p / q = log p - log q, está en algún lugar entre -infinito e infinito y p = q significa que log y = 0. Por lo tanto, es probable que el logaritmo de dicha relación esté más simétricamente distribuido.
Raíz cúbica: la raíz cúbica, x 1/3 . Esta es una transformación bastante fuerte con un efecto sustancial en la forma de distribución: es más débil que el logaritmo. También se usa para reducir el sesgo correcto, y tiene la ventaja de que se puede aplicar a valores cero y negativos. Tenga en cuenta que la raíz cúbica de un volumen tiene las unidades de una longitud. Se aplica comúnmente a los datos de lluvia.
La aplicabilidad a valores negativos requiere una nota especial. Considere
(2) (2) (2) = 8 y (-2) (- 2) (- 2) = -8. Estos ejemplos muestran que la
raíz cúbica de un número negativo tiene signo negativo y el mismo
valor absoluto que la raíz cúbica del número positivo equivalente. Una propiedad similar es poseída por cualquier otra raíz cuyo poder sea el
recíproco de un entero positivo impar (potencias 1/3, 1/5, 1/7, etc.)
Esta propiedad es un poco delicada. Por ejemplo, cambie la potencia solo un smidgen de 1/3, y ya no podemos definir el resultado como un producto de exactamente tres términos. Sin embargo, la propiedad está ahí para ser explotada si es útil.
- Raíz cuadrada : la raíz cuadrada, x to = sqrt (x), es una transformación con un efecto moderado en la forma de distribución: es más débil que el logaritmo y la raíz cúbica. También se usa para reducir el sesgo correcto, y también tiene la ventaja de que se puede aplicar a valores cero. Tenga en cuenta que la raíz cuadrada de un área tiene las unidades de una longitud. Se aplica comúnmente a los datos contados, especialmente si los valores son en su mayoría bastante pequeños.x(1/2)
- Cuadrado : el cuadrado, de x a , tiene un efecto moderado en la forma de distribución y podría usarse para reducir la inclinación de la izquierda. En la
práctica, la razón principal para usarlo es ajustar una respuesta mediante una
función cuadrática . Las cuadráticas tienen un
punto de inflexión , ya sea máximo o mínimo, aunque el punto de inflexión en una función ajustada a los datos podría estar mucho más allá de los límites de las
observaciones. La distancia de un cuerpo desde un origen es cuadrática si ese cuerpo se mueve bajo una aceleración constante, lo que da una
justificación física muy clara para usar un cuadrático. De lo contrario, las
cuadráticas generalmente se usan únicamente porque pueden imitar un y = a + b x + c x 2x2
y=a+bx+cx2
relación dentro de la región de datos. Fuera de esa región, pueden
comportarse muy mal, porque toman valores arbitrariamente grandes para valores extremos de x, y a menos que la intersección a esté limitada a 0, pueden comportarse de manera poco realista cerca del origen.
- La cuadratura generalmente tiene sentido solo si la variable en cuestión es cero o positiva, dado que y son idénticas.x 2(−x)2x2