- Al dicotomizar variables, ¿qué información se pierde en el proceso?
- ¿Cómo ayuda una dicotomización en los análisis?
Respuestas:
Qué información se pierde: depende de la variable. En general, al dicotomizar, usted afirma que hay una línea recta de efecto entre una variable y otra. Por ejemplo, considere una medida continua de exposición a un contaminante en un estudio sobre cáncer. Si lo dicotomiza en "Alto" y "Bajo", afirma que esos son los dos únicos valores que importan. Existe un riesgo de cáncer en alto y hay uno en bajo Pero, ¿qué pasa si el riesgo aumenta de manera constante durante un tiempo, luego se aplana y luego vuelve a aumentar antes de aumentar finalmente a valores altos? Todo eso está perdido.
Lo que ganas: es más fácil. Las variables dicotómicas a menudo son mucho más fáciles de manejar estadísticamente. Hay razones para hacerlo: si una variable continua se divide en dos grupos claros de todos modos , pero tiendo a evitar la dicotomización a menos que sea una forma natural de la variable en primer lugar. A menudo también es útil si su campo está dicotomizando cosas de todos modos para tener una forma dicotomizada de una variable. Por ejemplo, muchos consideran que el recuento de células CD4 de menos de 400 es un umbral crítico para el VIH. Como tal, a menudo tendría una variable 0/1 para Arriba / Abajo 400, aunque también retendría la variable continua de recuento de CD4. Esto ayuda a cohesionar tu estudio con los demás.
Estaré un poco en desacuerdo con Peter. Si bien dividir una variable continua en categorías a menudo es mucho más sensato que una dicotomización cruda, me opongo bastante a la categorización cuantil. Tales categorizaciones son muy difíciles de dar interpretaciones significativas. Creo que su primer paso debería ser ver si hay una categorización con soporte biológico o clínico que uno pueda usar, y solo una vez que esas opciones se agoten, debe usar cuantiles.
La dicotimización agrega pensamiento mágico al análisis de datos. Rara vez es una buena idea.
Aquí hay un artículo de Royston, Altman y Sauerbrei sobre algunas razones por las cuales es una mala idea.
Mis propios pensamientos: si dicotomiza una variable dependiente, digamos, el peso al nacer a 2.5 kg (esto se hace todo el tiempo), entonces está tratando a los bebés que nacen con 2.49 kg al igual que los que nacen con 1.5 kg, y los bebés que nacen con 2.51 kg al igual que los que tienen 3.5 kg. Esto no tiene sentido.
Una alternativa mejor es a menudo la regresión cuantil. Escribí sobre esto para NESUG recientemente. Ese papel esta aqui
Una excepción a lo anterior es cuando las categorías están sustancialmente motivadas; por ejemplo, si está trabajando con un comportamiento de conducción, será sensato clasificarlo según la edad legal para conducir.
Me gustaron y apoyé las respuestas de @ Epigrad y @ Peter. Solo quería agregar que, la variable de intervalo de agrupamiento en binario hace que la variable (potencialmente) métrica sea solo ordinal. Con la variable binaria es incorrecto calcular la media o la varianza (a pesar de que algunas personas lo hacen), y, como he señalado en otros lugares , algunos análisis multivariados se vuelven teórica o lógicamente inaplicables. Por ejemplo, creo que no es correcto usar el agrupamiento jerárquico centroide / Ward o el análisis factorial con variables binarias.
Los clientes de investigación a menudo nos obligan a dicotomizar las variables en la salida porque pensar en términos de pocas clases en lugar de un rasgo continuo es más simple, la información parece menos confusa y (falsamente) más voluminosa.
Sin embargo, hay casos en que la dicotomización puede estar justificada. Por ejemplo, cuando hay una fuerte bimodalidad o cuando el análisis (por ejemplo, MAMBAC u otro) muestra la presencia de 2 clases latentes.