Varias fuentes sugieren que hay muchas consecuencias negativas de la discretización (categorización) de variables continuas antes del análisis estadístico (muestra de referencias [1] - [4] a continuación).
Por el contrario [5] sugiere que se sabe que algunas técnicas de aprendizaje automático producen mejores resultados cuando las variables continuas se discretizan (también señalando que los métodos de discretización supervisados funcionan mejor).
Tengo curiosidad por saber si hay algún beneficio o justificación ampliamente aceptada para esta práctica desde una perspectiva estadística.
En particular, ¿habría alguna justificación para discretizar variables continuas dentro de un análisis GLM?
[1] Royston P, Altman DG, Sauerbrei W. Dicotomización de predictores continuos en regresión múltiple: una mala idea. Stat Med 2006; 25: 127-41
[2] Brunner J, PC de Austin. Inflación de la tasa de error Tipo I en regresión múltiple cuando las variables independientes se miden con error. The Canadian Journal of Statistics 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Consecuencias negativas de dicotomizar variables predictoras continuas. Revista de Investigación de Mercados 2003; 40: 366–371.
[4] Harrell Jr FE. Problemas causados por categorizar variables continuas. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Consultado el 6.9.2004
[5] Kotsiantis, S .; Kanellopoulos, D. "Técnicas de discretización: una encuesta reciente". GESTS Transacciones internacionales sobre informática e ingeniería 32 (1): 47–58.