Estoy pensando en un problema que consiste en predecir el registro (gasto) de un cliente mediante regresión lineal.
Estoy considerando qué características usar como entrada y me pregunto si estaría bien usar el percentil de una variable como entradas.
Por ejemplo, podría usar los ingresos de la empresa como insumo. Lo que me pregunto es si podría utilizar el percentil de ingresos de la compañía.
Otro ejemplo sería un clasificador categórico de la industria (NAICS): si tuviera que ver el gasto medio por código NAICS y luego asignar cada código NAICS a un 'Percentil NAICS', ¿sería una variable explicativa válida que podría usar?
¿Solo me pregunto si hay problemas a tener en cuenta al usar percentiles? ¿Es de alguna manera equivalente a un tipo de escala de características?