Estoy tratando de ejecutar un modelo para estimar qué tan bien las enfermedades catastróficas como la tuberculosis, el SIDA, etc. afectan el gasto en hospitalización. Tengo "costo por hospitalización" como variable dependiente y varios marcadores individuales como variables independientes, casi todos los cuales son ficticios, como el género, el estado del jefe de familia, el estado de pobreza y, por supuesto, un ficticio para determinar si tiene la enfermedad (más la edad y edad al cuadrado) y un montón de términos de interacción.
Como es de esperar, hay una cantidad significativa, y me refiero a una gran cantidad de datos acumulados en cero (es decir, sin gastos de hospitalización en el período de referencia de 12 meses). ¿Cuál sería la mejor manera de manejar datos como estos?
A partir de ahora decidí convertir el costo a ln(1+cost)
fin de incluir todas las observaciones y luego ejecutar un modelo lineal. ¿Estoy en el camino correcto?