Imagínese, usted es médico en una unidad de cuidados intensivos. Usted tiene un paciente con fiebre fuerte y un número determinado de células sanguíneas y un peso corporal dado y cientos de datos diferentes y desea predecir si él o ella va a sobrevivir. Si es así, va a ocultar esa historia sobre su otro hijo a su esposa, si no, es importante que lo revele, mientras pueda.
El médico puede hacer esta predicción basándose en los datos de pacientes anteriores que tenía en su unidad. Basado en su conocimiento de software, puede predecir usando una regresión lineal generalizada (glm) o una red neuronal (nn).
1. Modelo lineal generalizado
Hay muchos parámetros correlacionados para la glm, por lo que para llegar a un resultado, el médico tendrá que hacer suposiciones (linealidad, etc.) y tomar decisiones sobre qué parámetros pueden tener influencia. La glm lo recompensará con una prueba t de importancia para cada uno de sus parámetros para que pueda reunir pruebas sólidas, de que el género y la fiebre tienen una influencia significativa, el peso corporal no necesariamente.
2. red neuronal
La red neuronal tragará y asimilará toda la información que haya en la muestra de pacientes anteriores. No le importará si los predictores están correlacionados y no revelará tanta información sobre si la influencia del peso corporal parece ser importante solo en la muestra en cuestión o en general (al menos no en el nivel de experiencia que el médico tiene que ofrecer). Solo calculará un resultado.
Que es mejor
El método a elegir depende del ángulo desde el que se mire el problema: como paciente, preferiría la red neuronal que utiliza todos los datos disponibles para una mejor suposición sobre lo que me sucederá sin suposiciones fuertes y obviamente erróneas como la linealidad. Como el médico, que quiere presentar algunos datos en una revista, necesita valores p. La medicina es muy conservadora: van a pedir valores p. Entonces, el médico quiere informar que, en tal situación, el género tiene una influencia significativa. Para el paciente, eso no importa, simplemente use cualquier influencia que la muestra sugiera que sea más probable.
En este ejemplo, el paciente quiere predicción, el lado científico del médico quiere inferencia. Principalmente, cuando quieres entender un sistema, entonces la inferencia es buena. Si necesita tomar una decisión donde no puede entender el sistema, la predicción tendrá que ser suficiente.