La prueba estadística es para hacer inferencia a partir de datos, le dice cómo se relacionan las cosas. El resultado es algo que tiene un significado en el mundo real. Por ejemplo, cómo fumar está asociado con el cáncer de pulmón, tanto en términos de dirección como de magnitud. Todavía no te dice por qué sucedieron las cosas. Para responder por qué sucedieron las cosas, debemos considerar también la interrelación con otras variables y hacer los ajustes apropiados (ver Pearl, J. (2003) CAUSALIDAD: MODELOS, RAZONAMIENTO E INFERENCIA).
El aprendizaje supervisado es para hacer predicciones, te dice lo que sucederá. Por ejemplo, dado el tabaquismo de una persona, podemos predecir si tendrá cáncer de pulmón. En casos simples, todavía le dice "cómo", por ejemplo, al observar el límite del estado de fumar identificado por el algoritmo. Pero los modelos más complejos son más difíciles o imposibles de interpretar (aprendizaje profundo / refuerzo con muchas características).
El aprendizaje no supervisado se usa a menudo para facilitar los dos anteriores.
- Para las pruebas estadísticas, al descubrir algunos subgrupos subyacentes desconocidos de los datos (agrupación), podemos inferir la heterogeneidad en las asociaciones entre las variables. Por ejemplo, fumar aumenta las probabilidades de tener cáncer de pulmón para el subgrupo A pero no para el subgrupo B.
- Para el aprendizaje supervisado, podemos crear nuevas funciones para mejorar la precisión y solidez de las predicciones. Por ejemplo, mediante la identificación de subgrupos (agrupamiento) o la combinación de características (reducción de dimensiones) que están asociadas con las probabilidades de tener cáncer de pulmón.
Cuando el número de características / variables aumenta, la diferencia entre las pruebas estadísticas y el aprendizaje supervisado se vuelve más sustancial. Las pruebas estadísticas pueden no necesariamente beneficiarse de esto, depende, por ejemplo, de si desea realizar una inferencia causal controlando otros factores o identificando la heterogeneidad en las asociaciones como se mencionó anteriormente. El aprendizaje supervisado funcionará mejor si las características son relevantes y se parecerá más a una caja negra.
Cuando el número de muestra aumenta, podemos obtener resultados más precisos para las pruebas estadísticas, resultados más precisos para el aprendizaje supervisado y resultados más sólidos para el aprendizaje no supervisado. Pero esto depende de la calidad de los datos. Los datos de mala calidad pueden introducir sesgo o ruido en los resultados.
A veces queremos saber "cómo" y "por qué" para informar las acciones de intervención, por ejemplo, al identificar que fumar causa cáncer de pulmón, se puede hacer una política para hacer frente a eso. A veces queremos saber "qué" informar a la toma de decisiones, por ejemplo, averiguar quién es probable que tenga cáncer de pulmón y darles tratamientos tempranos. Hay un número especial publicado en Science sobre la predicción y sus límites ( http://science.sciencemag.org/content/355/6324/468) "El éxito parece lograrse de manera más consistente cuando las preguntas se abordan en esfuerzos multidisciplinarios que unen la comprensión humana del contexto con la capacidad algorítmica para manejar terabytes de datos". En mi opinión, por ejemplo, el conocimiento descubierto usando pruebas de hipótesis puede ayudar a supervisar el aprendizaje al informarnos qué datos / características debemos recopilar en primer lugar. Por otro lado, el aprendizaje supervisado puede ayudar a generar hipótesis al informar qué variables