¿Es el aprendizaje automático un tema importante para que cualquier estadístico se familiarice? Parece que el aprendizaje automático es estadística. ¿Por qué los programas de estadística (pregrado y posgrado) no requieren aprendizaje automático?
¿Es el aprendizaje automático un tema importante para que cualquier estadístico se familiarice? Parece que el aprendizaje automático es estadística. ¿Por qué los programas de estadística (pregrado y posgrado) no requieren aprendizaje automático?
Respuestas:
Machine Learning es un campo especializado de estadística aplicada de alta dimensión. También requiere una considerable experiencia en programación que no es necesaria para un buen programa cuantitativo, especialmente a nivel de pregrado, sino también, en cierta medida, a nivel de posgrado. Solo se aplica al aspecto de predicción de las estadísticas, mientras que las estadísticas matemáticas, así como las estadísticas aplicadas inferenciales y descriptivas requieren atención. Muchos programas ofrecen a los estudiantes la oportunidad de tener una gran exposición al aprendizaje automático (CMU, por ejemplo), pero los estadísticos industriales en general rara vez tienen la oportunidad de aplicar estas herramientas, salvo ciertos trabajos tecnológicos de alto perfil.
Si bien recientemente he visto muchos puestos de científico de datos y aprendizaje automático en el mercado laboral, creo que la descripción general del trabajo de "estadístico" no requiere un fondo de aprendizaje automático, pero sí requiere una comprensión impecable de las estadísticas básicas, la inferencia y la comunicación: Estos realmente deberían ser el núcleo de un programa de estadísticas de posgrado. El aprendizaje automático y la ciencia de datos también son relativamente nuevos como títulos de trabajo y como disciplinas. Sería un mal servicio para quienes buscan empleo como estadísticos influir en sus estrategias de resolución de problemas hacia el aprendizaje automático si se abandona en su mayoría en empresas / empresas farmacéuticas / biociencias por una eficacia decepcionante en 10 o 20 años.
Por último, no creo que el aprendizaje automático mejore enormemente una comprensión sólida de las estadísticas. La estadística es fundamentalmente un campo interdisciplinario y es importante comunicar y convencer a los expertos no técnicos en su campo (como médicos, directores financieros o administradores) exactamente por qué eligió la metodología que eligió. El aprendizaje automático es un campo tan especializado y altamente técnico que, en muchas prácticas aplicadas, solo promete un rendimiento incrementalmente mejor que las herramientas y técnicas estándar. Muchos de los métodos en el aprendizaje supervisado y no supervisado son percibidos por los no expertos (e incluso algunos expertos menos capacitados) como "caja negra". Cuando se les pide que defiendan su elección de un método de aprendizaje específico, hay explicaciones que fracasan y no se basan en ninguna de las circunstancias motivadas por problemas aplicados.
Bien, hablemos sobre el elefante de las estadísticas con los ojos vendados por lo que hemos aprendido de una o dos personas con las que trabajamos estrechamente en nuestros programas de posgrado ...
Los programas de estadísticas requieren lo que les parezca, es decir, cuáles son las cosas más importantes que quieren que sus alumnos aprendan dado un tiempo limitado que los alumnos tendrán en el programa. Requerir un área estrecha significa despedirse de otras áreas que se pueden considerar igualmente importantes. Algunos programas requieren medir la probabilidad teórica, otros no. Algunos requieren un idioma extranjero, pero la mayoría de los programas no. Algunos programas toman el paradigma bayesiano como lo único que vale la pena estudiar, pero la mayoría no. Algunos programas saben que la mayor demanda de estadísticos está en las estadísticas de encuestas (al menos ese es el caso en los Estados Unidos), pero la mayoría no. Los programas de Biostat siguen el dinero y le enseñan a SAS + los métodos que se venderán fácilmente a las ciencias médicas y farmacéuticas.
Para una persona que diseña experimentos agrícolas, o recolecta datos de encuestas a través de encuestas telefónicas, o valida escalas psicométricas, o produce mapas de incidencia de enfermedades en un SIG, el aprendizaje automático es un arte abstracto de la informática, muy distante de las estadísticas con las que trabaja a diario. base. Ninguna de estas personas verá ningún beneficio inmediato al aprender máquinas de vectores de soporte o bosques aleatorios.
Con todo, el aprendizaje automático es un buen complemento para otras áreas de la estadística, pero yo diría que las cuestiones principales como la distribución normal multivariante y los modelos lineales generalizados deben ser lo primero.
El aprendizaje automático se trata de obtener conocimiento / aprendizaje de los datos. Por ejemplo, trabajo con algoritmos de aprendizaje automático que pueden seleccionar algunos genes que pueden estar involucrados en un tipo particular de enfermedad a partir de datos de microarrays de ADN (por ejemplo, cáncer o diabetes). Los científicos pueden usar estos genes (modelos aprendidos) para el diagnóstico temprano en el futuro (clasificación de muestras no vistas).
Hay muchas estadísticas involucradas en el aprendizaje automático, pero hay ramas del aprendizaje automático que no requieren estadísticas (por ejemplo, programación genética). La única vez que necesitaría estadísticas en estos casos sería para ver si un modelo que ha creado utilizando el aprendizaje automático es estadísticamente significativamente diferente de otro modelo.
En mi opinión, una introducción al aprendizaje automático para estadísticos sería ventajosa . Esto ayudará a los estadísticos a ver escenarios del mundo real de aplicación de estadísticas. Sin embargo, no debería ser obligatorio . ¡Puede convertirse en un estadístico exitoso y pasar toda su vida sin tener que acercarse al aprendizaje automático!