Las dos culturas: ¿estadísticas vs. aprendizaje automático?

420

El año pasado, leí una publicación de blog de Brendan O'Connor titulada "Estadísticas vs. Aprendizaje automático, ¡lucha!" eso discutió algunas de las diferencias entre los dos campos. Andrew Gelman respondió favorablemente a esto :

Simon Blomberg:

Del paquete de fortunas de R: Parafraseando provocativamente, "el aprendizaje automático es estadística menos cualquier verificación de modelos y suposiciones". - Brian D. Ripley (sobre la diferencia entre aprendizaje automático y estadísticas) useR! 2004, Viena (mayo de 2004) :-) ¡Saludos de la temporada!

Andrew Gelman:

En ese caso, tal vez deberíamos deshacernos de la verificación de modelos y supuestos con más frecuencia. ¡Entonces quizás podamos resolver algunos de los problemas que la gente de aprendizaje automático puede resolver pero nosotros no!

También estaba el "Modelado Estadístico: las dos culturas" de papel de Leo Breiman en 2001, que argumentaron que los estadísticos se basan demasiado en el modelado de datos, y que las técnicas de aprendizaje automático están haciendo progresos en lugar de confiar en la exactitud predictiva de los modelos.

¿Ha cambiado el campo de las estadísticas en la última década en respuesta a estas críticas? ¿ Siguen existiendo las dos culturas o han crecido las estadísticas para adoptar técnicas de aprendizaje automático tales como redes neuronales y máquinas de vectores de soporte?

machine-learning pac-learning

— Shane
fuente

21

Gracias @robin; hecho CW. Aunque no veo completamente esto como "argumentativo"; Hay dos campos que se han informado entre sí (esto es un hecho), y la pregunta es cuánto han evolucionado juntos durante la última década.

— Shane

16

Agregue una tercera cultura: minería de datos . Los aprendices de máquinas y los mineros de datos hablan idiomas muy diferentes. Por lo general, los estudiantes de la máquina ni siquiera entienden qué es diferente en la minería de datos. Para ellos, es solo un aprendizaje no supervisado; Ignoran los aspectos de gestión de datos y también aplican la minería de datos de palabras de moda al aprendizaje automático, lo que aumenta aún más la confusión.

— Anony-Mousse

44

Hay una pregunta similar sobre minería de datos y estadísticas

— nada101

2

Una discusión interesante en el blog de Wasserman .

2

Me parece que en realidad el vínculo entre el LD y las estadísticas no se enfatiza lo suficiente. Muchos estudiantes de CS ignoran aprender algo sobre estadísticas durante sus días fundacionales porque no entienden la importancia crítica de una buena base estadística para llevar a cabo tareas de aprendizaje automático. Tal vez incluso muchos departamentos de CS de todo el mundo serían lentos para actuar también. Sería un error muy costoso y ciertamente espero que haya más conciencia sobre la importancia del conocimiento estadístico en CS. Básicamente ML = Estadísticas en muchos sentidos.

— xji

195

Creo que la respuesta a su primera pregunta es simplemente afirmativa. Tome cualquier tema de Statistical Science, JASA, Annals of Statistics de los últimos 10 años y encontrará documentos sobre impulso, SVM y redes neuronales, aunque esta área está menos activa ahora. Los estadísticos se han apropiado del trabajo de Valiant y Vapnik, pero por otro lado, los científicos informáticos han absorbido el trabajo de Donoho y Talagrand. Ya no creo que haya mucha diferencia en alcance y métodos. Nunca he comprado el argumento de Breiman de que las personas de CS solo estaban interesadas en minimizar las pérdidas usando lo que sea que funcione. Ese punto de vista estuvo fuertemente influenciado por su participación en las conferencias de Redes Neurales y su trabajo de consultoría; pero PAC, SVMs, Boosting tienen bases sólidas. Y hoy, a diferencia de 2001, las estadísticas están más preocupadas por las propiedades de muestras finitas,

Pero creo que todavía hay tres diferencias importantes que no desaparecerán pronto.

Los documentos de estadísticas metodológicas siguen siendo abrumadoramente formales y deductivos, mientras que los investigadores de Machine Learning son más tolerantes con los nuevos enfoques, incluso si no vienen con una prueba adjunta;
La comunidad de ML comparte principalmente nuevos resultados y publicaciones en conferencias y procedimientos relacionados, mientras que los estadísticos usan periódicos. Esto ralentiza el progreso en estadísticas e identificación de investigadores estrella. John Langford tiene una buena publicación sobre el tema desde hace un tiempo;
Las estadísticas aún cubren áreas que son (por ahora) de poca preocupación para el LD, como el diseño de encuestas, muestreo, estadísticas industriales, etc.

— alegre
fuente

20

¡Buena publicación! Tenga en cuenta que Vapnick tenía un doctorado en estadística. No estoy seguro de que haya muchos informáticos que conozcan el nombre de Talagrand y estoy seguro de que el 0.01% de ellos puede indicar de memoria un resultado de talagrand :) ¿puedes? No sé el trabajo de Valiant :)

— robin girard

Veo las diferentes respuestas cuando se trata de investigación académica y aplicaciones. Creo que respondiste en el contexto de la primera. En las aplicaciones, creo que la mayor diferencia está en la forma en que se expanden los campos. ML a través del canal de ciencia de datos acepta a todos los que pueden codificar, literalmente. En estadística aún necesita un título formal en estadísticas o campos cercanos para ingresar a la fuerza laboral.

— Aksakal

1

Tanto el muestreo de encuestas como las estadísticas industriales son campos multimillonarios (la sección de métodos de investigación de encuestas de la Asociación Americana de Estadística es la tercera más grande después de la biometría y la consultoría, y esta última también incluye una gran cantidad de estadísticos industriales. Hay una sección separada sobre calidad , y hay un material Six-Sigma aún separado y otros métodos de control de calidad por ahí, no todos por completo en estadísticas). Ambos tienen una escasez crítica de estadísticos, ya que la fuerza laboral actual de los baby boomers que llegaron a trabajar en estas áreas en la década de 1960 se está retirando.

— StasK

44

Mientras que algunas personas obtienen su trabajo posando en la alfombra roja en las conferencias, otras personas encuentran el suyo aplicando los métodos en el mundo real. Las últimas personas no tienen que mucho interés en la identificación de las estrellas de cualquier tipo; Prefieren identificar los métodos que funcionan, aunque en muchas ocasiones, después de unos años en un campo determinado, se le lleva a los mismos nombres una y otra vez.

— StasK

¿Por qué el muestreo no sería motivo de preocupación para ML? ¿No es bastante similar al problema de tener los datos de entrenamiento etiquetados en ML?

— Gerrit

169

La mayor diferencia que veo entre las comunidades es que las estadísticas enfatizan la inferencia, mientras que el aprendizaje automático enfatiza la predicción. Cuando realiza estadísticas, desea inferir el proceso mediante el cual se generaron los datos que tiene. Cuando haces aprendizaje automático, quieres saber cómo puedes predecir qué datos futuros se verán con alguna variable.

Por supuesto, los dos se superponen. Saber cómo se generaron los datos le dará algunas pistas sobre cómo sería un buen predictor, por ejemplo. Sin embargo, un ejemplo de la diferencia es que el aprendizaje automático se ha ocupado del problema p >> n (más características / variables que muestras de entrenamiento) desde su infancia, mientras que las estadísticas apenas comienzan a tomarse en serio este problema. ¿Por qué? Porque todavía puede hacer buenas predicciones cuando p >> n, pero no puede hacer muy buenas inferencias sobre qué variables son realmente importantes y por qué.

— dsimcha
fuente

13

¿Podría esto (excesivamente) simplificarse como algo así como la diferencia entre modelos generativos y discriminativos?

— Wayne

55

"Uno debería resolver el problema [de clasificación] directamente y nunca resolver un problema más general como un paso intermedio ..." - Vapnik

— Wayne

3

@mbq: no quise dar a entender que no se puede hacer ninguna inferencia, solo que no es el objetivo principal y que usualmente p >> n en ML, lo que lo hace mucho más difícil.

— dsimcha

2

Estoy totalmente en desacuerdo con esta opinión. Se ve mal Cosas como las redes neuronales recurrentes también intentan inferir procesos, e incluso continúan y generan nuevas secuencias.

— hombre de las cavernas

2

¿Y qué hay de la robótica? La robótica probabilística se centra principalmente en la inferencia y es bastante dominante en las aplicaciones. Pero sigue siendo un "sabor" diferente al de las estadísticas (y más ingeniería en comparación con la máquina / aprendizaje; es decir, análisis / control en tiempo real)

— GeoMatt22

135

Bayesiano: "¡Hola, aprendiz de máquina!"

Frecuente: "¡Hola, aprendiz de máquina!"

Aprendizaje automático: "Escuché que ustedes son buenos en las cosas. Aquí hay algunos datos".

F: "Sí, escriba un modelo y luego calculemos el MLE".

B: "¡Hey, F, eso no es lo que me dijiste ayer! Tenía algunos datos univariados y quería estimar la varianza, y calculé el MLE. Luego me atacaste y me dijiste que dividiera por lugar de por $n-1$ $n$ ".

F: "Ah, sí, gracias por recordármelo. A menudo pienso que se supone que debo usar el MLE para todo, pero estoy interesado en estimadores imparciales y así sucesivamente".

ML: "Eh, ¿de qué se trata esta filosofía? ¿Me ayudará?"

F: "OK, un estimador es un recuadro negro, ingresas datos y te da algunos números. A los frecuentadores no nos importa cómo se construyó el recuadro, qué principios se usaron para diseñarlo. Por ejemplo, yo no sé cómo derivar la regla ". $\div(n-1)$

ML: "Entonces, ¿qué te importa?"

F: "Evaluación".

ML: "Me gusta cómo suena eso".

F: "Una caja negra es una caja negra. Si alguien afirma que un estimador particular es un estimador imparcial para , entonces intentamos muchos valores de a su vez, generamos muchas muestras de cada uno de ellos según un modelo asumido, empujándolos el estimador, y encuentre el promedio estimado . Si podemos demostrar que la estimación esperada es igual al valor verdadero, para todos los valores, entonces decimos que es imparcial ". $\theta$ $\theta$ $\theta$

ML: "¡Suena genial! Parece que los frecuentadores son personas pragmáticas. Usted juzga cada caja negra por sus resultados. La evaluación es clave".

F: "¡De hecho! Entiendo que ustedes tienen un enfoque similar. ¿Validación cruzada, o algo así? Pero eso me parece desordenado".

ML: "¿Desordenado?"

F: "La idea de probar su estimador con datos reales me parece peligrosa. Los datos empíricos que usa podrían tener todo tipo de problemas y podrían no comportarse de acuerdo con el modelo que acordamos para la evaluación".

ML: "¿Qué? ¿Creí que dijiste que habías probado algunos resultados? Que tu estimador siempre sería imparcial, para todo ". $\theta$

F: "Sí. Si bien su método podría haber funcionado en un conjunto de datos (el conjunto de datos con el tren y los datos de prueba) que utilizó en su evaluación, puedo demostrar que el mío siempre funcionará".

ML: "¿Para todos los conjuntos de datos?"

F: "No."

ML: "Entonces mi método ha sido validado en un conjunto de datos. ¿No ha probado el suyo en ningún conjunto de datos real?"

F: "Eso es correcto".

ML: "¡Eso me pone a la cabeza entonces! Mi método es mejor que el suyo. Predice el cáncer el 90% del tiempo. Su 'prueba' solo es válida si todo el conjunto de datos se comporta de acuerdo con el modelo que usted asumió".

F: "Emm, sí, supongo".

ML: "Y ese intervalo tiene una cobertura del 95% . ¿Pero no debería sorprenderme si solo contiene el valor correcto de 20% del tiempo?" $\theta$

F: "Eso es correcto. A menos que los datos estén realmente en Normal (o lo que sea), mi prueba es inútil".

ML: "¿Entonces mi evaluación es más confiable y completa? Solo funciona en los conjuntos de datos que he probado hasta ahora, pero al menos son conjuntos de datos reales, verrugas y todo. Ahí estaba, tratando de decir que era más 'conservador 'y' exhaustivo 'y que estaba interesado en la verificación de modelos y otras cosas ".

B: (interrumpe) "Hola chicos, perdón por interrumpir. Me encantaría intervenir y equilibrar las cosas, tal vez demostrando algunos otros problemas, pero realmente me encanta ver cómo mi colega frecuenta se retuerce".

F: "¡Woah!"

ML: "OK, niños. Se trataba de una evaluación. Un estimador es un recuadro negro. Los datos entran, salen datos. Aprobamos o desaprobamos un estimador basado en cómo funciona bajo evaluación. No nos importa sobre la 'receta' o 'principios de diseño' que se utilizan ".

F: "Sí. Pero tenemos ideas muy diferentes sobre qué evaluaciones son importantes. ML realizará un entrenamiento y prueba sobre datos reales. Mientras que haré una evaluación que es más general (porque implica una prueba ampliamente aplicable) y también más limitado (porque no sé si su conjunto de datos se extrae realmente de los supuestos de modelado que uso al diseñar mi evaluación) ".

ML: "¿Qué evaluación usas, B?"

F: (interrumpe) "Oye. No me hagas reír. No evalúa nada. Simplemente usa sus creencias subjetivas y corre con ellas. O algo así".

B: "Esa es la interpretación común. Pero también es posible definir el bayesianismo por las evaluaciones preferidas. Entonces podemos usar la idea de que a ninguno de nosotros nos importa lo que está en el recuadro negro, solo nos interesan las diferentes formas de evaluar".

B continúa: "Ejemplo clásico: examen médico. El resultado del análisis de sangre es Positivo o Negativo. A un frecuentador le interesará, de las personas sanas, qué proporción obtiene un resultado negativo. Y de manera similar, qué proporción de personas enfermas tendrá obtenga un Positivo. El frecuentista calculará estos para cada método de análisis de sangre que se esté considerando y luego recomendará que usemos el examen que obtuvo el mejor par de puntajes ".

F: "Exactamente. ¿Qué más podrías querer?"

B: "¿Qué pasa con las personas que obtuvieron un resultado positivo en la prueba? Querrán saber 'de aquellos que obtienen un resultado positivo, ¿cuántos se enfermarán?' y 'de aquellos que obtienen un resultado negativo, ¿cuántos son saludables?' "

ML: "Ah, sí, parece un mejor par de preguntas".

F: "¡HERESIA!"

B: "Aquí vamos de nuevo. No le gusta a dónde va esto".

ML: "Se trata de 'priors', ¿no?"

F: "MAL".

B: "De todos modos, sí, tienes razón ML. Para calcular la proporción de personas con resultados positivos que están enfermos, debes hacer una de dos cosas. Una opción es ejecutar las pruebas en muchas personas y simplemente observar proporciones relevantes. Cuántas de esas personas mueren de la enfermedad, por ejemplo ".

ML: "Eso suena como lo que hago. Usa entrenar y probar".

B: "Pero puede calcular estos números por adelantado, si está dispuesto a hacer una suposición sobre la tasa de Enfermedad en la población. El frecuentista también hace sus cálculos por adelantado, pero sin usar esta tasa de Enfermedad a nivel de población".

F: "MÁS SUPUESTOS INFUNDADOS".

B: "Oh, cállate. Anteriormente, te descubrieron. ML descubrió que eres tan aficionado a las suposiciones infundadas como cualquiera. Tus probabilidades de cobertura" probadas "no se acumularán en el mundo real a menos que todas tus suposiciones sean válidas. ¿Por qué mi suposición anterior es tan diferente? Me llamas loco, pero finges que tus suposiciones son el trabajo de un análisis conservador, sólido y libre de suposiciones ".

B (continúa): "De todos modos, ML, como decía. A los bayesianos les gusta un tipo diferente de evaluación. Estamos más interesados en condicionar los datos observados y calcular la precisión de nuestro estimador en consecuencia. No podemos realizar esta evaluación sin usar un prior. Pero lo interesante es que, una vez que decidimos sobre esta forma de evaluación, y una vez que elegimos nuestro prior, tenemos una 'receta' automática para crear un estimador apropiado. El frecuentista no tiene tal receta. Si quiere un estimador imparcial para un modelo complejo, no tiene ninguna forma automatizada de construir un estimador adecuado ".

ML: "¿Y tú? ¿Puedes construir automáticamente un estimador?"

B: "Sí. No tengo una forma automática de crear un estimador imparcial, porque creo que el sesgo es una mala forma de evaluar un estimador. Pero dada la estimación condicional en los datos que me gusta, y la anterior, yo puede conectar el previo y la probabilidad de darme el estimador ".

ML: "De todos modos, vamos a recapitular. Todos tenemos diferentes maneras de evaluar nuestros métodos, y probablemente nunca estaremos de acuerdo sobre cuáles son los mejores".

B: "Bueno, eso no es justo. Podríamos mezclarlos y combinarlos. Si alguno de nosotros tiene buenos datos de entrenamiento etiquetados, probablemente deberíamos probarlo. Y en general todos deberíamos probar tantas suposiciones como podamos. Y algunos 'frecuentas 'las pruebas también pueden ser divertidas, prediciendo el rendimiento bajo un supuesto modelo de generación de datos ".

F: "Sí, muchachos. Seamos pragmáticos acerca de la evaluación. Y, de hecho, dejaré de obsesionarme con las propiedades de muestras infinitas. Les he estado pidiendo a los científicos que me den una muestra infinita, pero aún no lo han hecho. Es tiempo para concentrarme nuevamente en muestras finitas ".

ML: "Entonces, solo tenemos una última pregunta. Hemos discutido mucho sobre cómo evaluar nuestros métodos, pero cómo los creamos ".

B: "Ah. Como me refería antes, los bayesianos tenemos el método general más poderoso. Puede ser complicado, pero siempre podemos escribir algún tipo de algoritmo (tal vez una forma ingenua de MCMC) que muestreará desde nuestra parte posterior. "

F (interjecciones): "Pero podría tener sesgo".

B: "También podrían sus métodos. ¿Necesito recordarle que el MLE a menudo está sesgado? A veces, tiene grandes dificultades para encontrar estimadores imparciales, e incluso cuando tiene un estimador estúpido (para algún modelo realmente complejo) que dirá el la varianza es negativa. Y a eso lo llamas imparcial. Sí, imparcial, pero útil, ¡no! "

ML: "Está bien chicos. Están despotricando de nuevo. Permítanme hacerles una pregunta, F. ¿Alguna vez han comparado el sesgo de su método con el sesgo del método de B, cuando ambos trabajaron en el mismo problema?"

F: "Sí. De hecho, odio admitirlo, ¡pero el enfoque de B a veces tiene un sesgo y un MSE más bajos que mi estimador!"

ML: "La lección aquí es que, aunque no estamos de acuerdo con la evaluación, ninguno de nosotros tiene el monopolio de cómo crear un estimador que tenga las propiedades que queremos".

B: "Sí, deberíamos leer el trabajo del otro un poco más. Podemos inspirarnos mutuamente para los estimadores. Podríamos encontrar que los estimadores de otros funcionan muy bien, de forma inmediata, en nuestros propios problemas".

F: "Y debería dejar de obsesionarme por el sesgo. Un estimador imparcial podría tener una variación ridícula. Supongo que todos tenemos que" responsabilizarnos "de las elecciones que hacemos en la forma en que evaluamos y las propiedades que deseamos ver en nuestros estimadores. No podemos respaldar una filosofía. Pruebe todas las evaluaciones que pueda. ¡Y seguiré echando un vistazo a la literatura bayesiana para obtener nuevas ideas para los estimadores! "

B: "De hecho, mucha gente realmente no sabe cuál es su propia filosofía. Ni siquiera estoy seguro de mí mismo. Si uso una receta bayesiana y luego pruebo algún resultado teórico agradable, eso no significa que yo ¿Soy un frecuentador? A un frecuentador le importan las pruebas anteriores sobre el rendimiento, no le importan las recetas. Y si hago algo de entrenamiento y prueba (o también), ¿eso significa que soy un aprendiz de máquina? "

ML: "Parece que todos somos bastante similares entonces".

— Aaron McDaid
fuente

8

Para los lectores que leerán esta respuesta hasta el final, sugeriría agregar un breve mensaje para llevar (y proporcionar una cita apropiada si corresponde).

— chl

Con -2 votos hasta ahora, creo que no hay mucho que pueda hacer para guardarlo :) Creo que el final, donde todos están de acuerdo, y admiten que pueden usar los métodos de los demás sin preocuparse por la filosofía de los demás, es un 'mensaje para llevar'.

— Aaron McDaid

10

No se requiere cita. Lo acabo de inventar yo mismo. Probablemente no esté muy bien informado, se basa en mi propia (mala) interpretación de argumentos que he tenido con un pequeño número de colegas a lo largo de los años.

— Aaron McDaid

3

He visto ese diálogo (más corto, sin embargo) en el pasado, y los encuentro interesantes. También me preocuparon los votos negativos, de ahí mi sugerencia de poner un breve resumen en la parte superior para motivar a los lectores a leer el resto de su publicación.

— chl

3

13/10 volvería a discutir

— 410_Gone

67

En esa discusión, siempre recuerdo la famosa cita de Ken Thompson

En caso de duda, use la fuerza bruta.

En este caso, el aprendizaje automático es una salvación cuando los supuestos son difíciles de entender; o al menos es mucho mejor que adivinarlos mal.

2

Con el aumento de las capacidades computacionales en estos años y los autoencoders y las técnicas asociadas, esto es más cierto que nunca.

— Firebug

Para resolver un problema, los ingenieros usan fórmulas, técnicas y procedimientos, que han usado antes y están seguros de su éxito ... Por lo general, se llama el uso de Fuerza Bruta o el uso de Reglas del pulgar ... Nuevas fórmulas, técnicas y los procedimientos se utilizan en un proceso paso a paso ... Las actividades de ingeniería son actividades grupales, donde ingenieros, técnicos y trabajadores manuales trabajan juntos. Cuando se introduce un nuevo procedimiento, lleva tiempo capacitar a los técnicos y trabajadores con este procedimiento. Entonces, la modernización se introduce en un proceso evolutivo.

— b.sahu

64

Lo que impone más separación de lo que debería ser es el léxico de cada disciplina.

Hay muchos casos en los que ML usa un término y Estadísticas usa un término diferente, pero ambos se refieren a la misma cosa, bien, es de esperar que eso no cause confusión permanente (por ejemplo, características / atributos versus expectativa variables, o red neuronal / MLP versus búsqueda de proyección).

Lo que es mucho más problemático es que ambas disciplinas usan el mismo término para referirse a conceptos completamente diferentes.

Algunos ejemplos:

Función del núcleo

En ML, las funciones del núcleo se usan en clasificadores (por ejemplo, SVM) y, por supuesto, en las máquinas del núcleo. El término se refiere a una función simple ( coseno, sigmoidal, rbf, polinomio ) para mapear de forma no lineal separable a un nuevo espacio de entrada, de modo que los datos ahora sean linealmente separables en este nuevo espacio de entrada. (en comparación con el uso de un modelo no lineal para empezar).

En estadística, una función del núcleo es la función de ponderación utilizada en la estimación de densidad para suavizar la curva de densidad.

Regresión

En ML, los algoritmos predictivos o las implementaciones de esos algoritmos que devuelven etiquetas de clase "clasificadores" se denominan (a veces) máquinas: por ejemplo, máquina de vectores de soporte , máquina de kernel . La contraparte de las máquinas son los regresores , que devuelven una puntuación (variable continua), por ejemplo, admiten la regresión de vectores .

En raras ocasiones, los algoritmos tienen diferentes nombres según el modo; por ejemplo, un MLP es el término utilizado, ya sea que devuelva una etiqueta de clase o una variable continua.

En Estadística, regresión , si está intentando construir un modelo basado en datos empíricos, para predecir alguna variable de respuesta basada en una o más variables explicativas o más variables, entonces está haciendo un análisis de regresión . No importa si el resultado es una variable continua o una etiqueta de clase (por ejemplo, regresión logística). Entonces, por ejemplo, la regresión de mínimos cuadrados se refiere a un modelo que devuelve un valor continuo; La regresión logística, por otro lado, devuelve una estimación de probabilidad que luego se discretiza en las etiquetas de una clase.

Parcialidad

En ML, el término de sesgo en el algoritmo es conceptualmente idéntico al término de intercepción utilizado por los estadísticos en el modelado de regresión.

En Estadística, el sesgo es un error no aleatorio, es decir, algún fenómeno influyó en todo el conjunto de datos en la misma dirección, lo que a su vez significa que este tipo de error no se puede eliminar volviendo a muestrear o aumentando el tamaño de la muestra.

— Doug
fuente

19

En estadística, sesgo no es lo mismo que error. El error es puramente aleatorio, el sesgo no lo es. Tiene sesgo cuando sabe que el valor esperado de su estimación no es igual al valor verdadero.

— Joris Meys

2

(@Joris ¡O incluso si no lo sabe! Suena trillado, pero descubrir si hay sesgo puede ser un problema práctico considerable. De los datos solo, ¿qué tan seguro puede estar de que un parámetro de regresión estimado esté libre de variables omitidas? sesgo?) Es un error común pensar que el sesgo es una característica de los datos, no una propiedad de un estimador; Me pregunto si se debe al uso no técnico como "¡esa encuesta está sesgada!" Los estadísticos tampoco siempre son consistentes con términos como "error": el error cuadrático medio (de un estimador) incluye un componente de sesgo cuadrado, de modo que el "error" no es "puramente aleatorio".

— Silverfish

2

Creo que el término "máquina" en SVM debería atribuirse al gusto personal de Vladimir Vapnic. Hoy en día, no creo que se use para nombrar a ningún otro clasificador.

— iliasfl

3

E [\hat{X} - X]

$\mathbb{E}[\hat{X} - X]$

1

[0, 1]

$[0, 1]$

1

$1$

26

Las mayores diferencias que he notado en el último año son:

Los expertos en aprendizaje automático no dedican suficiente tiempo a los fundamentos, y muchos de ellos no entienden la toma de decisiones óptima y las reglas adecuadas de puntaje de precisión. No entienden que los métodos predictivos que no hacen suposiciones requieren tamaños de muestra mayores que los que sí lo hacen.
Los estadísticos pasamos muy poco tiempo aprendiendo buenas prácticas de programación y nuevos lenguajes computacionales. Somos demasiado lentos para cambiar cuando se trata de computar y adoptar nuevos métodos de la literatura estadística.

— Frank Harrell
fuente

2

Otra nota es que los estadísticos de EE. UU. Tendemos a limitarnos a métodos que podemos probar con las matemáticas que funcionarán bien (bajo un conjunto de suposiciones quizás ridículas), especialmente cuando se trata de publicaciones. La gente de aprendizaje automático está muy contenta de usar métodos que funcionan empíricamente bien en algunos conjuntos de datos. Como resultado, creo que la literatura de ML se mueve mucho más rápido, pero también requiere más análisis a través de las tonterías.

— Cliff AB

25

El aprendizaje automático parece tener su base en lo pragmático: una observación práctica o simulación de la realidad. Incluso dentro de las estadísticas, la "comprobación de modelos y supuestos" sin sentido puede llevar a descartar métodos que sean útiles.

Por ejemplo, hace años, el primer modelo de bancarrota disponible comercialmente (y en funcionamiento) implementado por los burós de crédito fue creado a través de un modelo de regresión lineal simple y antiguo dirigido a un resultado 0-1. Técnicamente, ese es un mal enfoque, pero prácticamente funcionó.

— Jay Stevens
fuente

44

es similar al uso de modelos gravitacionales planetarios para el tráfico urbano. Me parece absurdo, pero en realidad funciona silenciosamente con precisión

— dassouki

55

Estoy interesado en la última declaración: "el primer modelo de bancarrota disponible comercialmente (y en funcionamiento) implementado por los burós de crédito fue creado a través de un modelo de regresión lineal simple y antiguo dirigido a un resultado 0-1". ¿Qué modelo era? Creo que el primer modelo fue RiskCalc de Moody's, e incluso la primera versión fue un modelo de regresión logística. Los desarrolladores de ese modelo no eran personas de CS con experiencia en ML, sino más bien en econometría.

— alegre

2

Apuesto a que usaron análisis discriminantes antes de la regresión logística, ya que DA se inventó mucho antes de LR

— Neil McGuigan el

1

@gappy Estoy pensando en el modelo de bancarrota del consumidor de MDS para registros de agencias de crédito individuales. RiskCalc fue una evaluación de riesgo de crédito para las empresas. El modelo de quiebra de MDS difería de los modelos de riesgo de FICO de la época en que el objetivo era la bancarrota y NO la morosidad crediticia (como los puntajes originales de FICO). Mi comentario fue menos sobre los detalles de ML en ese contexto (porque apenas se usaba, si es que lo hizo, en el momento en que se construyó el modelo BK por primera vez), pero estaba relacionado con el hecho de que la efectividad práctica no está necesariamente relacionada con restricciones teóricas o infracciones de supuestos.

— Jay Stevens

Sin embargo, es curioso por qué técnicamente era un mal enfoque. ¿Porque hizo demasiados supuestos simplificadores que diferirían enormemente de la realidad?

— xji

25

No estoy de acuerdo con esta pregunta, ya que sugiere que el aprendizaje automático y las estadísticas son ciencias diferentes o conflictivas ... ¡cuando sucede lo contrario!

el aprendizaje automático hace un uso extensivo de las estadísticas ... una encuesta rápida de cualquier paquete de software de aprendizaje automático o minería de datos revelará técnicas de agrupación como k-means también encontradas en estadísticas ... también mostrará técnicas de reducción de dimensiones como el análisis de componentes principales también una técnica estadística ... incluso regresión logística, otra más.

En mi opinión, la principal diferencia es que tradicionalmente la estadística se usaba para probar una teoría preconcebida y, por lo general, el análisis se diseñaba en torno a esa teoría principal. Donde con la minería de datos o el aprendizaje automático, el enfoque opuesto suele ser la norma, ya que tenemos el resultado, solo queremos encontrar una manera de predecirlo en lugar de hacer la pregunta o formar la teoría, ¡este es el resultado!

— Mojo
fuente

21

He hablado sobre esto en un foro diferente, el ASA Statistical Consulting eGroup. Mi respuesta fue más específicamente a la minería de datos, pero los dos van de la mano. Los estadísticos hemos desairado nuestras narices a los mineros de datos, informáticos e ingenieros. Está mal. Creo que parte de la razón por la que sucede es porque vemos a algunas personas en esos campos ignorando la naturaleza estocástica de su problema. Algunos estadísticos llaman a la minería de datos espiar datos o pescar datos. Algunas personas abusan y usan mal los métodos, pero los estadísticos se han quedado atrás en la minería de datos y el aprendizaje automático porque los pintamos con un pincel amplio. Algunos de los grandes resultados estadísticos provienen de fuera del campo de las estadísticas. Impulsar es un ejemplo importante. Pero estadísticos como Brieman, Friedman, Hastie, Tibshirani, Efron, Gelman y otros lo entendieron y su liderazgo ha llevado a los estadísticos al análisis de microarrays y otros problemas de inferencia a gran escala. Por lo tanto, si bien las culturas nunca se mezclan, ahora hay más cooperación y colaboración entre los informáticos, ingenieros y estadísticos.

— Michael Chernick
fuente

19

El verdadero problema es que esta pregunta está equivocada. No es aprendizaje automático versus estadísticas, es aprendizaje automático contra el avance científico real. Si un dispositivo de aprendizaje automático da las predicciones correctas el 90% del tiempo pero no puedo entender "por qué", ¿cuál es la contribución del aprendizaje automático a la ciencia en general? Imagínese si se usaran técnicas de aprendizaje automático para predecir las posiciones de los planetas: habría muchas personas presumidas que pensarían que pueden predecir con precisión una cantidad de cosas con sus SVM, pero ¿qué sabrían realmente sobre el problema que tienen en sus manos? ? Obviamente, la ciencia no avanza realmente mediante predicciones numéricas, sino que avanza por medio de modelos (mentales, matemáticos) que nos permiten ver más allá de los números.

— user36080
fuente

1

+1 Esto me recuerda el uso de modelos en economía. Los modelos econométricos se construyen para un par de propósitos; a saber, análisis de políticas y pronósticos. En general, a nadie le importan los pronósticos: lo que más importa son las simulaciones de políticas. Como ha estado diciendo David Hendry, el mejor modelo de pronóstico no es necesariamente el mejor modelo para el análisis de políticas, y viceversa. Necesito dar un paso atrás y pensar ... ¿Cuál es el propósito del modelo? ¿Qué preguntas estamos tratando de responder? Y cómo encaja esto con hacer descubrimientos empíricos .

— Graeme Walsh

18

El aprendizaje estadístico (AKA Machine Learning) tiene su origen en la búsqueda de crear software "aprendiendo de los ejemplos". Hay muchas tareas que nos gustaría que hicieran las computadoras (por ejemplo, visión por computadora, reconocimiento de voz, control de robots) que son difíciles de programar pero para las cuales es fácil proporcionar ejemplos de capacitación. La comunidad de investigación de aprendizaje automático / aprendizaje estadístico desarrolló algoritmos para aprender funciones de estos ejemplos. La función de pérdida se relacionaba típicamente con la tarea de rendimiento (visión, reconocimiento de voz). Y, por supuesto, no teníamos razón para creer que hubiera un "modelo" simple subyacente a estas tareas (porque de lo contrario hubiéramos codificado ese programa simple nosotros mismos). Por lo tanto, toda la idea de hacer inferencia estadística no tenía ningún sentido. El objetivo es la precisión predictiva y nada más.

Con el tiempo, varias fuerzas comenzaron a impulsar a las personas de aprendizaje automático para aprender más sobre estadísticas. Uno era la necesidad de incorporar conocimientos previos y otras limitaciones en el proceso de aprendizaje. Esto llevó a las personas a considerar modelos probabilísticos generativos, porque facilitan la incorporación de conocimientos previos a través de la estructura del modelo y los antecedentes de los parámetros y la estructura del modelo. Esto llevó al campo a descubrir la rica literatura estadística en esta área. Otra fuerza fue el descubrimiento del fenómeno del sobreajuste. Esto llevó a la comunidad de ML a aprender sobre validación cruzada y regularización y nuevamente descubrimos la rica literatura estadística sobre el tema.

Sin embargo, el enfoque de la mayoría del trabajo de aprendizaje automático es crear un sistema que exhiba cierto rendimiento en lugar de hacer inferencias sobre un proceso desconocido. Esta es la diferencia fundamental entre ML y estadísticas.

— Tom Dietterich
fuente

15

Idealmente, uno debe tener un conocimiento profundo de estadísticas y aprendizaje automático antes de intentar responder a su pregunta. Soy muy neófito para ML, así que perdóname si digo que es ingenuo.

Tengo experiencia limitada en SVM y árboles de regresión. Lo que me parece que carece de ML desde el punto de vista de las estadísticas es un concepto de inferencia bien desarrollado.

La inferencia en ML parece reducirse casi exclusivamente a la precisión de predicción, medida por (por ejemplo) error de clasificación media (MCE) o tasa de error equilibrada (BER) o similar. ML tiene la muy buena costumbre de dividir datos aleatoriamente (generalmente 2: 1) en un conjunto de entrenamiento y un conjunto de prueba. Los modelos se ajustan utilizando el conjunto de entrenamiento y el rendimiento (MCE, BER, etc.) se evalúa utilizando el conjunto de prueba. Esta es una práctica excelente y solo se está abriendo paso lentamente en las estadísticas principales.

ML también hace un uso intensivo de los métodos de remuestreo (especialmente la validación cruzada), cuyos orígenes parecen estar en las estadísticas.

Sin embargo, ML parece carecer de un concepto de inferencia completamente desarrollado, más allá de la precisión predictiva. Esto tiene dos resultados.

1) No parece apreciarse que ninguna predicción (estimación de parámetros, etc.) esté sujeta a un error aleatorio y quizás a un error (sesgo) de la sistemática. Los estadísticos aceptarán que esta es una parte inevitable de la predicción e intentarán estimar el error. Las técnicas estadísticas intentarán encontrar una estimación que tenga un sesgo mínimo y un error aleatorio. Sus técnicas generalmente son impulsadas por un modelo del proceso de datos, pero no siempre (por ejemplo, Bootstrap).

2) No parece haber una comprensión profunda en ML de los límites de aplicar un modelo a nuevos datos a una nueva muestra de la misma población (a pesar de lo que dije anteriormente sobre el enfoque del conjunto de datos de prueba de entrenamiento). Varias técnicas estadísticas, entre ellas la validación cruzada y los términos de penalización aplicados a los métodos basados en la probabilidad, guían a los estadísticos en la compensación entre la parsimonia y la complejidad del modelo. Tales pautas en ML parecen mucho más ad hoc.

He visto varios artículos en ML donde la validación cruzada se utiliza para optimizar el ajuste de muchos modelos en un conjunto de datos de entrenamiento, produciendo mejor y mejor ajuste a medida que aumenta la complejidad del modelo. Parece poco apreciado que las pequeñas ganancias en precisión no valen la complejidad adicional y esto naturalmente conduce a un ajuste excesivo. Luego, todos estos modelos optimizados se aplican al conjunto de prueba como un control del rendimiento predictivo y para evitar el sobreajuste. Se han olvidado dos cosas (arriba). El rendimiento predictivo tendrá un componente estocástico. En segundo lugar, múltiples pruebas contra un conjunto de pruebas nuevamente resultarán en un ajuste excesivo. El "mejor" modelo será elegido por el practicante de ML sin una apreciación total que él / ella haya elegido a partir de una comprensión de muchos posibles resultados de este experimento.

Cualquiera de mis 2 centavos de valor. Tenemos mucho que aprender unos de otros.

— Thylacoleo
fuente

2

su comentario sobre El "mejor" modelo será elegido por el profesional de ML ... se aplica igualmente bien a las estadísticas generales también. Para la mayoría de los procedimientos de selección de modelos, uno simplemente condiciona el modelo final como si no se hubiera realizado una búsqueda en el espacio del modelo (dado que el promedio del modelo es bastante nuevo). Así que no creo que puedas usar eso como un "club" para vencer al practicante de ML, por así decirlo.

— chanceislogic

Como practicante de ML, no reconozco la imagen que estás pintando. La literatura de ML es casi todo sobre variaciones de regularización, MDL, Bayesian, SRM y otros enfoques para controlar la complejidad del modelo. Desde mi punto de vista, parece que los métodos de estadísticas para controlar la complejidad están menos estructurados, pero eso es parcial para usted.

— Muhammad Alkarouri

13

Esta pregunta también puede extenderse a la llamada supercultura de la ciencia de datos en 2015. El documento de David Donoho, 50 años de Data Science , donde confronta diferentes puntos de vista desde la estadística y la informática (incluido el aprendizaje automático), por ejemplo, puntos de vista directos. (de diferentes personas) de modo que:

¿Por qué necesitamos ciencia de datos cuando hemos tenido estadísticas durante siglos?
La ciencia de datos es estadística.
La ciencia de datos sin estadísticas es posible, incluso deseable.
La estadística es la parte menos importante de la ciencia de datos.

y surtido con consideraciones históricas y filosóficas, por ejemplo:

Es sorprendente cómo, cuando reviso una presentación sobre la ciencia de los datos de hoy, en la que las estadísticas se dan muy poca importancia, no puedo evitar darme cuenta de que las herramientas, ejemplos e ideas subyacentes que se enseñan como ciencia de datos fueron todos literalmente inventado por alguien entrenado en Ph.D. estadísticas, y en muchos casos el software real que se está utilizando fue desarrollado por alguien con una maestría o doctorado. en estadísticas Los esfuerzos acumulados de los estadísticos a lo largo de los siglos son demasiado abrumadores para empapelarlos por completo y no pueden ocultarse en la enseñanza, la investigación y el ejercicio de la ciencia de datos.

Este ensayo ha generado muchas respuestas y contribuciones al debate.

— Laurent Duval
fuente

3

Parece un artículo que vale la pena mencionar en este reciente hilo popular stats.stackexchange.com/questions/195034 , creo que nadie lo mencionó allí.

— ameba

1

Creo que si publicas una nueva respuesta allí resumiendo este artículo, será genial.

— ameba

Lo haré, y necesito resumir todas las respuestas dadas para mí primero

— Laurent Duval

12

Realmente no sé cuál es la diferencia conceptual / histórica entre el aprendizaje automático y la estadística, pero estoy seguro de que no es tan obvio ... y no estoy realmente interesado en saber si soy un aprendiz de máquina o un estadístico, creo 10 años después del artículo de Breiman, muchas personas son ambas ...

De todos modos, me pareció interesante la pregunta sobre la precisión predictiva de los modelos . Debemos recordar que no siempre es posible medir la precisión de un modelo y, más precisamente, a menudo estamos haciendo un modelado implícito al medir errores.

Por ejemplo, el error absoluto medio en el pronóstico de series de tiempo es una media en el tiempo y mide el rendimiento de un procedimiento para pronosticar la mediana con el supuesto de que el rendimiento es, en cierto sentido, estacionario y muestra alguna propiedad ergódica . Si (por alguna razón) necesita pronosticar la temperatura media en la tierra para los próximos 50 años y si su modelado funciona bien durante los últimos 50 años ... no significa que ...

En términos más generales, (si recuerdo, se llama no almuerzo gratis) no se puede hacer nada sin modelar ... Además, creo que la estadística está tratando de encontrar una respuesta a la pregunta: "es algo significativo o no", Esta es una pregunta muy importante en la ciencia y no se puede responder a través de un proceso de aprendizaje. Para decir John Tukey (¿era un estadístico?):

La combinación de algunos datos y un deseo doloroso de una respuesta no asegura que se pueda extraer una respuesta razonable de un cuerpo de datos dado

Espero que esto ayude !

— robin girard
fuente

12

Claramente, los dos campos claramente enfrentan problemas similares pero diferentes, de manera similar pero no idéntica con conceptos análogos pero no idénticos, y trabajan en diferentes departamentos, revistas y conferencias.

Cuando leí la estadística de divergencia de poder de Cressie y Read, todo encajó en mi lugar. Su fórmula generaliza las estadísticas de prueba de uso común en una que varía en un exponente, lambda. Hay dos casos especiales, lambda = 0 y lambda = 1.

La informática y las estadísticas se ajustan a un continuo (que presumiblemente podría incluir otros puntos). En un valor de lambda, obtienes estadísticas comúnmente citadas en círculos de Estadísticas, y en el otro obtienes estadísticas comúnmente citadas en círculos de Comp Sci.

Estadística

Lambda = 1
Las sumas de cuadrados aparecen mucho
La varianza como medida de variabilidad
La covarianza como medida de asociación
Estadística chi-cuadrado como medida de ajuste del modelo

Ciencias de la Computación:

Lambda = 0
Las sumas de registros aparecen mucho
La entropía como medida de variabilidad
Información mutua como medida de asociación.
Estadística G-cuadrado como medida de ajuste del modelo

— usuario645715
fuente

9

Ejecuta un algoritmo informático elegante una vez, y obtiene una presentación de conferencia CS / documento de estadísticas (¡guau, qué convergencia rápida!). Lo comercializas y lo ejecutas 1 millón de veces, y te quedas en bancarrota (¿por qué obtengo resultados inútiles e irreproducibles todo el tiempo?) A menos que sepas cómo emplear la probabilidad y las estadísticas para generalizar las propiedades del algoritmo.

— StasK
fuente

3

He rechazado esta respuesta. Aunque con una pregunta como esta implicará inevitablemente algunas opiniones personales, en mi opinión, debemos luchar por una crítica más sustantiva. Esto simplemente sale como una queja.

— Andy W

@AndyW, esto es, por supuesto, una exageración de lo que veo a mi alrededor. El hecho de no pensar con anticipación estadísticamente también es cierto en el mundo académico: la replicabilidad de los resultados publicados en psicología o ciencias médicas es como máximo del 25% (ver, por ejemplo, simplemente estadísticas.tumblr.com / post / 21326470429/… ) en lugar del nominal 95% El OP quería que las estadísticas abarcaran la informática; tal vez la informática debería abarcar algunas estadísticas, y di las razones por las cuales.

— StasK

55

@StasK Creo que haces algunos puntos importantes, ¿por qué no intentas hacerlos un poco menos agresivos?

— Gala

2

Disfruté esta respuesta concisa.

— Ian Warburton

6

Hay un área de aplicación de estadísticas donde el enfoque en el modelo de generación de datos tiene mucho sentido. En experimentos diseñados, por ejemplo, estudios en animales, ensayos clínicos, DOE industriales, los estadísticos pueden tener una mano en lo que es el modelo de generación de datos. ML tiende a no pasar mucho tiempo en este problema tan importante ya que ML generalmente se enfoca en otro problema muy importante de predicción basado en datos de observación "grandes". Esto no quiere decir que ML no se pueda aplicar a experimentos diseñados "grandes", pero es importante reconocer que las estadísticas tienen experiencia particular en problemas de datos "pequeños" que surgen de experimentos con recursos limitados.

Al final del día, creo que todos podemos estar de acuerdo en usar lo que funcione mejor para resolver el problema en cuestión. Por ejemplo, podemos tener un experimento diseñado que produce datos muy amplios con el objetivo de predicción. Los principios de diseño estadístico son muy útiles aquí y los métodos de ML podrían ser útiles para construir el predictor.

— Clark
fuente

4

Creo que el aprendizaje automático debe ser una sub-rama bajo estadísticas, al igual que, en mi opinión, la química debe ser una sub-rama bajo física.

Creo que la visión de la química inspirada en la física es bastante sólida (supongo). No creo que haya ninguna reacción química cuyo equivalente no se conozca en términos físicos. Creo que la física ha hecho un trabajo increíble al explicar todo lo que podemos ver a nivel químico. Ahora el desafío de los físicos parece estar explicando los pequeños misterios a nivel cuántico, en condiciones extremas que no son observables.

Ahora de vuelta al aprendizaje automático. Creo que también debería ser una sub-rama bajo estadísticas (como la química es una sub-rama de la física).

Pero me parece que, de alguna manera, el estado actual del aprendizaje automático o las estadísticas no es lo suficientemente maduro como para darse cuenta perfectamente de esto. Pero a la larga, creo que uno debe convertirse en una sub-rama del otro. Creo que es ML el que se pondrá por debajo de las estadísticas.

Personalmente, creo que "aprender" y "analizar muestras" para estimar / inferir funciones o predicciones son esencialmente una cuestión de estadística.

— hombre de las cavernas
fuente

3

¿Deberían la biología, la psicología y la sociología ser también "subramas" de la física?

— ameba

Correcto. La psicología es solo entrada / salida que involucra máquinas biológicas muy complicadas. Es posible que algún día tengamos que enviar nuestros autos a un psicólogo para diagnosticar sus errores (el psicólogo mismo podría ser una computadora).

— hombre de las cavernas

1

Me parece que las matemáticas son el padre de todos. A partir de ahí, hemos aplicado las matemáticas, de donde provienen la física y otras cosas. La estadística es una de esas. Creo que ML no necesita ser una rama por sí sola y, en cambio, integrarse en las estadísticas. Pero si ML se convierte en una rama propia, prefiero que sea una rama secundaria / secundaria de estadísticas.

— hombre de las cavernas

4

Del curso Coursera "Ciencia de datos en la vida real" de Brian Caffo

Aprendizaje automático

Enfatice las predicciones
Evalúa resultados a través del rendimiento de predicción
Preocupación por el sobreajuste pero no por la complejidad del modelo per se
Énfasis en el rendimiento.
La generalización se obtiene a través del rendimiento en conjuntos de datos novedosos
Por lo general, no se especificó ningún modelo de superpoblación
Preocupación por el rendimiento y la robustez.

Análisis estadístico tradicional

Destaca la inferencia de superpoblación
Se enfoca en hipótesis a priori
Se prefieren modelos más simples que los complejos (parsimonia), incluso si los modelos más complejos funcionan ligeramente mejor
Énfasis en la interpretación de los parámetros.
Los supuestos de modelado estadístico o muestreo conectan los datos a una población de interés
Preocupación por suposiciones y robustez

— KoenBal
fuente

-5

Como informático, siempre estoy intrigado cuando busco enfoques estadísticos. ¡Para mí muchas veces parece que los modelos estadísticos utilizados en el análisis estadístico son demasiado complejos para los datos en muchas situaciones!

Por ejemplo, existe un fuerte vínculo entre la compresión de datos y las estadísticas. Básicamente, se necesita un buen modelo estadístico que sea capaz de predecir bien los datos y esto trae una muy buena compresión de los datos. En informática, cuando se comprimen los datos, la complejidad del modelo estadístico y la precisión de la predicción son siempre muy importantes. ¡Nadie quiere tener NUNCA un archivo de datos (que contenga datos de sonido o datos de imagen o datos de video) que se haga más grande después de la compresión!

Encuentro que hay cosas más dinámicas en informática con respecto a las estadísticas, como por ejemplo Longitud mínima de descripción y Probabilidad máxima normalizada .

— cerb
fuente