Bayesiano: "¡Hola, aprendiz de máquina!"
Frecuente: "¡Hola, aprendiz de máquina!"
Aprendizaje automático: "Escuché que ustedes son buenos en las cosas. Aquí hay algunos datos".
F: "Sí, escriba un modelo y luego calculemos el MLE".
B: "¡Hey, F, eso no es lo que me dijiste ayer! Tenía algunos datos univariados y quería estimar la varianza, y calculé el MLE. Luego me atacaste y me dijiste que dividiera por lugar de pornn−1n ".
F: "Ah, sí, gracias por recordármelo. A menudo pienso que se supone que debo usar el MLE para todo, pero estoy interesado en estimadores imparciales y así sucesivamente".
ML: "Eh, ¿de qué se trata esta filosofía? ¿Me ayudará?"
F: "OK, un estimador es un recuadro negro, ingresas datos y te da algunos números. A los frecuentadores no nos importa cómo se construyó el recuadro, qué principios se usaron para diseñarlo. Por ejemplo, yo no sé cómo derivar la regla ".÷(n−1)
ML: "Entonces, ¿qué te importa?"
F: "Evaluación".
ML: "Me gusta cómo suena eso".
F: "Una caja negra es una caja negra. Si alguien afirma que un estimador particular es un estimador imparcial para , entonces intentamos muchos valores de a su vez, generamos muchas muestras de cada uno de ellos según un modelo asumido, empujándolos el estimador, y encuentre el promedio estimado . Si podemos demostrar que la estimación esperada es igual al valor verdadero, para todos los valores, entonces decimos que es imparcial ".θ θθθθ
ML: "¡Suena genial! Parece que los frecuentadores son personas pragmáticas. Usted juzga cada caja negra por sus resultados. La evaluación es clave".
F: "¡De hecho! Entiendo que ustedes tienen un enfoque similar. ¿Validación cruzada, o algo así? Pero eso me parece desordenado".
ML: "¿Desordenado?"
F: "La idea de probar su estimador con datos reales me parece peligrosa. Los datos empíricos que usa podrían tener todo tipo de problemas y podrían no comportarse de acuerdo con el modelo que acordamos para la evaluación".
ML: "¿Qué? ¿Creí que dijiste que habías probado algunos resultados? Que tu estimador siempre sería imparcial, para todo ".θ
F: "Sí. Si bien su método podría haber funcionado en un conjunto de datos (el conjunto de datos con el tren y los datos de prueba) que utilizó en su evaluación, puedo demostrar que el mío siempre funcionará".
ML: "¿Para todos los conjuntos de datos?"
F: "No."
ML: "Entonces mi método ha sido validado en un conjunto de datos. ¿No ha probado el suyo en ningún conjunto de datos real?"
F: "Eso es correcto".
ML: "¡Eso me pone a la cabeza entonces! Mi método es mejor que el suyo. Predice el cáncer el 90% del tiempo. Su 'prueba' solo es válida si todo el conjunto de datos se comporta de acuerdo con el modelo que usted asumió".
F: "Emm, sí, supongo".
ML: "Y ese intervalo tiene una cobertura del 95% . ¿Pero no debería sorprenderme si solo contiene el valor correcto de 20% del tiempo?"θ
F: "Eso es correcto. A menos que los datos estén realmente en Normal (o lo que sea), mi prueba es inútil".
ML: "¿Entonces mi evaluación es más confiable y completa? Solo funciona en los conjuntos de datos que he probado hasta ahora, pero al menos son conjuntos de datos reales, verrugas y todo. Ahí estaba, tratando de decir que era más 'conservador 'y' exhaustivo 'y que estaba interesado en la verificación de modelos y otras cosas ".
B: (interrumpe) "Hola chicos, perdón por interrumpir. Me encantaría intervenir y equilibrar las cosas, tal vez demostrando algunos otros problemas, pero realmente me encanta ver cómo mi colega frecuenta se retuerce".
F: "¡Woah!"
ML: "OK, niños. Se trataba de una evaluación. Un estimador es un recuadro negro. Los datos entran, salen datos. Aprobamos o desaprobamos un estimador basado en cómo funciona bajo evaluación. No nos importa sobre la 'receta' o 'principios de diseño' que se utilizan ".
F: "Sí. Pero tenemos ideas muy diferentes sobre qué evaluaciones son importantes. ML realizará un entrenamiento y prueba sobre datos reales. Mientras que haré una evaluación que es más general (porque implica una prueba ampliamente aplicable) y también más limitado (porque no sé si su conjunto de datos se extrae realmente de los supuestos de modelado que uso al diseñar mi evaluación) ".
ML: "¿Qué evaluación usas, B?"
F: (interrumpe) "Oye. No me hagas reír. No evalúa nada. Simplemente usa sus creencias subjetivas y corre con ellas. O algo así".
B: "Esa es la interpretación común. Pero también es posible definir el bayesianismo por las evaluaciones preferidas. Entonces podemos usar la idea de que a ninguno de nosotros nos importa lo que está en el recuadro negro, solo nos interesan las diferentes formas de evaluar".
B continúa: "Ejemplo clásico: examen médico. El resultado del análisis de sangre es Positivo o Negativo. A un frecuentador le interesará, de las personas sanas, qué proporción obtiene un resultado negativo. Y de manera similar, qué proporción de personas enfermas tendrá obtenga un Positivo. El frecuentista calculará estos para cada método de análisis de sangre que se esté considerando y luego recomendará que usemos el examen que obtuvo el mejor par de puntajes ".
F: "Exactamente. ¿Qué más podrías querer?"
B: "¿Qué pasa con las personas que obtuvieron un resultado positivo en la prueba? Querrán saber 'de aquellos que obtienen un resultado positivo, ¿cuántos se enfermarán?' y 'de aquellos que obtienen un resultado negativo, ¿cuántos son saludables?' "
ML: "Ah, sí, parece un mejor par de preguntas".
F: "¡HERESIA!"
B: "Aquí vamos de nuevo. No le gusta a dónde va esto".
ML: "Se trata de 'priors', ¿no?"
F: "MAL".
B: "De todos modos, sí, tienes razón ML. Para calcular la proporción de personas con resultados positivos que están enfermos, debes hacer una de dos cosas. Una opción es ejecutar las pruebas en muchas personas y simplemente observar proporciones relevantes. Cuántas de esas personas mueren de la enfermedad, por ejemplo ".
ML: "Eso suena como lo que hago. Usa entrenar y probar".
B: "Pero puede calcular estos números por adelantado, si está dispuesto a hacer una suposición sobre la tasa de Enfermedad en la población. El frecuentista también hace sus cálculos por adelantado, pero sin usar esta tasa de Enfermedad a nivel de población".
F: "MÁS SUPUESTOS INFUNDADOS".
B: "Oh, cállate. Anteriormente, te descubrieron. ML descubrió que eres tan aficionado a las suposiciones infundadas como cualquiera. Tus probabilidades de cobertura" probadas "no se acumularán en el mundo real a menos que todas tus suposiciones sean válidas. ¿Por qué mi suposición anterior es tan diferente? Me llamas loco, pero finges que tus suposiciones son el trabajo de un análisis conservador, sólido y libre de suposiciones ".
B (continúa): "De todos modos, ML, como decía. A los bayesianos les gusta un tipo diferente de evaluación. Estamos más interesados en condicionar los datos observados y calcular la precisión de nuestro estimador en consecuencia. No podemos realizar esta evaluación sin usar un prior. Pero lo interesante es que, una vez que decidimos sobre esta forma de evaluación, y una vez que elegimos nuestro prior, tenemos una 'receta' automática para crear un estimador apropiado. El frecuentista no tiene tal receta. Si quiere un estimador imparcial para un modelo complejo, no tiene ninguna forma automatizada de construir un estimador adecuado ".
ML: "¿Y tú? ¿Puedes construir automáticamente un estimador?"
B: "Sí. No tengo una forma automática de crear un estimador imparcial, porque creo que el sesgo es una mala forma de evaluar un estimador. Pero dada la estimación condicional en los datos que me gusta, y la anterior, yo puede conectar el previo y la probabilidad de darme el estimador ".
ML: "De todos modos, vamos a recapitular. Todos tenemos diferentes maneras de evaluar nuestros métodos, y probablemente nunca estaremos de acuerdo sobre cuáles son los mejores".
B: "Bueno, eso no es justo. Podríamos mezclarlos y combinarlos. Si alguno de nosotros tiene buenos datos de entrenamiento etiquetados, probablemente deberíamos probarlo. Y en general todos deberíamos probar tantas suposiciones como podamos. Y algunos 'frecuentas 'las pruebas también pueden ser divertidas, prediciendo el rendimiento bajo un supuesto modelo de generación de datos ".
F: "Sí, muchachos. Seamos pragmáticos acerca de la evaluación. Y, de hecho, dejaré de obsesionarme con las propiedades de muestras infinitas. Les he estado pidiendo a los científicos que me den una muestra infinita, pero aún no lo han hecho. Es tiempo para concentrarme nuevamente en muestras finitas ".
ML: "Entonces, solo tenemos una última pregunta. Hemos discutido mucho sobre cómo evaluar nuestros métodos, pero cómo los creamos ".
B: "Ah. Como me refería antes, los bayesianos tenemos el método general más poderoso. Puede ser complicado, pero siempre podemos escribir algún tipo de algoritmo (tal vez una forma ingenua de MCMC) que muestreará desde nuestra parte posterior. "
F (interjecciones): "Pero podría tener sesgo".
B: "También podrían sus métodos. ¿Necesito recordarle que el MLE a menudo está sesgado? A veces, tiene grandes dificultades para encontrar estimadores imparciales, e incluso cuando tiene un estimador estúpido (para algún modelo realmente complejo) que dirá el la varianza es negativa. Y a eso lo llamas imparcial. Sí, imparcial, pero útil, ¡no! "
ML: "Está bien chicos. Están despotricando de nuevo. Permítanme hacerles una pregunta, F. ¿Alguna vez han comparado el sesgo de su método con el sesgo del método de B, cuando ambos trabajaron en el mismo problema?"
F: "Sí. De hecho, odio admitirlo, ¡pero el enfoque de B a veces tiene un sesgo y un MSE más bajos que mi estimador!"
ML: "La lección aquí es que, aunque no estamos de acuerdo con la evaluación, ninguno de nosotros tiene el monopolio de cómo crear un estimador que tenga las propiedades que queremos".
B: "Sí, deberíamos leer el trabajo del otro un poco más. Podemos inspirarnos mutuamente para los estimadores. Podríamos encontrar que los estimadores de otros funcionan muy bien, de forma inmediata, en nuestros propios problemas".
F: "Y debería dejar de obsesionarme por el sesgo. Un estimador imparcial podría tener una variación ridícula. Supongo que todos tenemos que" responsabilizarnos "de las elecciones que hacemos en la forma en que evaluamos y las propiedades que deseamos ver en nuestros estimadores. No podemos respaldar una filosofía. Pruebe todas las evaluaciones que pueda. ¡Y seguiré echando un vistazo a la literatura bayesiana para obtener nuevas ideas para los estimadores! "
B: "De hecho, mucha gente realmente no sabe cuál es su propia filosofía. Ni siquiera estoy seguro de mí mismo. Si uso una receta bayesiana y luego pruebo algún resultado teórico agradable, eso no significa que yo ¿Soy un frecuentador? A un frecuentador le importan las pruebas anteriores sobre el rendimiento, no le importan las recetas. Y si hago algo de entrenamiento y prueba (o también), ¿eso significa que soy un aprendiz de máquina? "
ML: "Parece que todos somos bastante similares entonces".