¿Es una experiencia sólida en matemáticas un requisito total para el aprendizaje automático? - una respuesta y algunas especulaciones para ML conceptualizadas como estadísticas ;-)
Alrededor de 1990 tenía esperanzas de que el álgebra computacional fuera de ayuda, creo que lo es, pero es bastante limitado. Pero ciertamente ayuda a acelerar el aprendizaje de las matemáticas (menos necesidad de desarrollar habilidades de manipulación mediante la práctica o tratar de salir adelante con solo poder hacer los ejercicios simples). El Álgebra lineal de Fred Szabo con Mathematica me pareció un excelente ejemplo de esto (pero ya había tomado un curso de álgebra lineal de nivel teórico avanzado).
I have been working since 1988 (Utilizing Computer Intensive Methods to "Concretize" Theorems and Principles from Statistics – Precisely) to make the answer no or at least not necessary (for statistics). One will always be able to understand more quickly and more generally with additional mathematical skill and understanding. I think I am starting to get close, but one needs a manipulate-able representation of probability generating models and inference that is valid and useful for more than just toy problems.
Should I try and fill in the blanks of my maths before continuing with ML?
That’s a hard endeavour – in MHO almost everyone who understands statistics got there by being very comfortable manipulating the standard and especially not so standard mathematical representations of probability generating models and mathematical characterizations of inference (the top x% of mathematical statistics Phds). So it’s not just getting the basics but being real comfortable with the math. (As an aside, for me Fourier Theory was essential.)
¿Por qué son difíciles estas representaciones (incluso con muchas matemáticas)?
Gerd Gigerenzer ha establecido más o menos que no hay desafío con la enfermedad simple positiva / negativa dada la prueba de problema positivo / negativo usando _ frecuencias naturales ". Una referencia de la pregunta vinculada parece hacer un buen uso de ese http://www.autonlab.org/tutorials/prob18.pdf
¿Por qué es difícil de generalizar?
Para k pruebas (repetidas y / o diferentes) - 2 ^ k
Para pruebas que toman valores v - v ^ k
Entonces, para binario desconocido - 2 * v ^ k probabilidades de ruta de muestra
Para p incógnitas binarias múltiples 2 ^ p * v ^ k
Para p múltiples incógnitas racionales Q ^ p * v ^ k
Uno se mueve rápidamente hacia las matemáticas con infinitos contables e incontables para hacer frente a esto, lo que incluso con experiencia matemática conduce a muchos malentendidos y aparentes paradojas (por ejemplo, ¿la paradoja de Borel?)
Additionally there is linear to non-linear hazardous misunderstandings (e.g. Hidden Dangers of Specifying Noninformative Priors Winbugs and other MCMC without information for prior distribution ) and interactions and random effects, etc.