Cuando leemos un libro, entender las anotaciones juega un papel muy importante para comprender los contenidos. Desafortunadamente, diferentes comunidades tienen diferentes convenciones de notación para la formulación del modelo y el problema de optimización. ¿Podría alguien resumir algunas anotaciones de formulación aquí y proporcionar posibles razones?
Daré un ejemplo aquí: en la literatura de álgebra lineal, el libro clásico es la introducción de Strang al álgebra lineal . La notación más utilizada en el libro es
Donde es una matriz de coeficientes , son las variables a resolver y es un vector en el lado derecho de la ecuación . La razón por la cual el libro elige esta notación es el objetivo principal del álgebra lineal es resolver un sistema lineal y descubrir qué es el vector . Dada tal formulación, el problema de optimización de OLS es
En estadística o alfabetización de aprendizaje automático (del libro Elementos de aprendizaje estadístico ) las personas usan notación diferente para representar lo mismo:
Donde es la matriz de datos , son los coeficientes o pesos para aprender aprendiendo , es la respuesta. La razón por la que las personas usan esto es porque las personas en las estadísticas o en la comunidad de aprendizaje automático se basan en datos , por lo que los datos y la respuesta son lo más interesante para ellos, donde usan e para representar.
Ahora podemos ver que toda la posible confusión puede estar ahí: en la primera ecuación es igual a en la segunda ecuación. Y en la segunda ecuación, no es algo que deba resolverse. También para los términos: es la matriz de coeficientes en álgebra lineal, pero son datos en estadística. también se llama "coeficientes".
Además, mencioné que no es exactamente lo que la gente usa ampliamente en el aprendizaje automático, la gente usa una versión medio vectorizada que resume todos los puntos de datos. Como
Creo que la razón de esto es que es bueno cuando se habla del descenso de gradiente estocástico y otras funciones de pérdida diferentes. Además, la notación de matriz concisa desaparece por otros problemas además de la regresión lineal.
Notación matricial para regresión logística
¿Alguien podría dar más resúmenes sobre las notaciones que cruzan la literatura diferente? Espero que las respuestas inteligentes a esta pregunta puedan usarse como una buena referencia para las personas que leen libros que cruzan literatura diferente.
por favor no estar limitado por mi ejemplo y . Hay muchos otros ComoX β = y
¿Por qué hay dos formulaciones / anotaciones de pérdida logística diferentes?