Tengo curiosidad sobre la naturaleza de . ¿Alguien puede decir algo intuitivo sobre "¿Qué dice sobre los datos?"
Editar:
Gracias por las respuestas
Después de tomar algunos cursos excelentes, me gustaría agregar algunos puntos:
- Es una medida de la información, es decir, es la cantidad de información a lo largo de la dirección .
- Dualidad: dado que es positivo definido, también lo es , por lo que son normas de productos de punto, más precisamente son normas duales entre sí, por lo que podemos derivar Fenchel dual para el problema de mínimos cuadrados regularizados y hacer maximización wrt dual problema. Podemos elegir cualquiera de ellos, dependiendo de su condicionamiento.
- Espacio de Hilbert: las columnas (y filas) de y abarcan el mismo espacio. Por lo tanto, no hay ninguna ventaja (aparte de que cuando una de estas matrices está mal acondicionada) entre la representación con o
- Estadísticas frecuentes: está estrechamente relacionada con la información de Fisher, utilizando el límite Cramér-Rao. De hecho, la matriz de información del pescador (producto externo del gradiente de log-verosimilitud consigo mismo) está unida a Cramér-Rao, es decir, (cono positivo semi-definido positivo, concentración iewrt positiva elipsoides). Entonces, cuando \ Sigma ^ {- 1} = \ mathcal {F} el estimador de máxima verosimilitud es eficiente, es decir, existe información máxima en los datos, por lo que el régimen frecuentista es óptimo. En palabras más simples, para algunas funciones de probabilidad (tenga en cuenta que la forma funcional de la probabilidad depende únicamente del modelo probabilístico que supuestamente generó datos, también conocido como modelo generativo), la probabilidad máxima es un estimador eficiente y consistente, reglas como un jefe. (perdón por matarlo demasiado)