La impresión que obtuve, en base a varios documentos, libros y artículos que he leído, es que la forma recomendada de ajustar una distribución de probabilidad en un conjunto de datos es mediante el uso de la estimación de máxima verosimilitud (MLE). Sin embargo, como físico, una forma más intuitiva es ajustar el pdf del modelo al pdf empírico de los datos utilizando mínimos cuadrados. ¿Por qué entonces MLE es mejor que los mínimos cuadrados en las distribuciones de probabilidad de ajuste? ¿Podría alguien señalarme un artículo / libro científico que responda a esta pregunta?
Mi presentimiento es porque MLE no asume un modelo de ruido y el "ruido" en el pdf empírico es heterocedástico y no es normal.