La mayoría de los procedimientos de estimación implican encontrar parámetros que minimizan (o maximizan) alguna función objetivo. Por ejemplo, con OLS, minimizamos la suma de los residuos al cuadrado. Con la Estimación de máxima verosimilitud, maximizamos la función de verosimilitud de registro. La diferencia es trivial: la minimización se puede convertir en maximización mediante el uso negativo de la función objetivo.
A veces este problema puede resolverse algebraicamente, produciendo una solución de forma cerrada. Con OLS, resuelve el sistema de condiciones de primer orden y obtiene la fórmula familiar (aunque probablemente todavía necesite una computadora para evaluar la respuesta). En otros casos, esto no es matemáticamente posible y necesita buscar valores de parámetros usando una computadora. En este caso, la computadora y el algoritmo juegan un papel más importante. Mínimos cuadrados no lineales es un ejemplo. No obtienes una fórmula explícita; todo lo que obtienes es una receta que necesitas que la computadora implemente. La receta puede comenzar con una conjetura inicial de cuáles pueden ser los parámetros y cómo pueden variar. Luego prueba varias combinaciones de parámetros y ve cuál le da el valor de función objetivo más bajo / más alto. Este es el enfoque de la fuerza bruta y lleva mucho tiempo. Por ejemplo,105 combinaciones, y eso simplemente te pone en el vecindario de la respuesta correcta si tienes suerte. Este enfoque se llama búsqueda de cuadrícula.
O puede comenzar con una suposición y refinar esa suposición en alguna dirección hasta que las mejoras en la función objetivo sean menores que algún valor. Por lo general, se denominan métodos de gradiente (aunque hay otros que no utilizan el gradiente para elegir en qué dirección ir, como los algoritmos genéticos y el recocido simulado). Algunos problemas como este garantizan que encuentre la respuesta correcta rápidamente (funciones objetivo cuadráticas). Otros no dan tal garantía. Es posible que le preocupe que se haya quedado atascado en un óptimo local, en lugar de uno global, por lo que intenta una serie de conjeturas iniciales. Puede encontrar que parámetros completamente diferentes le dan el mismo valor de la función objetivo, por lo que no sabe qué conjunto elegir.
Aquí hay una buena manera de obtener la intuición. Suponga que tiene un modelo de regresión exponencial simple donde el único regresor es la intersección:
E[y]=exp{α}
La función objetivo es
QN(α)=−12N∑iN(yi−exp{α})2
Con este simple problema, ambos enfoques son factibles. La solución de forma cerrada que obtienes tomando la derivada es . También puede verificar que cualquier otra cosa le proporcione un valor más alto de la función objetivo enchufando lugar. Si tuvo algunos regresores, la solución analítica desaparece. ln ( ˉ y + k )α∗=lny¯ln(y¯+k)