Me gustaría agregar una tercera razón a las razones correctas dadas por Harrell y Flom. La razón es que usamos la distancia euclidiana (o L2) y no la distancia de Manhattan (o L1) como nuestra medida estándar de cercanía o error. Si uno tiene un número de puntos de datos quiere un solo número θ para estimarlo, una noción obvia es encontrar el número que minimiza el 'error', ese número crea la menor diferencia entre el número elegido y Los números que constituyen los datos. En notación matemática, para una función de error dada E, uno quiere encontrar m i n θ ∈ R ( E ( θ ,x1,…xnθ . Si se toma para E (x, y) la norma o distancia L2, es decir E ( x , y ) = ( x - y ) 2, entonces el minimizador sobre todo θ ∈ R es la media. Si uno toma la distancia L1 o Manhattan, el minimizador sobre todominθ∈R(E(θ,x1,…xn)=minθ∈R(∑i=ni=1E(θ,xi))E(x,y)=(x−y)2θ∈R es la mediana. Por lo tanto, la media es la elección matemática natural, ¡si se usa la distancia L2!θ∈R