Las respuestas de Robert y Bey dan parte de la historia (es decir, los momentos tienden a considerarse como propiedades básicas de las distribuciones, y la desviación estándar convencional se define en términos del segundo momento central y no al revés), pero la medida en que esos las cosas son realmente fundamentales depende en parte de lo que entendemos por el término.
No habría ningún problema insuperable, por ejemplo, si nuestras convenciones fueran al revés: no hay nada que nos impida definir convencionalmente alguna otra secuencia de cantidades en lugar de los momentos habituales, digamos parap=1,2,3,. . . (tenga en cuenta queμE[(X−μ)p]1/pp=1,2,3,...μencaja tanto en la secuencia de momentos como en este como el primer término) y luego define los momentos, y toda clase de cálculos en relación con los momentos, en términos de ellos. Tenga en cuenta que todas estas cantidades se miden en las unidades originales, lo cual es una ventaja sobre los momentos (que están en la potencia -ésima de las unidades originales y, por lo tanto, son más difíciles de interpretar). Esto haría que la desviación estándar de la población sea la cantidad y la varianza definidas definidas en términos de la misma.p
Sin embargo, haría que las cantidades como la función de generación de momentos (o algún equivalente relacionado con las nuevas cantidades definidas anteriormente) sean bastante menos "naturales", lo que haría las cosas un poco más incómodas (pero algunas convenciones son un poco así). Hay algunas propiedades convenientes del MGF que no serían tan convenientes para el otro lado.
Más básico, en mi opinión (pero relacionado con él), es que hay una serie de propiedades básicas de varianza que son más convenientes cuando se escriben como propiedades de varianza que cuando se escriben como propiedades de desviación estándar (por ejemplo, la varianza de sumas de variables aleatorias es la suma de las variaciones).
Esta aditividad es una propiedad que no comparten otras medidas de dispersión y tiene una serie de consecuencias importantes.
[Hay relaciones similares entre los otros acumulantes, así que esto es un sentido en el que podríamos querer definir las cosas en relación con los momentos de manera más general.]
Podría decirse que todas estas razones son convenciones o conveniencia, pero hasta cierto punto es una cuestión de punto de vista (por ejemplo, desde algunos puntos de vista, los momentos son cantidades bastante importantes, desde otros no son tan importantes). Puede ser que el bit "a un nivel profundo" no signifique nada más que el de kjetil "al desarrollar la teoría".
Estoy de acuerdo con el punto de kjetil que planteaste en tu pregunta; Hasta cierto punto, esta respuesta es simplemente una discusión ondulada a mano.