¿Por qué son importantes las distribuciones?

Esto podría ser como las preguntas más tontas que se hayan hecho en este foro, pero habiendo recibido respuestas sólidas y significativas a una pregunta anterior, pensé que volvería a estirar mi suerte.

He estado muy confundido durante algún tiempo sobre la importancia de las distribuciones estadísticas, especialmente en lo que respecta a los rendimientos de los activos e incluso más específicamente en la asignación de activos.

Mi pregunta para ser específica es esta: supongamos que tengo 20 años de datos de devoluciones mensuales de S&P 500, ¿por qué debería tener que asumir un cierto tipo de distribución (es decir, vuelo Normal / Johnson / Levy, etc.) para mi decisión de asignación de activos cuando puedo simplemente ¿solo tomo mis decisiones de asignación de activos en función de los datos históricos que tengo conmigo?

distributions

— Línea de sangre
fuente

recuerde que si encontró útiles las respuestas a su pregunta anterior, puede marcarlas como 'aceptadas' haciendo clic en la casilla de verificación junto a la respuesta. Esto permite que otros sepan que su pregunta está resuelta.

— Jeff

De hecho, hay una publicación reciente de JDCook sobre ese tema. Para resumir su relevancia para su pregunta, citaré el primer párrafo "Cuando los estadísticos analizan datos, no solo miran los datos que les brindan. También consideran datos hipotéticos que podrían haber traído. En otras palabras , consideran lo que pudo haber sucedido y lo que realmente sucedió ".

— usuario603

Creo que Taleb tenía algo convincente que decir sobre los problemas con la toma de decisiones únicamente a partir de datos históricos :-). (Los datos históricos por lo general no revelan directamente los eventos raros pero posiblemente fatales "cisne negro" hasta que sea demasiado tarde.)

— whuber

... como la mayoría de los pavos se darán cuenta en un par de semanas.

— Ryogi

Para ampliar el punto de @ user603: desea hacer inferencias fuera de su muestra. En particular, el punto de su asignación de activos se relaciona con el comportamiento futuro , no con el comportamiento pasado. Esto incluye, por ejemplo, cómo se comportan las cosas en la cola, donde tiene pocas observaciones. Puede aportar conocimientos / comprensión / sesgos adicionales sobre el proceso a través de supuestos de distribución. Si estas suposiciones están cerca de la derecha, puede agregar mucha información.

— Glen_b -Reinstala Monica el

El uso de una distribución supuesta (es decir, análisis paramétrico) reducirá el costo computacional de su método. Supongo que le gustaría realizar una tarea de regresión o clasificación. Esto significa que en algún momento va a estimar la distribución de algunos datos. Los métodos no paramétricos son útiles cuando los datos no se ajustan a una distribución bien estudiada, pero generalmente requieren más tiempo para calcular o más memoria para almacenar.

Además, si los datos son generados por un proceso que se ajusta a una distribución, ya que son un promedio de algunos procesos aleatorios uniformes, entonces usar esa distribución tiene más sentido. En el caso de promediar un conjunto de variables uniformes, la distribución correcta es probablemente la Distribución Gaussiana.

— James
fuente

Complementando la respuesta de James : los modelos paramétricos también (generalmente) requieren menos muestras para tener un buen ajuste: esto puede aumentar su poder de generalización: es decir, pueden predecir mejor los nuevos datos, incluso estar equivocados. Por supuesto, esto depende de la situación, los modelos y los tamaños de muestra.

— Locura
fuente