¿Es mejor seleccionar distribuciones basadas en teoría, ajuste u otra cosa?

Esto está al borde de una pregunta filosófica, pero estoy interesado en cómo piensan otros con más experiencia sobre la selección de distribución. En algunos casos parece claro que la teoría podría funcionar mejor (las longitudes de la cola de los ratones probablemente se distribuyen normalmente). En muchos casos, probablemente no exista una teoría para describir un conjunto de datos, por lo que simplemente usa algo que se ajusta bastante bien a lo que tiene, independientemente de lo que se desarrolló originalmente para describir. Puedo imaginar algunas de las trampas de ir con uno u otro de estos, y luego, por supuesto, parece haber el problema de que tal vez deberías usar una distribución empírica si realmente no tienes idea.

Entonces, supongo lo que realmente estoy preguntando: ¿alguien tiene una forma coherente de abordar / pensar sobre este problema? ¿Y hay algún recurso que pueda sugerir que le dé un buen tratamiento?

distributions overfitting heuristic

— HFBrowning
fuente

Depende fundamentalmente de por qué uno está ajustando o asumiendo una distribución y lo que se pretende representar. Respondemos muchas preguntas en este sitio donde parece que las personas sienten que tienen que ajustar una distribución a datos o cantidades derivadas (como residuos de regresión) cuando, de hecho, el ejercicio no tiene sentido (o peor, engañoso) en cuanto a resolver los problemas estadísticos que realmente tener está preocupado. ¿Podría quizás aclarar los tipos de casos que tiene en mente?

— whuber

Hola Whuber, gracias por el comentario. Desde que comencé a trabajar un poco en la evaluación probabilística de riesgos, se me exige que ajuste todos mis datos a las distribuciones y me dio curiosidad tener una visión más consistente sobre cómo se realiza la selección de distribución. Así que supongo que para aclarar, solo estoy realmente interesado en los momentos en que debería usar una distribución y cómo hacerlo correctamente. Como dije, algunos casos han sido fáciles desde la teoría, otras veces estoy usando una distribución empírica porque parece lo mejor, pero mi toma de decisiones es más casual de lo que quisiera.

— HFBrowning

Esa es una lata interesante de gusanos, porque lo que realmente estás haciendo (algo abstracto) es tratar de propagar la incertidumbre del muestreo a través de un cálculo. La razón para mirar el procedimiento desde este alto nivel es que revela un error fundamental que a menudo se comete: al reemplazar los datos por distribuciones, uno no incluye la incertidumbre en los parámetros de distribución estimados. A algunos profesionales les llama PRA "de segundo orden". Me gustaría sugerirle que limite su pregunta para centrarse en estos temas en lugar de preguntar sobre el ajuste de distribución en general.

— whuber

El paquete que estoy usando para mi PRA es un monte carlo de segundo orden ( paquete mc2d en R), por lo que estoy asignando mis distribuciones como "incertidumbre", "variabilidad" o ambas. Así que espero poder explicar ese problema lo más que pueda. Sin embargo, mi intención original para esta pregunta era obtener una visión de nivel superior, y mencioné la evaluación de riesgos simplemente para dar contexto de por qué estoy interesado. Y tal vez no hay mejor manera que "a veces se hace esto, a veces lo haces de esa manera" pero yo estaba esperando que alguien tenía sugerencias :) Sobre todo porque no puedo determinar fácilmente cuándo podría ser mejor -

— HFBrowning

Este es definitivamente el lugar correcto para tu publicación. ¿Estás diciendo que tienes problemas para hacer las ediciones? Por cierto, tengo curiosidad acerca de cómo sus procedimientos cuantifican la incertidumbre en el uso de la distribución empírica. También viene con la variabilidad del muestreo (que puede ser profundo en las colas, que a menudo es más importante en las evaluaciones de riesgos), aunque no haya estimado explícitamente ningún parámetro.

— whuber

Respuestas:

Definitivamente depende de cuáles son los datos en cuestión y cuánto uno sabe o desea asumir sobre ellos. Como dijo recientemente @whuber en el chat , "donde está involucrada la ley física, casi siempre puedes hacer conjeturas razonables sobre una forma adecuada de modelar los datos". (¡Sospecho que esto es más cierto para él que para mí! Además, espero que esto no se aplique incorrectamente fuera de su contexto original ...) En casos más parecidos al modelo de construcción latente en las ciencias sociales, a menudo es útil enfocarse en Distribuciones empíricas como una forma de entender los matices de los fenómenos menos conocidos. Es un poco demasiado fácil asumir una distribución normal y descartar el desajuste en la forma general como insignificante, y es bastante engañoso descartar los valores atípicos como erróneos sin más justificación de lo que no hacen.

Por supuesto, gran parte de este comportamiento está motivado por los supuestos de análisis que uno quiere aplicar. A menudo, las preguntas más interesantes van más allá de la descripción o clasificación de las distribuciones de variables. Esto también influye en la respuesta correcta para un escenario dado; Puede haber razones (por ejemplo, necesidades de energía ) para asumir una distribución normal cuando no se ajusta particularmente bien (ni se ajusta demasiado mal), ya que los métodos no paramétricos y robustos no son perfectos tampoco. Sin embargo, el riesgo de hacerlo habitualmente es olvidar hacer las preguntas interesantes que uno puede hacer sobre la distribución de una sola variable.

Por ejemplo, considere la relación entre riqueza y felicidad: una pregunta popular que la gente generalmente quiere hacer. Puede ser seguro asumir que la riqueza sigue una distribución gamma ^{(Salem & Mount, 1974)} o beta generalizada ^{(Parker, 1999)} , pero ¿es realmente seguro asumir que la felicidad se distribuye normalmente? Realmente, no debería ser necesario asumir esto solo para responder la pregunta original, pero las personas a veces lo hacen, y luego ignoran cuestiones potencialmente importantes como el sesgo de respuesta y las diferencias culturales. Por ejemplo, algunas culturas tienden a dar respuestas más o menos extremas (ver la respuesta de @ chl en el análisis Factorial de cuestionarios compuestos por ítems Likert ), y las normas varían con respecto a la expresión abierta de las emociones positivas y negativas ^{(Tucker, Ozer, Lyubomirsky y Boehm, 2006 )} . Esto puede aumentar la importancia de las diferencias en las características de distribución empírica como la asimetría y la curtosis. Si estuviera comparando la relación de riqueza con calificaciones subjetivas de felicidad en Rusia, China y los Estados Unidos, probablemente desearía evaluar las diferencias en las tendencias centrales de las calificaciones de felicidad. Al hacerlo, dudaría en asumir distribuciones normales a través de cada uno en aras de un ANOVA unidireccional (aunque podría ser bastante robusto para las violaciones) cuando hay razones para esperar una distribución de "cola más gruesa" en China, una distribución sesgada positivamente en Rusia y una distribución sesgada negativamente en los EE. UU. debido a diversas normas y sesgos de respuesta dependientes de la cultura. En aras de una prueba de significación (aunque probablemente prefiera informar los tamaños de los efectos, honestamente), prefiero usar un método no paramétrico, y en aras de comprender realmente la felicidad subjetiva en cada población de forma individual, más bien describa la distribución empíricamente que intente clasificarla como una distribución teórica simple e ignore o ignore cualquier desajuste. Eso es un desperdicio de información de la OMI.

^{Referencias

- Parker, SC (1999). La beta generalizada como modelo para la distribución de ganancias. Cartas de economía, 62 (2), 197–200.

- Salem, ABZ y Mount, TD (1974). Un modelo descriptivo conveniente de distribución del ingreso: la densidad gamma. Econometrica, 42 (6), 1115-1127.

- Tucker, KL, Ozer, DJ, Lyubomirsky, S. y Boehm, JK (2006). Prueba de invariancia de medición en la escala de satisfacción con la vida: una comparación de rusos y norteamericanos. Social Indicators Research, 78 (2), 341–360. Recuperado de http://drsonja.net/wp-content/themes/drsonja/papers/TOLB2006.pdf .}

— Nick Stauner
fuente

Gracias por tu respuesta, Nick. Encontré el ejemplo especialmente útil.

— HFBrowning

las longitudes de la cola de los ratones probablemente se distribuyen normalmente

Yo dudaría eso. Las distribuciones normales surgen de muchos efectos aditivos independientes. Los sistemas biológicos consisten en muchos circuitos de retroalimentación interactivos (efectos multiplicativos interdependientes). También a menudo hay algunos estados que son más estables que otros (es decir, atractores). Entonces, algún tipo de distribución de cola larga o multimodal probablemente describiría longitudes de cola. De hecho, la distribución normal es probablemente una opción por defecto muy pobre para describir cualquier cosa biológica y su mal uso es responsable de los muchos "valores atípicos" reportados en esa literatura. La prevalencia de esta distribución en la naturaleza es un mito y no solo en el sentido de "los círculos perfectos realmente no existen". Sin embargo, no se sigue que la media y el SD sean inútiles como estadísticas de resumen.

Especialmente porque no puedo determinar fácilmente cuándo podría ser mejor "confiar en los datos" (como este conjunto de datos sesgado a la derecha que tengo, pero n = 160 que dado los datos no parece suficiente) e ir con empírico, o ajustarlo a una distribución Beta como un colega mío sigue insistiendo. Sospeché que seleccionó eso solo porque está acotado en [0,1]. Todo parece realmente ad hoc. ¡Ojalá esto aclare mi intención!

Ajustar distribuciones empíricas proporciona pistas sobre el proceso subyacente, lo que facilita el desarrollo de distribuciones teóricas. Luego, la distribución teórica se compara con las distribuciones empíricas para probar la evidencia de la teoría.

Si su propósito es evaluar la probabilidad de ciertos resultados con base en la evidencia actual disponible y no tiene ninguna razón para elegir esa distribución en particular, supongo que no veo cómo hacer suposiciones adicionales podría ser útil. En cambio, parece confundir las cosas.

Sin embargo, si está intentando describir o resumir los datos, entonces puede tener sentido ajustar la distribución.

— Lívido
fuente

Aunque solo puedo aceptar una respuesta, quería agradecerle por señalar cómo surgen realmente las distribuciones normales. Me obligó a pensar más detenidamente sobre lo que significa que algo se base en la teoría.

— HFBrowning

En algunos casos parece claro que la teoría podría funcionar mejor (las longitudes de la cola de los ratones probablemente se distribuyen normalmente).

Las longitudes de cola ciertamente no se distribuyen normalmente.

Las distribuciones normales tienen una probabilidad distinta de cero de tomar valores negativos; longitudes de cola no lo hacen.

La famosa línea de George Box , " todos los modelos están equivocados, pero algunos son útiles " hace que el punto sea bastante bueno. Los casos en los que podríamos afirmar razonablemente la normalidad (en lugar de solo la normalidad aproximada) son realmente muy raros, casi criaturas legendarias, los espejismos ocasionalmente casi se vislumbran por el rabillo del ojo.

En muchos casos, probablemente no exista una teoría para describir un conjunto de datos, por lo que simplemente usa algo que se ajusta bastante bien a lo que tiene, independientemente de lo que se desarrolló originalmente para describir.

En los casos en que las cantidades que le interesan no son especialmente sensibles a la elección (siempre y cuando las características generales de la distribución sean consistentes con lo que se conoce), entonces sí, puede usar algo que se ajuste bastante bien.

En los casos en que hay un mayor grado de sensibilidad, "solo usar algo que se ajuste" no es suficiente por sí solo. Podríamos usar algún enfoque que no haga suposiciones particulares (tal vez procedimientos libres de distribución, como permutación, bootstrapping u otros enfoques de remuestreo, o procedimientos sólidos). Alternativamente, podríamos cuantificar la sensibilidad al supuesto de distribución, como a través de la simulación (de hecho, creo que generalmente es una buena idea).

parece haber el problema de que tal vez deberías usar una distribución empírica si realmente no tienes idea.

No describiría eso como un problema: basar la inferencia en distribuciones empíricas ciertamente es un enfoque legítimo adecuado para muchos tipos de problemas (la permutación / aleatorización y el arranque son dos ejemplos).

¿Alguien tiene una forma coherente de abordar / pensar en este problema?

en términos generales, en muchos casos, tiendo a considerar preguntas como:

1) ¿Qué entiendo * sobre cómo se comportan los medios (u otras cantidades de tipo de ubicación) para los datos de este formulario?

* (ya sea por teoría o experiencia de esta forma de datos, o asesoramiento de expertos, o si es necesario, de los datos en sí, aunque eso conlleva problemas con los que uno debe lidiar)

2) ¿Qué pasa con la propagación (varianza, IQR, etc.)? ¿Cómo se comporta?

3) ¿Qué pasa con otras características de distribución (límites, asimetría, discreción, etc.)

4) ¿Qué pasa con la dependencia, la heterogeneidad de las poblaciones, la tendencia a valores ocasionalmente muy discrepantes, etc.

Este tipo de consideración podría guiar la elección entre un modelo normal, un GLM, algún otro modelo o algún enfoque robusto o sin distribución (como los enfoques de arranque o permutación / aleatorización, incluidos los procedimientos basados en rangos)

— Glen_b -Reinstate a Monica
fuente