En algunos casos parece claro que la teoría podría funcionar mejor (las longitudes de la cola de los ratones probablemente se distribuyen normalmente).
Las longitudes de cola ciertamente no se distribuyen normalmente.
Las distribuciones normales tienen una probabilidad distinta de cero de tomar valores negativos; longitudes de cola no lo hacen.
La famosa línea de George Box , " todos los modelos están equivocados, pero algunos son útiles " hace que el punto sea bastante bueno. Los casos en los que podríamos afirmar razonablemente la normalidad (en lugar de solo la normalidad aproximada) son realmente muy raros, casi criaturas legendarias, los espejismos ocasionalmente casi se vislumbran por el rabillo del ojo.
En muchos casos, probablemente no exista una teoría para describir un conjunto de datos, por lo que simplemente usa algo que se ajusta bastante bien a lo que tiene, independientemente de lo que se desarrolló originalmente para describir.
En los casos en que las cantidades que le interesan no son especialmente sensibles a la elección (siempre y cuando las características generales de la distribución sean consistentes con lo que se conoce), entonces sí, puede usar algo que se ajuste bastante bien.
En los casos en que hay un mayor grado de sensibilidad, "solo usar algo que se ajuste" no es suficiente por sí solo. Podríamos usar algún enfoque que no haga suposiciones particulares (tal vez procedimientos libres de distribución, como permutación, bootstrapping u otros enfoques de remuestreo, o procedimientos sólidos). Alternativamente, podríamos cuantificar la sensibilidad al supuesto de distribución, como a través de la simulación (de hecho, creo que generalmente es una buena idea).
parece haber el problema de que tal vez deberías usar una distribución empírica si realmente no tienes idea.
No describiría eso como un problema: basar la inferencia en distribuciones empíricas ciertamente es un enfoque legítimo adecuado para muchos tipos de problemas (la permutación / aleatorización y el arranque son dos ejemplos).
¿Alguien tiene una forma coherente de abordar / pensar en este problema?
en términos generales, en muchos casos, tiendo a considerar preguntas como:
1) ¿Qué entiendo * sobre cómo se comportan los medios (u otras cantidades de tipo de ubicación) para los datos de este formulario?
* (ya sea por teoría o experiencia de esta forma de datos, o asesoramiento de expertos, o si es necesario, de los datos en sí, aunque eso conlleva problemas con los que uno debe lidiar)
2) ¿Qué pasa con la propagación (varianza, IQR, etc.)? ¿Cómo se comporta?
3) ¿Qué pasa con otras características de distribución (límites, asimetría, discreción, etc.)
4) ¿Qué pasa con la dependencia, la heterogeneidad de las poblaciones, la tendencia a valores ocasionalmente muy discrepantes, etc.
Este tipo de consideración podría guiar la elección entre un modelo normal, un GLM, algún otro modelo o algún enfoque robusto o sin distribución (como los enfoques de arranque o permutación / aleatorización, incluidos los procedimientos basados en rangos)