Estoy tratando de encontrar la distribución característica más apropiada de datos de mediciones repetidas de cierto tipo.
Esencialmente, en mi rama de la geología, a menudo usamos datación radiométrica de minerales de muestras (trozos de roca) para averiguar cuánto tiempo hace que ocurrió un evento (la roca se enfrió por debajo de un umbral de temperatura). Típicamente, se realizarán varias (3-10) mediciones de cada muestra. Luego, se toman la media y la desviación estándar σ . Esto es geología, por lo que las edades de enfriamiento de las muestras pueden escalar de 10 5 a 10 9 años, dependiendo de la situación.
Sin embargo, tengo razones para creer que las mediciones no son gaussianas: los "valores atípicos", ya sea declarados arbitrariamente o mediante algún criterio, como el criterio de Peirce [Ross, 2003] o la prueba Q de Dixon [Dean y Dixon, 1951] , son bastante común (digamos, 1 de cada 30) y estos son casi siempre más antiguos, lo que indica que estas mediciones son característicamente sesgadas a la derecha. Hay razones bien entendidas para que esto tenga que ver con impurezas mineralógicas.
Me pregunto cuál es la mejor manera de hacer esto. Hasta ahora, tengo una base de datos con aproximadamente 600 muestras, y 2-10 (más o menos) replican mediciones por muestra. He intentado normalizar las muestras dividiendo cada una por la media o la mediana, y luego mirando los histogramas de los datos normalizados. Esto produce resultados razonables, y parece indicar que los datos son característicamente log-laplacianos:
Sin embargo, no estoy seguro de si esta es la forma adecuada de hacerlo, o si hay advertencias que desconozco que pueden estar sesgando mis resultados para que se vean así. ¿Alguien tiene experiencia con este tipo de cosas y conoce las mejores prácticas?