Seleccionar previos en función del error de medición

¿Cómo se calcula el previo apropiado si tiene el error de medición de un instrumento? Este párrafo es del libro de Cressie "Estadísticas para datos espacio-temporales":

A menudo se da información previa sobre la varianza de error de medición, lo que permite especificar un modelo de parámetro bastante informativo. Por ejemplo, si asumimos errores de medición condicionalmente independientes que son iid , entonces debemos especificar un previo informativo para . Digamos que estábamos interesados en la temperatura del aire ambiente, y se vio que las especificaciones del fabricante del instrumento indicaron un “error” de . Suponiendo que este "error" corresponde a 2 desviaciones estándar (¡una suposición que debería verificarse!), Entonces podríamos especificar que tenga una media previa de $Gau(0, \sigma_{\epsilon}^2)$ $\sigma_{\epsilon}^2$ $±0.1°C$ $\sigma_{\epsilon}^{2}$ $(0.1/2)^2 = 0.0025$ . Debido a la especificación del fabricante del instrumento, supondríamos una distribución que tenía un pico claramente definido y bastante estrecho a 0.0025 (por ejemplo, gamma inverso). De hecho, podríamos arreglarlo a 0.0025; sin embargo, el error del modelo de datos también puede tener otros componentes de incertidumbre (Sección 7.1). Para evitar posibles problemas de identificación con el error del modelo de proceso, es muy importante que los modeladores reduzcan la incertidumbre tanto como lo permita la Ciencia, lo que incluye realizar estudios paralelos diseñados para tener datos replicados.

¿Alguien sabe cuál es el procedimiento general para obtener los valores de un previo como se describió anteriormente (aunque el párrafo solo se refiere a obtener el promedio anterior)?

— Robert Smith
fuente

Dos métodos estándar son

Consulte las "especificaciones del fabricante del instrumento", como se indica en la cita. Esto suele ser una alternativa burda para usarse cuando no hay otra información disponible, porque (a) lo que el fabricante de instrumentos realmente quiere decir con "precisión" y "precisión" a menudo es indeterminado y (b) cómo respondió el instrumento cuando era nuevo en un laboratorio de pruebas probablemente fue mucho mejor de lo que funciona cuando se usa en el campo.
Recoge muestras replicadas. En el muestreo ambiental, hay aproximadamente media docena de niveles en los que las muestras se replican rutinariamente (y muchos más en los que podrían replicarse), y cada nivel se utiliza para controlar una fuente de variación asignable. Dichas fuentes pueden incluir:
- Identidad de la persona que toma la muestra.
- Procedimientos preliminares, como pozos de rescate, tomados antes de obtener una muestra.
- Variabilidad en el proceso de muestreo físico.
- La heterogeneidad dentro del volumen de muestra en sí.
- Cambios que pueden ocurrir al preservar y enviar una muestra a un laboratorio.
- Variaciones en los procedimientos preliminares de laboratorio, como homogeneizar una muestra física o digerirla para su análisis.
- La identificación del analista (s) de laboratorio.
- Diferencias entre laboratorios.
- Diferencias entre instrumentos físicamente distintos, como dos cromatógrafos de gases.
- Deriva en la calibración del instrumento con el tiempo.
- Variación diurna. (Esto puede ser natural y sistemático, pero puede parecer aleatorio cuando los tiempos de muestreo son arbitrarios).

Solo se puede obtener una evaluación cuantitativa completa de los componentes de variabilidad variando sistemáticamente cada uno de estos factores de acuerdo con un diseño experimental adecuado.

Por lo general, solo se estudian las fuentes que se cree que contribuyen con la mayor variabilidad. Por ejemplo, muchos estudios dividirán sistemáticamente una cierta porción de las muestras una vez que se hayan obtenido y las enviarán a dos laboratorios diferentes. Un estudio de las diferencias entre los resultados de esas divisiones puede cuantificar su contribución a la variabilidad de la medición. Si se obtienen suficientes divisiones de este tipo, la distribución completa de la variabilidad de la medición puede estimarse como previa en un modelo espacio-temporal jerárquico bayesiano. Debido a que muchos modelos suponen distribuciones gaussianas (para cada cálculo), la obtención de un previo gaussiano finalmente se reduce a estimar la media y la varianza de las diferencias entre las divisiones. En estudios más complicados, cuyo objetivo es identificar más de un componente de varianza,

Uno de los beneficios de incluso pensar en estos temas es que te ayudan a identificar formas de reducir o incluso eliminar algunos de estos componentes de error (sin tener que cuantificarlos), acercándote así al ideal de Cressie & Wikle de "reducir la incertidumbre tanto como lo permita la ciencia ".

Para un ejemplo trabajado extendido (en muestreo de suelo), vea

Van Ee, Blume y Starks, una justificación para la evaluación de errores en el muestreo de suelos. US EPA, mayo de 1990: EPA / 600 / 4-90 / 013.

— whuber
fuente

El problema aquí, Robert, es que a veces alguien informará una desviación estándar de la estimación; otras veces lo reportarán dos veces (de ahí la división por dos) o un intervalo de confianza bilateral; y a veces incluso algo más; por lo tanto, no existe una regla definitiva para convertir declaraciones de exactitud y precisión en anteriores: debe consultar las notas al pie y otros detalles técnicos para averiguar exactamente qué representan los números. El error estándar de una estimación, en función del tamaño de la muestra utilizada, es irrelevante para este propósito, por cierto.

— whuber

Entendido. Déjame cambiar el enfoque a tu segundo caso. Si repito un experimento un par de veces y mediciones y , ¿cómo puedo usar esta información para informar la media y la varianza de una distribución previa? Usted sugirió algo como para varias divisiones, ¿verdad? Por lo tanto, tendría una media de un error de medición y una desviación estándar de muestra . ¿Es eso suficiente para incluirlo en un anterior ?

m_{1}

$m_{1}$

m_{2}

$m_{2}$

m_{1} - m_{2}

$m_{1}- m_{2}$

m_{ϵ}

$m_{\epsilon}$

σ_{ϵ}

$\sigma_{\epsilon}$

N (m_{ϵ}, σ_{ϵ}^{2})

$N(m_{\epsilon}, \sigma_{\epsilon}^{2})$

— Robert Smith

No puede evaluar la precisión con divisiones: para eso, necesita medir muestras de valores conocidos. ( Para ello se utilizan picos de laboratorio y duplicados con púas ). Eso determinará la media. Por lo general, esto se maneja al calibrar el proceso de medición, por lo que la media se toma como cero. La varianza se estima con las fórmulas ANOVA habituales. Puede usar eso para especificar un previo en el componente correspondiente del sistema de medición.

— whuber

No es así: la referencia que proporcioné es la guía de la EPA de EE. UU. Que ha existido durante un cuarto de siglo y muchas guías más recientes se basan en sus ideas. Una vez utilicé este enfoque en un caso de un tribunal federal para evaluar el efecto del error de medición en las líneas de contorno dibujadas (basado en un predictor geoestadístico) para delinear un penacho contaminante: ¡el error de medición fue mayor que la concentración utilizada para unir el penacho! (En otras palabras, la incertidumbre en la delineación del penacho era esencialmente infinita.)

— whuber

Muy agradable. Por cierto, quise decir que los priors generalmente se establecen sin mucho cuidado. He visto esto más prominentemente en el modelado bayesiano y el aprendizaje automático, tal vez porque una suposición a menudo es suficiente para producir resultados decentes.

— Robert Smith