¿Cómo parametrizar la relación de dos variables normalmente distribuidas, o la inversa de una?

Problema: estoy parametrizando distribuciones para usar como antecedentes y datos en un metanálisis bayesiano. Los datos se proporcionan en la literatura como estadísticas de resumen, casi exclusivamente se supone que se distribuyen normalmente (aunque ninguna de las variables puede ser <0, algunas son proporciones, algunas son masivas, etc.).

Me he encontrado con dos casos para los que no tengo solución. A veces, el parámetro de interés es el inverso de los datos o la relación de dos variables.

Ejemplos:

La relación de dos variables normalmente distribuidas:
- datos: media y sd para porcentaje de nitrógeno y porcentaje de carbono
- parámetro: relación de carbono a nitrógeno.
El inverso de una variable normalmente distribuida:
- datos: masa / área
- parámetro: área / masa

Mi enfoque actual es usar la simulación:

por ejemplo, para un conjunto de datos de porcentaje de carbono y nitrógeno con medias: xbar.n, c, varianza: se.n, c, y tamaño de muestra: nn, nc:

set.seed(1)
per.c <- rnorm(100000, xbar.c, se.c*n.c) # percent C
per.n <- rnorm(100000, xbar.n, se.n*n.n) # percent N

Quiero parametrizar ratio.cn = perc.c / perc.n

# parameter of interest
ratio.cn <- perc.c / perc.n

Luego, elija las distribuciones de mejor ajuste con rango para mi anterior $0 \rightarrow \infty$

library(MASS)
dist.fig <- list()
for(dist.i in c('gamma', 'lognormal', 'weibull')) {
    dist.fit[[dist.i]] <- fitdist(ratio.cn, dist.i)
}

Pregunta: ¿Es este un enfoque válido? ¿Hay otros / mejores enfoques?

¡Gracias por adelantado!

Actualización: la distribución de Cauchy, que se define como la relación de dos normales con , tiene una utilidad limitada ya que me gustaría estimar la varianza. ¿Quizás podría calcular la varianza de una simulación de n sorteos de un Cauchy? $\mu=0$

Encontré las siguientes aproximaciones de forma cerrada, pero no he probado para ver si dan los mismos resultados ... Hayya et al, 1975

{\hat{μ}}_{y : x} = μ_{y} / m u_{x} + σ_{x}^{2} * μ_{y} / μ_{x}^{3} + c o v (x, y) * σ_{x}^{2} * σ_{y}^{2} / μ_{x}^{2}

$\hat{\mu}_{y:x} = \mu_y/mu_x + \sigma^2_x * \mu_y / \mu_x^3 + cov(x,y) * \sigma^2_x * \sigma^2_y / \mu_x^2$

{\hat{σ}}_{y : x}^{2} = σ_{x}^{2} \times μ_{y} / m u_{x}^{4} + σ_{y}^{2} / m u_{x}^{2} - 2 * c o v (x, y) * σ_{x}^{2} * σ_{y}^{2} / m u_{x}^{3}

$\hat{\sigma}^2_{y:x} = \sigma^2_x\times\mu_y / mu_x^4 + \sigma^2_y / mu_x^2 - 2 * cov(x,y) * \sigma^2_x * \sigma^2_y / mu_x^3$

Hayya, J. y Armstrong, D. y Gressis, N., 1975. Una nota sobre la relación de dos variables normalmente distribuidas. Management Science 21: 1338--1341

— David LeBauer
fuente

¿Debo publicar la pregunta de Actualización sobre el cálculo de la varianza en sorteos aleatorios del Cauchy como una pregunta separada?

— David LeBauer

david: dado que todas tus variables son positivas, ¿por qué quieres preocuparte con ? por cierto, en su simulación, parece estar generando variables per.c y per.n que son independientes. ¿es correcto? Y si es así, ¿es eso lo que quieres?

μ = 0

$\mu = 0$

— ronaf

no, no quiero preocuparme con = 0; estas variables generalmente se tratan como independientes, y los datos de covarianza rara vez están disponibles. Como C es bastante constante, la independencia es una suposición razonable.

μ

$\mu$

— David LeBauer

No entiendo por qué no existe la expectativa de la relación. Si e se distribuyen conjuntamente normalmente con una media diferente de cero, entonces la media de viene dada por , ¿qué me estoy perdiendo?

X

$X$

Y

$Y$

Z = \frac{X}{Y}

$Z = \frac{X}{Y}$

\int \int \frac{x}{y} p (x, y) d x d y

$\int \int \frac{x}{y} p \left( x, y \right) dx dy$

— Royi

Respuestas:

Es posible que desee ver algunas de las referencias en el artículo de Wikipedia sobre Distribución de proporciones . Es posible que encuentre mejores aproximaciones o distribuciones para usar. De lo contrario, su enfoque parece sólido.

Actualización Creo que una mejor referencia podría ser:

Relaciones de variables normales y relaciones de sumas de variables uniformes (Marsaglia, 1965)

Vea las fórmulas 2-4 en la página 195.

Actualización 2

En su pregunta actualizada sobre la variación de un Cauchy, como John Cook señaló en los comentarios, la variación no existe. Entonces, tomar una varianza muestral simplemente no funcionará como un "estimador". De hecho, encontrará que la varianza de su muestra no converge en absoluto y fluctúa enormemente a medida que continúa tomando muestras.

— ars
fuente

Gracias por la referencia, ahí es donde encontré la referencia de Haaya 1975 y las ecuaciones en mi pregunta, aunque agradecería la seguridad de que las ecuaciones son apropiadas para mi problema.

— David LeBauer

Echando un vistazo rápido a Haaya, parece que les preocupa obtener una aproximación Normal para la relación y usar simulaciones para determinar cuándo se aplica (usando el coeficiente de variación, cv). ¿El cv en su caso cumple con los criterios? Si es así, se aplican las aproximaciones.

— ars

@David: use Marsaglia 1965 en su lugar como se actualiza en la respuesta.

— ars

NB: Marsaglia publicó una actualización en JSS en 2004 .

— David LeBauer

X

$X$

Y

$Y$

Z = \frac{X}{Y}

$Z = \frac{X}{Y}$

\int \int \frac{x}{y} p (x, y) d x d y

$\int \int \frac{x}{y} p \left( x, y \right) dx dy$

— Royi

¿No podría suponer que Para el inverso de una variable aleatoria normal y hacer el cálculo bayesiano necesario después de identificar los parámetros apropiados para la distribución normal. $y^{-1} \sim N(.,.)$

Mi sugerencia a continuación para usar el Cauchy no funciona como se señala en los comentarios de ars y John.

La relación de dos variables normalmente aleatorias sigue la distribución de Cauchy . Es posible que desee utilizar esta idea para identificar los parámetros del cauchy que mejor se ajustan a los datos que tiene.

a. Necesito estimar la varianza y la varianza de la distribución de Cauchy no está definida.

— David LeBauer

si. Si entiendo su segundo punto, sí, podría suponer que y-1 ~ N (mu, sigma), pero aún necesito calcular mu y sigma a partir de las estadísticas de resumen dadas para y; Además, he elegido no considerar distribuciones con valores <0 para variables solo definidas> 0 (aunque en muchos de los casos p (X <0 | X ~ N (mu, s)) -> 0)

— David LeBauer

¿No solicita el Cauchy cero normales normales?

— ars

@ars Tienes razón. El cauchy entonces puede ser de uso limitado.

Ars: Sí, creo que el resultado de Cauchy requiere cero medios. Pero eso todavía significa que, al menos en ese caso especial, la variación que David está tratando de estimar NO EXISTE.

— John D. Cook, el