Preguntas etiquetadas con fisher-information

La información de Fisher mide la curvatura del logaritmo de verosimilitud y se puede utilizar para evaluar la eficiencia de los estimadores.


2
Pregunta básica sobre la matriz de información de Fisher y la relación con los errores estándar y de Hesse
Ok, esta es una pregunta bastante básica, pero estoy un poco confundido. En mi tesis escribo: Los errores estándar se pueden encontrar calculando el inverso de la raíz cuadrada de los elementos diagonales de la matriz (observada) de información de Fisher: sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Dado que el comando de optimización …

3
¿Qué tipo de información es la información de Fisher?
Supongamos que tenemos una variable aleatoria . Si fuera el parámetro verdadero, la función de probabilidad debería maximizarse y la derivada igual a cero. Este es el principio básico detrás del estimador de máxima verosimilitud.X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Según tengo entendido, la información de Fisher se define como I(θ)=E[(∂∂θf(X|θ))2]I(θ)=E[(∂∂θf(X|θ))2]I(\theta) = \Bbb …

3
Conexión entre la métrica de Fisher y la entropía relativa
¿Alguien puede probar la siguiente conexión entre la métrica de información de Fisher y la entropía relativa (o divergencia KL) de una manera puramente matemática rigurosa? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) donde a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) dxgi,j=∫∂i(log⁡p(x;a))∂j(log⁡p(x;a)) …


2
¿Por qué la matriz de información de Fisher es semidefinida positiva?
Deje . La matriz de información de Fisher se define como:θ ∈ Rnorteθ∈Rnorte\theta \in R^{n} yo( θ )i , j= - E[ ∂2Iniciar sesión( f( XEl | θ))∂θyo∂θj∣∣∣θ ]yo(θ)yo,j=-mi[∂2Iniciar sesión⁡(F(XEl |θ))∂θyo∂θjEl |θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] ¿Cómo puedo demostrar que la matriz de información de Fisher es semidefinida …


2
¿Por qué se usa exactamente la información de Fisher observada?
En el ajuste estándar de máxima verosimilitud (iid muestra Y1,…,YnY1,…,YnY_{1}, \ldots, Y_{n} de alguna distribución con densidad fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} )) y en el caso de un modelo correctamente especificado, la información de Fisher viene dada por I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] donde se toma la expectativa con respecto a la densidad …

2
La matriz de información observada es un estimador consistente de la matriz de información esperada?
Estoy tratando de demostrar que la matriz de información observada evaluada en el estimador de máxima verosimilitud débilmente consistente (MLE), es un estimador débilmente consistente de la matriz de información esperada. Este es un resultado ampliamente citado, pero nadie da una referencia o una prueba (creo que he agotado las …

1
¿Cuál es la intuición detrás de las muestras intercambiables bajo la hipótesis nula?
Las pruebas de permutación (también llamadas prueba de aleatorización, prueba de aleatorización o prueba exacta) son muy útiles y resultan útiles cuando t-testno se cumple el supuesto de distribución normal requerido por ejemplo y cuando se transforman los valores mediante la clasificación de prueba no paramétrica como Mann-Whitney-U-testconduciría a la …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 



2
Determinante de la matriz de información de Fisher para un modelo sobreparamizado
Considere una variable aleatoria de Bernoulli con parámetro (probabilidad de éxito). La función de probabilidad y la información de Fisher (una matriz ) son:θ 1 × 1X∈{0,1}X∈{0,1}X\in\{0,1\}θθ\theta1×11×11 \times 1 L1(θ;X)I1(θ)=p(X|θ)=θX(1−θ)1−X=detI1(θ)=1θ(1−θ)L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align} Ahora considere una versión "sobre-parametrizada" con …

1
¿Qué modelo de aprendizaje profundo puede clasificar categorías que no son mutuamente excluyentes?
Ejemplos: Tengo una oración en la descripción del trabajo: "Ingeniero senior de Java en el Reino Unido". Quiero usar un modelo de aprendizaje profundo para predecirlo en 2 categorías: English y IT jobs. Si uso el modelo de clasificación tradicional, solo puede predecir 1 etiqueta con softmaxfunción en la última …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.