Esta pregunta va al corazón de qué son las estadísticas y cómo realizar un buen análisis estadístico. Plantea muchos problemas, algunos de terminología y otros de teoría. Para aclararlos, comencemos observando el contexto implícito de la pregunta y luego continuemos para definir los términos clave "parámetro", "propiedad" y "estimador". Las diversas partes de la pregunta se responden a medida que surgen en la discusión. La sección final de conclusión resume las ideas clave.
Espacios estatales
Un uso estadístico común de "la distribución", como en "la distribución Normal con PDF proporcional a "es en realidad un abuso (grave) del inglés, porque obviamente esta no es una distribución: es una familia completa de distribucionesparametrizadaspor los símbolosμyσ. Una notación estándar para este es el "espacio de estado"Ω, unconjuntoexp(−12(x−μ)/σ)2)dxμσΩde distribuciones. (Estoy simplificando un poco aquí en aras de la exposición y continuaré simplificándolo a medida que avanzamos, sin dejar de ser lo más riguroso posible). Su función es delinear los posibles objetivos de nuestros procedimientos estadísticos: cuando estimamos algo, somos seleccionando uno (o a veces más) elementos de .Ω
A veces, los espacios de estado se parametrizan explícitamente, como en . En esta descripción hay una correspondencia biunívoca entre el conjunto de tuplas { ( μ , σ ) } en el medio plano superior y el conjunto de distribuciones que utilizaremos para modelar nuestros datos. Un valor de tal parametrización es que ahora podemos referirnos concretamente a distribuciones en Ω por medio de un par ordenado de números reales.Ω={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
En otros casos, los espacios de estado no se parametrizan explícitamente. Un ejemplo sería el conjunto de todas las distribuciones continuas unimodales. A continuación, abordaremos la cuestión de si de todos modos se puede encontrar una parametrización adecuada en tales casos.
Parametrizaciones
Generalmente, una parametrización de es una correspondencia ( función matemática ) de un subconjunto de R d (con d finito) a Ω . Es decir, utiliza conjuntos ordenados de d -tuplas para etiquetar las distribuciones. Pero no se trata de una correspondencia cualquiera: tiene que "portarse bien". Para comprender esto, considere el conjunto de todas las distribuciones continuas cuyos archivos PDF tienen expectativas limitadas. Esto se consideraría ampliamente como "no paramétrico" en el sentido de que cualquier intento "natural" de parametrizar este conjunto implicaría una secuencia contable de números reales (utilizando una expansión en cualquier base ortogonal). Sin embargo, porque este conjunto tiene cardinalidad ℵΩRddΩd , que es la cardinalidad de los reales, debe existir cierta correspondencia uno-a-uno entre estas distribuciones y R . Paradójicamente, ¡eso parecería hacer de este unespacio de estadoparametrizadocon unúnicoparámetro real!ℵ1R
La paradoja se resuelve observando que un solo número real no puede disfrutar de una relación "agradable" con las distribuciones: cuando cambiamos el valor de ese número, la distribución a la que corresponde debe en algunos casos cambiar de manera radical. Descartamos tales parametrizaciones "patológicas" al exigir que las distribuciones correspondientes a valores cercanos de sus parámetros deben ser "cercanas" entre sí. Discutir definiciones adecuadas de "cerrar" nos llevaría demasiado lejos, pero espero que esta descripción sea suficiente para demostrar que hay mucho más en ser un parámetro que simplemente nombrar una distribución particular.
Propiedades de distribuciones.
A través de la aplicación repetida, nos acostumbramos a pensar en una "propiedad" de una distribución como una cantidad inteligible que aparece con frecuencia en nuestro trabajo, como sus expectativas, variación, etc. El problema con esto como una posible definición de "propiedad" es que es demasiado vago y no lo suficientemente general. (Aquí es donde estaban las matemáticas a mediados del siglo XVIII, donde las "funciones" se consideraban como procesos finitos aplicados a los objetos). En cambio, la única definición sensata de "propiedad" que siempre funcionará es pensar en una propiedad como siendo un número que se asigna de forma exclusiva a cada distribución en Ω. Esto incluye la media, la varianza, cualquier momento, cualquier combinación algebraica de momentos, cualquier cuantil y mucho más, incluidas cosas que ni siquiera se pueden calcular. Sin embargo, no incluye cosas que no tendrían sentido para algunos de los elementos de . Por ejemplo, si Ω consiste en todas las distribuciones t de Student, entonces la media no es una propiedad válida para Ω (porque t 1 no tiene media). Esto nos impresiona una vez más cuánto dependen nuestras ideas de en qué consiste realmente Ω .ΩΩΩt1Ω
Las propiedades no siempre son parámetros
Una propiedad puede ser una función tan complicada que no serviría como parámetro. Considere el caso de la "Distribución normal". Es posible que queramos saber si la media de la distribución verdadera, cuando se redondea al entero más cercano, es par. Eso es una propiedad. Pero no servirá como parámetro.
Los parámetros no son necesariamente propiedades
Cuando los parámetros y las distribuciones están en correspondencia uno a uno, entonces, obviamente, cualquier parámetro, y cualquier función de los parámetros, es una propiedad de acuerdo con nuestra definición. Pero no es necesario que exista una correspondencia uno a uno entre los parámetros y las distribuciones: a veces, algunas distribuciones deben describirse mediante dos o más valores claramente diferentes de los parámetros. Por ejemplo, un parámetro de ubicación para puntos en la esfera usaría naturalmente latitud y longitud. Eso está bien, excepto en los dos polos, que corresponden a una latitud dada y cualquier longitud válida. La ubicacion(punto en la esfera) de hecho es una propiedad, pero su longitud no es necesariamente una propiedad. Aunque existen varias evasiones (solo declare que la longitud de un polo es cero, por ejemplo), este problema destaca la importante diferencia conceptual entre una propiedad (que está asociada de forma exclusiva con una distribución) y un parámetro (que es una forma de etiquetar la distribución y podría no ser única).
Procedimientos estadísticos
El objetivo de una estimación se llama estimado . Es simplemente una propiedad. El estadístico no es libre de seleccionar el estimado: esa es la provincia de su cliente. Cuando alguien se le acerca con una muestra de una población y le pide que calcule el percentil 99 de la población, ¡probablemente sea negligente proporcionar un estimador de la media! Su trabajo, como estadístico, es identificar un buen procedimiento para estimar el estimado y el que le han dado. (A veces, su trabajo es persuadir a su cliente de que ha seleccionado el presupuesto equivocado para sus objetivos científicos, pero ese es un tema diferente ...)
Por definición, un procedimiento es una forma de obtener un número de los datos. Los procedimientos generalmente se dan como fórmulas para aplicar a los datos, como "sumarlos y dividirlos por su conteo". Literalmente, cualquier procedimiento se puede pronunciar como "estimador" de un estimado determinado. Por ejemplo, podría declarar que la media muestral (una fórmula aplicada a los datos) estima la varianza de la población (una propiedad de la población, suponiendo que nuestro cliente haya restringido el conjunto de poblaciones posibles para incluir solo aquellas que realmente tienen variaciones).Ω
Estimadores
Un estimador no necesita tener una conexión obvia con el estimado. Por ejemplo, ¿ve alguna conexión entre la media muestral y una varianza poblacional? Yo tampoco. Pero, sin embargo, la media muestral en realidad es un estimador decente de la varianza de la población para ciertos Ω (como el conjunto de todas las distribuciones de Poisson). Aquí radica una clave para comprender los estimadores: sus cualidades dependen del conjunto de posibles estados . Pero eso es solo una parte.Ω
Un estadístico competente querrá saber qué tan bien se realizará el procedimiento que recomienda. Llamemos al procedimiento " " y dejemos que el estimado sea θ . Sin saber qué distribución es la verdadera, contemplará el desempeño del procedimiento para cada distribución posible F ∈ Ω . Dada tal F , y dado cualquier resultado posible s (es decir, un conjunto de datos), comparará t ( s ) (lo que estima su procedimiento) con θ ( F ) (el valor del estimado para F ). tθ F∈ΩFst(s)θ(F)FEs responsabilidad de su cliente decirle cuán cerca o lejos están esos dos. (Esto a menudo se hace con una función de "pérdida"). Luego puede contemplar la expectativa de la distancia entre y θ ( F ) . Este es el riesgo de su procedimiento. Debido a que depende de F , el riesgo es una función definida en Ω .t(s)θ(F)FΩ
(Bueno) los estadísticos recomiendan procedimientos basados en la comparación de riesgos. Por ejemplo, suponga que por cada , el riesgo del procedimiento t 1 es menor o igual que el riesgo de t . Entonces no hay razón para usar t : es "inadmisible". De lo contrario, es "admisible".F∈Ωt1tt
(Un estadístico "bayesiano" siempre comparará los riesgos promediando sobre una distribución "previa" de posibles estados (generalmente suministrada por el cliente). Un estadístico "frecuente" podría hacer esto, si existe tal justificación previa, pero también está dispuesto a compare los riesgos de otras maneras que evitan los bayesianos).
Conclusiones
Tenemos derecho a decir que cualquier que sea admisible para θ es un estimador de θ . tθθ Debemos, a efectos prácticos (porque los procedimientos admisibles pueden ser difíciles de encontrar), doblar esto para decir que cualquier que tenga un riesgo aceptablemente pequeño (en comparación con θ ) entre los procedimientos practicables es un estimador de θ . tθθ El cliente determina "aceptablemente" y "practicable", por supuesto: "aceptablemente" se refiere a su riesgo y "practicable" refleja el costo (finalmente pagado por ellos) de implementar el procedimiento.
Subyacentes a esta definición concisa se encuentran todas las ideas que acabamos de discutir: para comprenderla debemos tener en cuenta un específico (que es un modelo del problema, proceso o población en estudio), un estimado definitivo (suministrado por el cliente), un función de pérdida específica (que conecta cuantitativamente t con el estimado y también es dada por el cliente), la idea de riesgo (calculada por el estadístico), algún procedimiento para comparar funciones de riesgo (la responsabilidad del estadístico en consulta con el cliente), y una idea de qué procedimientos se pueden llevar a cabo realmente (el tema de "practicabilidad"), aunque ninguno de estos se menciona explícitamente en la definición.Ωt