Palabras comunes que tienen significados estadísticos particulares

12

No soy estadístico, pero mi trabajo de investigación involucra estadísticas (análisis de datos, lectura de literatura, etc.). Una vez más, un comentario sobre una de mis preguntas publicado aquí me recordó que hay algunas palabras comunes que tienen significados o connotaciones particularmente específicas para aquellos que tienen una buena práctica en el campo de la estadística.

Será útil tener una lista de tales palabras y pueden ser frases junto con algunos comentarios.

terminology

— usuario4045
fuente

1

Suena como un candidato para Community Wiki .

— Glen_b

@Glen_b Podría convertirse en uno particularmente grande, dado que casi cualquier término en estadística o matemática calificaría. ¿Hay alguna manera de reducir significativamente el alcance de esta pregunta?

— whuber

3

@whuber Sí, existe el peligro de que se vuelva demasiado amplio. ¿Sería suficiente algo como "que comúnmente genera confusión" para reducir el alcance?

— Glen_b -Reinstala a Mónica el

Creo que los estadísticos competentes normalmente tienen un buen dominio de su idioma nativo y estarían al tanto de cuándo están usando jerga que debe explicarse adecuadamente a un público lego.

— Robert Jones

@Glen_b No estoy seguro. Esto es tan amplio que apenas puedo comenzar una lista de palabras que deben cubrirse: precisión, sesgo, calibración, discriminación, continua, distribución, peligro, supervivencia, spline, modelo, respuesta, bootstrap, ajuste, agrupación, condicional, confianza, densidad , estimación, variable, canónica, correlación, predicción, inferencia, censura, riesgo, concordancia, logística, límite, cobertura, confusión, contingencia, convergencia, correspondencia, libertad, desviación, exponencial, extrema, rango, normal, caída, ficticio , explicado [variación], factor, falla, relleno, ajuste, ajuste, función, ...

— whuber

12

" significativo ": aquí el uso común de la palabra en el lenguaje significa algo así como "importante" o "significativo". El significado estadístico es informalmente más cercano a "puede discernirse de la variación aleatoria sobre el nulo"; no significa que la diferencia sea lo suficientemente grande como para importar.

Estos son algunos ejemplos en los que esta distinción podría haber sido causa de cierta confusión: 1 2

" parámetro ", a menudo parece suceder, particularmente en experimentos científicos, que la palabra 'parámetro' se usa de la manera en que un estadístico usaría la palabra 'variable'. Wikipedia lo pone así:

Un parámetro estadístico es un parámetro que indexa una familia de distribuciones de probabilidad. Se puede considerar como una característica numérica de una población o un modelo

Ejemplo donde este puede ser un problema: 1 - presumiblemente la publicación que condujo a esta pregunta. (Vi otro recientemente pero no puedo localizarlo ahora)

— Glen_b
fuente

11

"Error": en las estadísticas a menudo significa cualquier desviación entre un valor observado y predicho. En la vida real significa un error.

— Harvey Motulsky
fuente

11

Encontré un artículo arbitrado de 2010 que analiza esta pregunta.

Anderson-Cook CM. Jerga oculta: palabras cotidianas con significados específicos para las estadísticas. ICOTS8, Conferencia internacional sobre enseñanza de estadísticas, Liubliana, Eslovenia, 11-17 de julio de 2010.

El documento está disponible de forma gratuita en línea , por lo que solo proporciono una lista parcial de los términos que el autor analiza:

 confounding, control, factor, independent, random, uniform

— usuario4045
fuente

10

Me he encontrado con el problema de usar "falsificación" como "falsificar una hipótesis", mientras que otros pensaban que me refería a "inventar datos". También " sesgado " es casi imposible de mencionar sin causar confusión.

— Matraz
fuente

6

"normal" : en el lenguaje común, normal significa como se esperaba, no fuera de lo común. En estadística, si una variable se distribuye normalmente, se refiere a la distribución gaussiana. No creo que sea estándar poner en mayúscula la palabra "normal" para distinguirla del significado común del habla.

"normalización / estandarización" - En estadística, normalizar una variable significa restar la media y dividir por la desviación estándar.

"desviación estándar versus error estándar" : la desviación estándar generalmente se calcula con toda la población, mientras que el error estándar se calcula con la muestra.

— rocinante
fuente

1

Realmente dudo que "error estándar" sea una "palabra común [convencional, no estadística]" con un significado estadístico especial que difiere de otros usos de esa palabra (frase, realmente). Lo mismo ocurre con la "normalización" y la "desviación estándar".

— whuber

Tal vez no sea "normalización", pero "normal" es un buen punto, por lo que sería "estandarizar", que también se usa para describir pruebas destinadas a establecer estándares nacionales (por ejemplo, en educación, como en los EE. UU. Después de que ningún niño se vaya) Detrás). Estoy de acuerdo en que es poco probable que la "desviación estándar" cause confusión, aunque es más probable que la "desviación" en sí misma en el lenguaje común tenga una connotación negativa (especialmente como sinónimo de "desviación").

— Nick Stauner

Aquí hay otra forma de distinguir SD y SEM. La desviación estándar cuantifica la variación o la dispersión. Un error estándar cuantifica la precisión de un valor calculado.

— Harvey Motulsky

@ HarveyMotulsky Creo que la mejor manera es pensar en un asteroide (forma irregular). ¿Cuál es el centro de masa del asteroide? Es el punto que es equidistante de todos los demás puntos. Esa es la media. ¿Cuál es la desviación estándar? Es la distancia "promedio" de cada punto desde el centro, una medida de tamaño. ¿Qué es el SEM? Le indica qué tan seguro está sobre la ubicación del centro del asteroide.

— Frasco

Es un poco desafortunado decir que el error estándar es la desviación estándar calculada usando la "muestra". Esa sería la raíz cuadrada de la varianza de la muestra para mí, mientras que el error estándar es la desviación estándar de una estadística de prueba. Además, de los términos anteriores, solo "normal" parece realmente común. Pero supongo que eso es normal ...

— significa sentido

2

"Paramétrico" versus "No paramétrico": categorías de pruebas que requieren datos "normales" o "no normales". Se prefieren las pruebas paramétricas a las no paramétricas.

Pruebas comunes: prueba T (emparejada), Mann-Whitney U, ANOVA, Anderson-Darling, etc.

Otros términos incluyen "significativo". Esta es una medida de si los datos indican que su hipótesis es válida o no. Cuando prueba su hipótesis con un cierto grado de probabilidad (normalmente 95%), un "valor p" de menos de 0.05 indicaría que rechazaría su "hipótesis nula" (es decir, los conjuntos de datos no son diferentes) y acepta su " hipótesis alternativa "(es decir, los conjuntos de datos son diferentes).

— usuario36904
fuente

2

La estadística sesgada implica una distribución asimétrica.

En el lenguaje ordinario, e incluso dentro de la ciencia, sesgado se usa a menudo (¿y cada vez más?) Para referirse a lo que las personas generalmente llamarían sesgado , como en "Los resultados para la estatura media se sesgan al incluir a tantos jugadores de baloncesto".

— Nick Cox
fuente

2

Estimación : en estadística es el resultado de un cálculo. Por ejemplo, la media de la muestra es una estimación de la media de la población, y el intervalo de confianza de una media es una estimación del intervalo de la media de la población. Ambos son resultados de cálculos exactos. La "estimación" es una generalización precisa de tratar de hacer una inferencia sobre una población a partir de los datos de una muestra.

En el uso ordinario, la palabra estimación significa una suposición o presentimiento informado, o el resultado de un cálculo aproximado.

— Harvey Motulsky
fuente

2

Probabilidad : en el lenguaje común el sinónimo de probabilidad , pero en las estadísticas que tienen una relación inversa particular con la probabilidad, en eso, para cualquier conjunto de parámetros y conjunto de datos , . $\theta$ $X$ $\mathcal{L}(\theta|X)=\Pr(X|\theta)$

Representante : tiene una serie de significados a veces conflictivos tanto en el lenguaje cotidiano como en el científico. Consulte Kruskal y Mosteller 1979a , 1979b , 1979c y 1980 . La mayoría de los estadísticos que conozco considerarían una muestra representativa si se muestreara con probabilidad conocida; La mayoría de los laicos que conozco lo considerarían representativo si las distribuciones marginales fueran similares a la población.

— abaumann
fuente

2

Muestra : mientras que en estadística esto se refiere a un conjunto de casos , en muchas otras disciplinas una muestra es una muestra física . Por supuesto, el tamaño de la muestra también es ambiguo, ya que se refiere al número de casos en la muestra estadística o al tamaño físico (masa, volumen, ...) de la muestra.
Sensibilidad : para el diagnóstico médico, la fracción de casos enfermos que se reconoce en la prueba. En química analítica: la pendiente de la curva de calibración (ver más abajo).
Especificidad : en el diagnóstico médico, la fracción de casos no relacionados con la enfermedad está correctamente reconocida por la prueba. En química analítica, un método es específico si no hay sensibilidades cruzadas.
Calibración : en realidad, ya se enumeran dos significados para las estadísticas en el artículo de Wiki. En química y física, el significado de la regresión inversa es el habitual. Sin embargo, surge la confusión:
- En quimiometría, la calibración (directa) modela la señal medida depende de la concentración : . La predicción resuelve la concentración : . Modelos de calibración inversa . Por lo tanto, el modelo directo está de acuerdo con la causalidad (la concentración del analito causa la señal, no al revés), pero el modelo inverso es la dirección que se usa para las predicciones. (En la práctica, a menudo es posible decir que el error en o el error en es mucho mayor que el otro, y la dirección de modelado apropiada es / debería elegirse a partir de eso) $I$ $c$ $I = f (c)$ $c$ $c = f^{-1} (I)$ $c = f (I)$
  $c$ $I$
- He visto gráficos de probabilidad pronosticada sobre probabilidad real llamados "gráficos de calibración" (personas estadísticas). En química analítica, el gráfico de calibración correspondiente se predeciría la probabilidad sobre la señal medida (generalmente alguna otra unidad). La gráfica de la variable dependiente predicha sobre la verdadera generalmente se llamaría curva de recuperación .
Conjunto de validación : aquí me gustaría llamar la atención sobre un uso potencialmente confuso de términos que creo que ya surge dentro de los diferentes campos relacionados con las estadísticas, aunque nuevamente contraste. En el contexto de validación anidada / doble u optimización versus validación / prueba, una línea de terminología divide la capacitación - validación - prueba y utiliza el conjunto de "validación" para la optimización de hiperparámetros.
Por ejemplo, en los Elementos del aprendizaje estadístico, p. 222 en la 2da ed. :

... dividir el conjunto de datos en tres partes: un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba. El conjunto de entrenamiento se utiliza para adaptarse a los modelos; el conjunto de validación se usa para estimar el error de predicción para la selección del modelo; El conjunto de prueba se utiliza para evaluar el error de generalización del modelo final elegido.

En contraste, por ejemplo, en la química analítica, la validación es el procedimiento que demuestra que el modelo (en realidad, la evaluación del modelo final es solo una parte de la validación de un método analítico) funciona bien para la aplicación y mide su rendimiento, ver, por ejemplo, John K. Taylor: Validación de métodos analíticos, Analytical Chemistry 1983 55 (6), 600A-608A o pautas de instituciones como la FDA. Esto sería "probar" en la otra línea de terminología, donde la "validación" se usa realmente para la optimización.
La diferencia crucial es que los resultados de "optimización-validación" se utilizarán para cambiar (seleccionar) el modelo, mientras que los cambios en un método analítico validado (incluido el modelo analítico de datos) significa que debe volver a validar (es decir, demostrar que el método aún funciona como se supone que debe funcionar).

Si tiene que hablar con químicos, una buena referencia de la terminología de química analítica es Danzer: Química analítica: fundamentos teóricos y metrológicos, DOI 10.1007 / b103950

— cbeleitas
fuente