¿Cuáles son los pecados estadísticos comunes?


227

Soy un estudiante graduado en psicología y, a medida que realizo más y más estudios independientes en estadística, me sorprende cada vez más la insuficiencia de mi entrenamiento formal. La experiencia tanto personal como de segunda mano sugiere que la escasez de rigor estadístico en la formación de pregrado y posgrado es bastante ubicua dentro de la psicología. Como tal, pensé que sería útil para los estudiantes independientes como yo crear una lista de "Pecados estadísticos", tabulando las prácticas estadísticas que se enseñan a los estudiantes de posgrado como una práctica estándar que de hecho son reemplazadas por superiores (más poderosas o flexibles, o robusto, etc.) métodos modernos o francamente inválidos. Anticipando que otros campos también podrían experimentar un estado de cosas similar, propongo un wiki de la comunidad donde podamos recopilar una lista de pecados estadísticos en todas las disciplinas.


55
Soy consciente de que el "pecado" es posiblemente inflamatorio y que algunos aspectos del análisis estadístico no son en blanco y negro. Mi intención es solicitar casos en los que una práctica dada comúnmente enseñada sea claramente inapropiada.
Mike Lawrence el

55
También puede agregar estudiantes de biología / ciencias de la vida a la mezcla si lo desea;)
nico

1
tal vez retitularlo pecados estadísticos de ciencias de la vida? ... o algo más específico ...
Juan

1
@whuber Hubo algunas buenas respuestas, así que las fusioné a ambas.

1
Hola @Amanda, ¿podrías dar alguna indicación aquí de lo que está en la charla? A nadie le gusta la posibilidad de ser rodado.
nada101

Respuestas:



115

¡La mayoría de las interpretaciones de los valores p son pecaminosas! El uso convencional de los valores p es muy defectuoso; Un hecho que, en mi opinión, pone en tela de juicio los enfoques estándar para la enseñanza de las pruebas de hipótesis y las pruebas de significación.

Haller y Krause han descubierto que los instructores de estadística son casi tan propensos como los estudiantes a malinterpretar los valores p. (Realice la prueba en su trabajo y vea cómo le va). Steve Goodman es un buen argumento para descartar el uso convencional (incorrecto) del valor p en favor de las probabilidades. El papel de Hubbard también merece un vistazo.

Haller y Krauss. Interpretaciones erróneas de importancia: un problema que los estudiantes comparten con sus maestros . Métodos de investigación psicológica (2002) vol. 7 (1) págs. 1-20 ( PDF )

Hubbard y Bayarri. Confusión sobre las medidas de evidencia (p) versus errores (α) en las pruebas estadísticas clásicas . El estadístico estadounidense (2003) vol. 57 (3)

Buen hombre. Hacia estadísticas médicas basadas en evidencia. 1: La falacia del valor P Ann Intern Med (1999) vol. 130 (12) págs. 995-1004 ( PDF )

Ver también:

Wagenmakers, EJ. Una solución práctica a los problemas generalizados de los valores de p. Psychonomic Bulletin & Review, 14 (5), 779-804.

para algunos casos claros donde incluso la interpretación nominalmente "correcta" de un valor p se ha hecho incorrecta debido a las elecciones realizadas por el experimentador.

Actualización (2016) : en 2016, la Asociación Americana de Estadística emitió una declaración sobre los valores p, ver aquí . Esto fue, en cierto modo, una respuesta a la "prohibición de los valores p" emitida por una revista de psicología aproximadamente un año antes.


2
@Michael (+1) Agregué enlaces a resúmenes y PDF sin delegar. Espero que no te importe.
chl

77
+1, pero me gustaría hacer algunos comentarios críticos. Con respecto a la línea de apertura, uno podría decir que "casi todas" (en el sentido teórico de la medida) las interpretaciones de cualquier concepto bien definido son incorrectas, porque solo una es correcta. En segundo lugar, ¿a qué se refiere cuando dice "el uso convencional" y "enfoques estándar"? Estas vagas referencias suenan como un hombre de paja. No concuerdan con lo que uno puede encontrar en la literatura sobre educación estadística, por ejemplo.
whuber

44
@Whuber Echa un vistazo al artículo de Goodman. Concuerda bastante bien con mi experiencia en el campo de la farmacología. Los métodos dicen "Resultados donde P <0.05 fueron tomados como estadísticamente significativos" y luego los resultados se presentan con + para p <0.05, ++ para p <0.01 y +++ para p <0.0001. La afirmación implica el control de las tasas de error a la Neyman y Pearson, pero el uso de diferentes niveles de p sugiere el enfoque de Fisher donde el valor de p es un índice de la fuerza de la evidencia contra la hipótesis nula. Como Goodman señala, no puede controlar simultáneamente las tasas de error y evaluar la solidez de la evidencia.
Michael Lew

8
@ Michael Hay interpretaciones alternativas y más generosas de ese tipo de informes. Por ejemplo, el autor puede ser consciente de que los lectores pueden querer aplicar sus propios umbrales de importancia y, por lo tanto, marcar los valores p para ayudarlos. Alternativamente, el autor podría estar al tanto de posibles problemas de comparaciones múltiples y usar los diferentes niveles en un ajuste tipo Bonferroni. Quizás una parte de la culpa del mal uso de los valores p debería recaer en los pies del lector, no del autor.
whuber

44
@Whuber Estoy totalmente de acuerdo, pero solo lo que sugieres es cierto en una pequeña fracción de los casos (una versión restringida de 'enteramente'). Hay algunas revistas que especifican que los valores de p deben informarse en uno, dos o tres niveles de estrellas en lugar de valores exactos, por lo que esas revistas comparten cierta responsabilidad por el resultado. Sin embargo, tanto ese requisito mal considerado como el uso aparentemente ingenuo de los valores de p podrían ser el resultado de la falta de una explicación clara de las diferencias entre las tasas de error y la evidencia en los diversos textos estadísticos introductorios que están en mis estantes.
Michael Lew el

73

La trampa más peligrosa que encontré al trabajar en un modelo predictivo es no reservar un conjunto de datos de prueba desde el principio para dedicarlo a la evaluación de rendimiento "final".

Es realmente fácil sobreestimar la precisión predictiva de su modelo si tiene la oportunidad de utilizar de alguna manera los datos de prueba al ajustar los parámetros, seleccionar el criterio de detención del algoritmo de aprendizaje anterior ...

Para evitar este problema, antes de comenzar a trabajar en un nuevo conjunto de datos, debe dividir sus datos como:

  • conjunto de desarrollo
  • conjunto de evaluación

Luego, divida su conjunto de desarrollo como un "conjunto de desarrollo de entrenamiento" y un "conjunto de desarrollo de prueba" en el que utilice el conjunto de desarrollo de entrenamiento para entrenar varios modelos con diferentes parámetros y seleccione los mejores según el rendimiento en el conjunto de desarrollo de prueba. También puede hacer una búsqueda de cuadrícula con validación cruzada, pero solo en el conjunto de desarrollo. Nunca use el conjunto de evaluación mientras la selección del modelo no esté hecha al 100%.

Una vez que esté seguro de la selección y los parámetros del modelo, realice una validación cruzada de 10 veces en el conjunto de evaluación para tener una idea de la precisión predictiva "real" del modelo seleccionado.

Además, si sus datos son temporales, es mejor elegir la división de desarrollo / evaluación en un código de tiempo: "Es difícil hacer predicciones, especialmente sobre el futuro".


55
Estoy de acuerdo con esto en principio, pero en el caso de un pequeño conjunto de datos (a menudo tengo solo 20-40 casos) el uso de un conjunto de evaluación separado no es práctico. La validación cruzada anidada puede evitar esto, pero puede dar lugar a estimaciones pesimistas en pequeños conjuntos de datos
BGreene

11
En general, se necesita un enorme conjunto de datos para que la división de datos sea confiable. Es por eso que la validación interna estricta con bootstrap es tan atractiva.
Frank Harrell

Especialmente cuando el conjunto de desarrollo son datos pasados ​​y la evaluación establece datos futuros. ¿Por qué no, después de todo el ajuste del modelo, entrenar el modelo final con sus parámetros fijos en todo el conjunto de desarrollo y predecir todo el conjunto de evaluación con él? En un escenario real, no podría realizar una validación cruzada a través de datos futuros de la manera que describe de todos modos, por lo que utilizaría todos los datos anteriores relevantes.
David Ernst

64

Informe de valores p cuando realizó minería de datos (descubrimiento de hipótesis) en lugar de estadísticas (prueba de hipótesis).


2
¿Puedes (o alguien) dar más detalles?
antoine-sac


¿Qué pasa con los valores p corregidos para la prueba de hipótesis múltiples (con algún sabor del método Bonferroni o una corrección más avanzada)? ¿Tendería a pensar que está bien, incluso en el contexto de la minería de datos?
antoine-sac

Me gusta la idea general, pero es una distorsión equiparar estadísticas con pruebas de hipótesis cuando este último es un subconjunto del primero.
rolando2

46

Prueba de las hipótesis versus H 1 : μ 0 (por ejemplo, en un entorno gaussiano)H0:μ=0 0H1:μ0 0

para justificar que en un modelo (es decir, mezclar " H 0 no es rechazado" y " H 0 es verdadero").μ=0H0H0

Un muy buen ejemplo de ese tipo de razonamiento (muy malo) es cuando prueba si las varianzas de dos gaussianos son iguales (o no) antes de probar si su media es igual o no con el supuesto de la misma varianza.

Otro ejemplo ocurre cuando prueba la normalidad (versus no normalidad) para justificar la normalidad. ¿Todo estadístico ha hecho eso en la vida? es baaad :) (y debería empujar a las personas a verificar la solidez a la no gaussianidad)


66
La misma lógica (tomando "ausencia de evidencia a favor de H1" como "evidencia de ausencia de H1") subyace esencialmente en todas las pruebas de bondad de ajuste. El razonamiento también surge a menudo cuando las personas afirman que "la prueba no fue significativa, por lo tanto, podemos concluir que no hay efecto del factor X / ninguna influencia de la variable Y". Supongo que el pecado es menos grave si va acompañado de un razonamiento sobre el poder de la prueba (por ejemplo, una estimación a priori del tamaño de la muestra para alcanzar un cierto poder dado un cierto tamaño de efecto relevante).
caracal

Si no piensa en el poder, diría que afirmar que es verdadero cuando no se rechaza es muy malo, mientras que afirmar que H 1 es verdadero mientras que H 0 es rechazado es un poco incorrecto :). H0H1H0
robin girard

¡¡Excelente!! Sí, esto me vuelve loco ..
jpillow

3
Trato de ser alfabetizado estadísticamente y todavía me enamoro de este de vez en cuando. Cuales son las alternativas? Cambia tu modelo para que el viejo nulo se convierta en ? La única otra opción que se me ocurre es potenciar su estudio lo suficiente como para que una falla en rechazar el nulo esté en la práctica lo suficientemente cerca como para confirmar el nulo. Por ejemplo, si desea asegurarse de que agregar un reactivo a sus células no matará más del 2% de ellas, obtenga una tasa satisfactoria de falsos negativos. H1
DocBuckets

Las pruebas de equivalencia de @DocBuckets con dos pruebas unilaterales son más rigurosas que el enfoque basado en el poder. Pero debe establecer un tamaño de efecto mínimo relevante por debajo del cual pueda hablar de equivalencia práctica.
David Ernst

46

Algunos errores que me molestan:

  1. Suponiendo que los estimadores imparciales son siempre mejores que los estimadores sesgados.

  2. Suponiendo que un alto implica un buen modelo, un R 2 bajo implica un modelo malo.R2R2

  3. Interpretación / aplicación incorrecta de la correlación.

  4. Estimaciones de puntos de informe sin error estándar.

  5. Usar métodos que supongan algún tipo de normalidad multivariada (como el análisis discriminante lineal) cuando hay disponibles métodos no / semiparamétricos más robustos, de mejor rendimiento.

  6. Usar el valor p como una medida de fuerza entre un predictor y la respuesta, en lugar de como una medida de cuánta evidencia hay de alguna relación.


55
¿Podría dividirlos en opciones separadas?
russellpierce

41

Dicotomización de una variable predictiva continua para "simplificar" el análisis o para resolver el "problema" de la no linealidad en el efecto del predictor continuo.


18
No creo que esto sea realmente un "pecado" ya que los resultados obtenidos no son incorrectos. Sin embargo, arroja mucha información útil, por lo que no es una buena práctica.
Rob Hyndman el

2
En este sentido, el uso de grupos extremos diseña tamaños de efectos sobreestimados, mientras que el uso de un tamaño de efecto de subestimaciones dividido medio o medio.
russellpierce

2
Esto ni siquiera es un pecado si hay dos o más poblaciones distintas. Suponga que tiene clases o subpoblaciones separables, entonces puede tener sentido discretizar. Un ejemplo muy trivial: ¿preferiría usar indicadores para sitio / ubicación / ciudad / país o lat / long?
Iterator

3
+1 y se convierte en un pecado grave cuando comienzan a elegir el corte de dicotomización para que optimice algún tipo de diferencia que luego se prueba.
Erik

55
@Iterator comienza a llegar a la razón real para agregar (a dos o más categorías), lo que se debe a que uno tiene razones teóricas a priori para creer que la varianza se divide significativamente en esas categorías . Por ejemplo, hacemos esto todo el tiempo asumiendo que las colecciones de aproximadamente un billón de células comprenden un individuo , o que un período contiguo de 24 horas aquí en la Tierra se interpreta significativamente como una unidad. Pero la agregación arbitraria no solo "arroja" información (por ejemplo, poder estadístico), sino que puede conducir a sesgos (serios) sobre las relaciones entre los fenómenos.
Alexis

41

Realmente no respondo la pregunta, pero hay un libro completo sobre este tema:

Phillip I.Bueno, James William Hardin (2003). Errores comunes en las estadísticas (y cómo evitarlos). Wiley ISBN 9780471460688


66
Me aseguré de leer este libro poco después de que salió. Tengo muchas oportunidades para cometer errores estadísticos, ¡así que siempre estoy agradecido de que se los señalen antes de cometerlos!
whuber


41

Estadísticas ritualizadas.

Este "pecado" es cuando aplicas cualquier cosa que te enseñaron, independientemente de su idoneidad, porque así es como se hacen las cosas. Son estadísticas de memoria, un nivel superior que permite que la máquina elija sus estadísticas por usted.

Los ejemplos son Introducción a los estudiantes de nivel de Estadística que intentan que todo encaje en su modesta prueba t y el kit de herramientas ANOVA, o cada vez que uno se encuentra diciendo "Oh, tengo datos categóricos, debería usar X" sin parar para mirar el datos, o considere la pregunta que se hace.

Una variación de este pecado implica el uso de código que no entiendes para producir resultados que solo entiendes, pero conoces "la quinta columna, aproximadamente 8 filas hacia abajo" o la respuesta que se supone que debes estar buscando.


66
Desafortunadamente, si no está interesado en la inferencia estadística, o si tiene poco tiempo y / o recursos, el ritual parece muy atractivo ...
probabilidadislogic

Para mí, la descripción de Epigrad es de alguien a quien le importa demasiado la inferencia y descuida cosas como la reflexión, el descubrimiento y la consideración de la causalidad.
rolando2

35

Tal vez la regresión gradual y otras formas de prueba después de la selección del modelo.

Seleccionar variables independientes para modelar sin tener una hipótesis a priori detrás de las relaciones existentes puede conducir a falacias lógicas o correlaciones espurias, entre otros errores.

Referencias útiles (desde una perspectiva biológica / bioestadística):

  1. Kozak, M. y Azevedo, R. (2011). ¿Tiene sentido usar la selección de variables por pasos para construir modelos de análisis de ruta secuenciales? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB y Freckleton, RP (2006). ¿Por qué todavía utilizamos modelos paso a paso en ecología y comportamiento? The Journal of animal ecology, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Estrategias de modelado de regresión , Springer 2001.


32

Algo que veo una cantidad sorprendente en los documentos de la conferencia e incluso en las revistas es hacer comparaciones múltiples (por ejemplo, correlaciones bivariadas) y luego informar que todos los p <.05s son "significativos" (ignorando lo correcto o incorrecto de eso por el momento).

También sé lo que quieres decir con los graduados en psicología: he terminado un doctorado en psicología y todavía solo estoy aprendiendo realmente. Es bastante malo, creo que la psicología necesita tomar el análisis cuantitativo de datos más en serio si vamos a usarlo (lo cual, claramente, deberíamos)


99
Esto es particularmente importante. Recuerdo haber leído un estudio sobre si el Ramadán era malo para los bebés cuyas madres estaban en ayunas. Parecía plausible (menos comida, menor peso al nacer), pero luego miré el apéndice. Miles de hipótesis, y un pequeño porcentaje de ellas estaban en el rango "significativo". Obtienes extrañas "conclusiones" como "es malo para el niño si Ramadan es el segundo, cuarto o sexto mes".
Carlos

29

Siendo exploratorio pero pretendiendo ser confirmatorio. Esto puede suceder cuando uno está modificando la estrategia de análisis (es decir, ajuste del modelo, selección de variables, etc.) impulsada por datos o por resultados, pero no declara esto abiertamente y luego solo informa los resultados "mejores" (es decir, con valores p más pequeños) como si había sido el único análisis. Esto también pertenece al punto si las pruebas múltiples que hizo Chris Beeley y resultan en una alta tasa de falsos positivos en los informes científicos.


26

Lo que veo con bastante frecuencia y siempre muele mis engranajes es la suposición de que un efecto principal estadísticamente significativo en un grupo y un efecto principal no estadísticamente significativo en otro grupo implica un efecto significativo x interacción del grupo.


24

Especialmente en epidemiología y salud pública: usar la aritmética en lugar de la escala logarítmica al informar gráficos de medidas relativas de asociación (razón de riesgo, razón de probabilidades o razón de riesgo).

Más información aquí .


55
Sin mencionar que no los etiqueta en absoluto xkcd.com/833
radek

23

La correlación implica causalidad, que no es tan mala como aceptar la hipótesis nula.


pero a veces ... a veces las posibles direcciones de causalidad tienen probabilidades muy dispares. Ciertamente, no voy a pensar que una correlación entre la edad y la altura podría ser causada por la altura ... o alguna variable interviniente tampoco. Además, creo que este es uno al que la capacitación en ciencias del comportamiento generalmente es bastante sensible.
John

de hecho, inferir algo de lo que A and B are correlatedgeneralmente solo se ve A causes Bpero no B causes A... (y olvidarse de Clas causas Ay B)
Andre Holzner

12
google gana $ 65B al año sin importarle la diferencia ...
Neil McGuigan

55
Estoy de acuerdo con sus puntos y todos son válidos. Pero, ¿implica el beneficio de Google: correlación => causalidad?
suncoolsu

3
Google gana todo ese dinero sin preocuparse por la causalidad. De hecho, ¿por qué lo haría? La predicción es la cosa ...
conjugateprior

23

Análisis de datos de velocidad (precisión, etc.) utilizando ANOVA, asumiendo que los datos de velocidad tienen un error distribuido gaussiano cuando en realidad se distribuyen binomialmente. Dixon (2008) ofrece una discusión sobre las consecuencias de este pecado y la exploración de enfoques de análisis más apropiados.


44
¿Cuánto disminuye esto el poder del análisis? ¿En qué condiciones es más problemático? En muchos casos, las desviaciones de los supuestos de ANOVA no afectan sustancialmente los resultados en gran medida.
Michael Lew el

¿Cuál es la alternativa al procedimiento ANOVA?
Henrik el

@Michael Lew & Henrik: Acabo de actualizar esta entrada para incluir un enlace a Dixon (2008)
Mike Lawrence

2
Pero en resumen, es más problemático cuando las probabilidades observadas son bajas o altas, ya que el rango de valores está restringido y no puede cumplir con los supuestos gaussianos.
russellpierce

Esto es tan malo como la aproximación normal al binomio: debería estar bien, siempre que cada caso esté ponderado por el denominador utilizado para calcular la tasa. Es de esperar que funcione mal para tasas inferiores al 10% y superiores al 90%.
probabilityislogic

18

Un popular actual está trazando intervalos de confianza del 95% alrededor de los valores de rendimiento sin procesar en diseños de medidas repetidas cuando solo se relacionan con la varianza de un efecto. Por ejemplo, una gráfica de tiempos de reacción en un diseño de medidas repetidas con intervalos de confianza donde el término de error se deriva del MSE de un ANOVA de medidas repetidas. Estos intervalos de confianza no representan nada sensato. Ciertamente no representan nada sobre el tiempo de reacción absoluto. Podría usar el término de error para generar intervalos de confianza alrededor del efecto, pero eso rara vez se hace.


¿Existe un artículo estándar que pueda citarse para disuadir a los revisores de exigir esta práctica tan común?
russellpierce

La única crítica que conozco es Blouin y Riopelle (2005), pero no llegan al meollo del asunto. En general, no insisto en no mostrarlos, sino en hacer algo correcto como en los gráficos de efectos de Masson & Loftus (2003, ver figura 4, panel derecho ... si se hubieran eliminado del izquierdo, lo habrías hecho bien )
John

Para que quede claro, el problema con esos CI es que se usan exclusivamente por razones de inferencia con respecto a las diferencias entre las condiciones y, por lo tanto, son peores incluso que PLSD ... de hecho, los prefiero. Al menos son honestos.
John

17

Si bien puedo relacionarme con gran parte de lo que dice Michael Lew, abandonar los valores p en favor de las razones de probabilidad todavía pasa por alto un problema más general: enfatizar demasiado los resultados probabilísticos sobre los tamaños de los efectos, que son necesarios para dar un resultado de significado sustancial. Este tipo de error se presenta en todas las formas y tamaños y creo que es el error estadístico más insidioso. Sobre la base de J. Cohen y M. Oakes y otros, he escrito un artículo sobre esto en http://integrativestatistics.com/insidious.htm .


3
En realidad, no estoy claro sobre cómo una razón de probabilidad (LR) no logra todo lo que logra un tamaño de efecto, a la vez que empleo una escala fácilmente interpretable (los datos contienen X veces más evidencia de Y que de Z). El tamaño de un efecto suele ser solo una forma de relación de variabilidad explicada a inexplicable, y (en el caso anidado) el LR es la relación de variabilidad inexplicada entre un modelo que tiene un efecto y uno que no. ¿No debería haber al menos una fuerte correlación entre el tamaño del efecto y LR, y si es así, qué se pierde al pasar a la escala de razón de probabilidad?
Mike Lawrence

Mike: Me has interesado, pero ¿tus puntos se extienden a tamaños de efectos tan simples como las diferencias de medias entre grupos? Estos pueden ser fácilmente interpretados por un laico y también se les pueden asignar intervalos de confianza.
rolando2

Ah, entonces, por tamaño del efecto, te refieres al tamaño del efecto absoluto, un valor que no tiene sentido en sí mismo, pero que puede hacerse significativo mediante la transformación en un tamaño de efecto relativo (dividiendo por alguna medida de variabilidad, como mencioné), o calculando un intervalo de confianza para el tamaño del efecto absoluto. Mi argumento anterior se aplica a los méritos de los LR frente a los tamaños de efectos relativos. Puede ser útil calcular los CI de efectos en los casos en que el valor real del efecto es de interés (p. Ej., Predicción), pero sigo defendiendo el LR como una escala más intuitiva para hablar de evidencia a favor o en contra de los efectos.
Mike Lawrence

Supongo que el uso de LR vs CI probablemente variará de acuerdo con el contexto, que puede resumirse útilmente de la siguiente manera: etapas más exploratorias de la ciencia, donde las teorías se caracterizan aproximadamente por la existencia / ausencia de fenómenos, pueden preferir LR para cuantificar la evidencia. Por otro lado, los IC pueden preferirse en etapas más avanzadas de la ciencia, donde las teorías se refinan lo suficiente como para permitir predicciones matizadas que incluyen rangos de efectos esperados o, por el contrario, cuando diferentes rangos de magnitudes de efectos admiten diferentes teorías. Finalmente, las predicciones generadas a partir de cualquier modelo necesitan CI.
Mike Lawrence

0|β|=1|β|>1|β|1β=0β0

15

No probar el supuesto de que el error se distribuye normalmente y tiene una variación constante entre tratamientos. Estas suposiciones no siempre se prueban, por lo que el ajuste del modelo de mínimos cuadrados probablemente se usa a menudo cuando en realidad no es apropiado.


11
¿Qué tiene de inapropiado la estimación de mínimos cuadrados cuando los datos son no normales o heteroscedasticos? No es totalmente eficiente, pero sigue siendo imparcial y consistente.
Rob Hyndman el

3
Si los datos son heteroscedásticos, puede terminar con predicciones muy inexactas fuera de la muestra porque el modelo de regresión tratará de minimizar el error en muestras en áreas con alta varianza y no lo suficientemente fuerte en muestras de áreas de baja varianza. Esto significa que puede terminar con un modelo muy sesgado. También significa que las barras de error en las predicciones serán incorrectas.
Dikran Marsupial

66
No, es imparcial, pero la variación es mayor que si usara un método más eficiente por las razones que explica. Sí, los intervalos de predicción son incorrectos.
Rob Hyndman el

44
Sí (estaba usando sesgado en un sentido coloquial en lugar de estadístico para indicar que el modelo estaba sesgado sistemáticamente hacia observaciones en regiones de alta varianza del espacio de características, ¡mea culpa!), Sería más exacto decir que la varianza más alta significa existe una mayor probabilidad de obtener un modelo pobre utilizando un conjunto de datos finito. Esa parece una respuesta razonable a su pregunta. Realmente no considero que la imparcialidad sea una gran comodidad: lo importante es que el modelo debe dar buenas predicciones sobre los datos que realmente tengo y, a menudo, la variación es más importante.
Dikran Marsupial

14

Mi curso de introducción a la psicometría en pregrado pasó al menos dos semanas enseñando cómo realizar una regresión gradual. ¿Hay alguna situación en la que la regresión gradual sea una buena idea?


66
La "buena idea" depende de la situación. Cuando desea maximizar la predicción, no es una idea horrible, aunque puede conducir a un ajuste excesivo. Hay algunos casos raros en los que es inevitable, donde no hay una teoría que guíe la selección del modelo. No consideraría la regresión gradual como un "pecado", pero usarla cuando la teoría es suficiente para impulsar la selección del modelo lo es.
russellpierce

20
Quizás el pecado está haciendo pruebas estadísticas en un modelo obtenido a través de regresión gradual.
Rob Hyndman

3
Está bien si usa validación cruzada y no extrapola. Sin embargo, no publique los valores p, ya que no tienen sentido.
Neil McGuigan el

Estoy trabajando en un proyecto que usa regresión gradual. La razón es porque tengo D >> N, donde D es la dimensionalidad y N es el tamaño de la muestra (descartando el uso de un modelo con todas las variables), los subconjuntos de las características están altamente correlacionados entre sí, quiero una forma de principios estadísticos de seleccionar quizás 2-3 "mejores" características, y no pretendo informar los valores P, al menos sin algún tipo de corrección bastante conservadora.
dsimcha

12

Mi antiguo profesor de estadísticas tenía una "regla general" para tratar los valores atípicos: si ve un valor atípico en su diagrama de dispersión, cúbralo con su dedo pulgar :)


Esto es similar a Winsorization, que no es demasiado terrible.
Ari B. Friedman

12

Esto puede ser más una respuesta de estadísticas pop que lo que está buscando, pero:

Usar la media como indicador de ubicación cuando los datos están muy sesgados .

Esto no es necesariamente un problema, si usted y su audiencia saben de lo que están hablando, pero generalmente este no es el caso, y es probable que la mediana dé una mejor idea de lo que está sucediendo.

Mi ejemplo favorito es el salario medio, que generalmente se informa como "salario promedio". Dependiendo de la desigualdad de ingresos / riqueza en un país, esto puede ser muy diferente del salario medio, lo que proporciona un indicador mucho mejor de dónde se encuentran las personas en la vida real. Por ejemplo, en Australia, donde tenemos una desigualdad relativamente baja, la mediana es 10-15% más baja que la media . En los Estados Unidos la diferencia es mucho más marcada. , la mediana es inferior al 70% de la media y la brecha está aumentando.

Informar sobre el salario "promedio" (promedio) da como resultado una imagen más atractiva de lo que se garantiza, y también podría dar a un gran número de personas la falsa impresión de que no están ganando tanto como las personas "normales".


Hay una discusión semi-relacionada de esto, ya que se aplica al análisis de tendencias aquí: tamino.wordpress.com/2012/03/29/…
naught101

2
Esto no solo está relacionado con la asimetría, sino que es un problema general que la media, o cualquier otra medida de tendencia central, no es suficiente sin considerar la dispersión. Por ejemplo, si las medianas de dos grupos fueran iguales, pero el rango intercuartil fuera 100 veces mayor para una población. Simplemente mirando la mediana, diría que son la "misma distribución de población", cuando en realidad serían muy diferentes. Sin mencionar los múltiples modos que crean problemas ...
probabilidadislogic

Pero, para algunos propósitos, el significado es relevante: el salario es una variable extensa , lo que significa que las sumas de salarios son significativas. Para preguntas donde el ingreso salarial total de algún (sub) grupo es relevante, las medias son lo correcto: el total puede recuperarse de la media, no de la mediana.
kjetil b halvorsen

@kjetilbhalvorsen: ¿Por qué no usar el total entonces?
naught101

n

10

Que el valor p es la probabilidad de que la hipótesis nula sea verdadera y (1-p) es la probabilidad de que la hipótesis alternativa sea verdadera, de que el hecho de no rechazar la hipótesis nula significa que la hipótesis alternativa es falsa, etc.


1
1

Interesante, ¿me puede dar una referencia para leer sobre esto?
Dikran Marsupial

2
(aquí tienes) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] personalmente, aunque me parece interesante, me cuesta la pregunta de por qué la distribución posterior de la razón de probabilidad es la cantidad de interesar.
chanceislogic

10

De manera similar a @dirkan: el uso de valores p como una medida formal de evidencia de que la hipótesis nula es verdadera. Tiene algunas buenas características heurísticas e intuitivamente buenas, pero es esencialmente una medida de evidencia incompleta porque no hace referencia a la hipótesis alternativa. Si bien los datos pueden ser poco probables bajo nulo (lo que lleva a un pequeño valor p), los datos pueden ser aún más improbables bajo la hipótesis alternativa.


¡No estoy respondiendo porque no quiero tomar la molestia de pensar en uno y, de hecho, leer todos los que ya se han dado para asegurarme de que no repita uno! Pero creo que puedo ser útil. Hay un libro de Good and Hardin titulado "Errores comunes en las estadísticas y cómo evitarlos". Puedes encontrar muchos buenos ejemplos allí. Es un libro popular que ya está entrando en su cuarta edición.
Michael Chernick

También el libro de Altman con Chapman & Hall / CRC "Estadísticas prácticas en investigación médica" tiene un capítulo sobre la literatura médica donde se revelan muchos pecados estadísticos que ocurrieron en artículos publicados.
Michael Chernick

9

Usar gráficos circulares para ilustrar frecuencias relativas. Más aquí .


2
Sería bueno incluir algún razonamiento en el sitio.
naught101

9

Uso de estadísticas / probabilidad en pruebas de hipótesis para medir la "verdad absoluta". Las estadísticas simplemente no pueden hacer esto, solo pueden ser útiles para decidir entre alternativas , que deben especificarse desde "fuera" del paradigma estadístico. Las afirmaciones tales como "la hipótesis nula es comprobada por las estadísticas" son simplemente incorrectas; las estadísticas solo pueden decirle "la hipótesis nula es favorecida por los datos, en comparación con la hipótesis alternativa". Si luego asume que la hipótesis nula o la alternativa deben ser verdaderas, puede decir "lo nulo demostró ser cierto", pero esto es solo una consecuencia trivial de su suposición, no nada demostrado por los datos.


9

α=0.05

Y de manera similar a (o casi lo mismo) la respuesta de @ ogrisel , realizando una búsqueda en la cuadrícula e informando solo el mejor resultado.


Creo que querías vincularte a un cómic diferente, aunque es inmortal.
rolando2

Posiblemente, si recuerdo bastante bien lo que tenía en mente en ese momento: xkcd.com/882
Andrew

8

(Con un poco de suerte, esto será controvertido).

Utilizando un enfoque de Neyman-Pearson para el análisis estadístico de experimentos científicos. O, peor aún, usando un híbrido mal definido de Neyman-Pearson y Fisher.


lamento ser ignorante, pero ¿qué hay de malo en una construcción de Neyman-Pearson para el análisis de (el resultado de) experimentos científicos?
Andre Holzner

@Andre Creo que este comentario puede estar estrechamente relacionado con otro ofrecido por @Michael Lew en otra parte de este hilo ( stats.stackexchange.com/questions/4551/… ).
whuber

8

Solicitar y tal vez obtener El Diagrama de flujo : Esa cosa gráfica en la que dice cuál es el nivel de sus variables y qué tipo de relación está buscando, y sigue las flechas hacia abajo para obtener una Prueba de marca o una Estadística de marca . A veces se ofrece con caminos misteriosos 'paramétricos' y 'no paramétricos'.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.