Ziliak (2011) se opone al uso de valores p y menciona algunas alternativas; ¿Qué son?


25

En un artículo reciente sobre los deméritos de confiar en el valor p para la inferencia estadística, llamado "Matrixx v. Siracusano y Student v. Fisher Significación estadística en el juicio" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak se opone al uso de valores p. En los párrafos finales dice:

Los datos son lo único que ya sabemos, y con certeza. Lo que realmente queremos saber es algo bastante diferente: la probabilidad de que una hipótesis sea cierta (o al menos prácticamente útil), dados los datos que tenemos. Queremos saber la probabilidad de que los dos medicamentos sean diferentes y en qué medida, dada la evidencia disponible. La prueba de significación, basada en la falacia del condicional transpuesto, la trampa en la que cayó Fisher, no nos dice ni puede decirnos esa probabilidad. La función de potencia, la función de pérdida esperada y muchos otros métodos teóricos de decisión y bayesianos que descienden de Student y Jeffreys, ahora ampliamente disponibles y gratuitos en línea, sí.

¿Cuál es la función de potencia, la función de pérdida esperada y "otros métodos bayesianos y teóricos de decisión"? ¿Son estos métodos ampliamente utilizados? ¿Están disponibles en R? ¿Cómo se implementan estos nuevos métodos sugeridos? ¿Cómo, por ejemplo, usaría estos métodos para probar mi hipótesis en un conjunto de datos que de lo contrario usaría las pruebas t y valores p convencionales de dos muestras?


Hay muchos documentos que argumentan en contra del uso de valores solo, pero realmente depende del contexto, OMI. ¿Podría agregar más información sobre lo que le interesa (vea su última oración)? pags
chl

2
No tengo acceso al artículo, pero este argumento indica una comprensión bastante defectuosa de lo que está sucediendo. A pesar de una comprensión errónea, la conclusión de que vale la pena considerar otras estadísticas es razonable. La función de pérdida esperada es simplemente una estimación del valor esperado de la función de pérdida (por ejemplo, error al cuadrado, logística, etc.).
Iterator

Debido a un hilo similar publicado recientemente , he planteado una consulta sobre este hilo en Meta CV
Silverfish

Respuestas:


17

Esto suena como otro papel estridente de un individuo confundido. Fisher no cayó en ninguna trampa, aunque sí muchos estudiantes de estadística.

La prueba de hipótesis es un problema teórico de decisión. En general, terminas con una prueba con un umbral determinado entre las dos decisiones (hipótesis verdadera o hipótesis falsa). Si tiene una hipótesis que corresponde a un solo punto, como , puede calcular la probabilidad de que sus datos resulten cuando sea cierto. Pero, ¿qué haces si no es un solo punto? Se obtiene una función de θ . La hipótesis θ 0 es una hipótesis de este tipo, y obtienes dicha función para la probabilidad de producir tus datos observados dado que es cierta. Esa función es la función de poder. Es muy clasico. Fisher lo sabía todo.θ=0 0θθ0 0

La pérdida esperada es parte de la maquinaria básica de la teoría de la decisión. Tiene varios estados de la naturaleza, y varios datos posibles resultantes de ellos, y algunas decisiones posibles que puede tomar, y desea encontrar una buena función de los datos a la decisión. ¿Cómo se define bien? Dado un estado particular de la naturaleza subyacente a los datos que ha obtenido y la decisión tomada por ese procedimiento, ¿cuál es su pérdida esperada? Esto se entiende más simplemente en problemas comerciales (si hago esto en función de las ventas que observé en los últimos tres trimestres, ¿cuál es la pérdida monetaria esperada?).

Los procedimientos bayesianos son un subconjunto de procedimientos teóricos de decisión. La pérdida esperada es insuficiente para especificar los mejores procedimientos únicos en todos los casos menos triviales. Si un procedimiento es mejor que otro en los estados A y B, obviamente lo preferirá, pero si uno es mejor en el estado A y uno es mejor en el estado B, ¿cuál elige? Aquí es donde entran en juego ideas auxiliares como los procedimientos de Bayes, la minimaxidad y la imparcialidad.

ttαβpagsαpags

También estoy un poco confundido sobre por qué nombra a Student y Jeffreys juntos, teniendo en cuenta que Fisher fue responsable de la amplia difusión del trabajo de Student.

Básicamente, el uso ciego de los valores p es una mala idea, y son un concepto bastante sutil, pero eso no los hace inútiles. ¿Deberíamos objetar su mal uso por parte de investigadores con bajos antecedentes matemáticos? Absolutamente, pero recordemos cómo era antes de que Fisher intentara destilar algo para que el hombre en el campo lo usara.


55
+1 para responder realmente la pregunta, y un +1 adicional (pero virtual) para desafiar la cita, que es provocativa pero problemática. Veo que es un participante reciente aquí, pero ya ha aportado muchas respuestas: muchas gracias y bienvenido (un poco tardío) a nuestro sitio.
whuber

Muchas gracias por tu respuesta detallada. Es útil pensar en estrategias alternativas que se sugieren en ese documento de manera crítica. Hice esta pregunta porque algunos colegas usaron este documento para decir que no deberíamos mirar los valores p en absoluto y me di cuenta de que no entendía lo que estas alternativas realmente significaban. Gracias por tu aclaración!
Ariel

@whuber No creo que esto responda la pregunta en absoluto. OP preguntaba sobre las alternativas que Ziliak sugiere, y esta respuesta no las aborda. Por ejemplo, la crítica de importancia de Ziliak toca por qué las personas usan un 5% o un 1% de importancia. Realmente no hay una razón sólida, y pudo rastrear estos niveles hasta los documentos de Fisher. Es solo un número arbitrario y conveniente. A diferencia de los enfoques "alternativos" basados ​​en ventajas pecuniarias, es decir, valores en dólares.
Aksakal

1
@ Aksakal Creo que se hace una contribución importante a la conversación al relacionar las pruebas de hipótesis con un problema teórico de decisión y conectar explícitamente el valor p a un riesgo esperado (basado en una función de pérdida 0-1).
whuber


5

El paquete ez proporciona proporciones de probabilidad cuando utiliza la ezMixed()función para realizar modelos de efectos mixtos. Las razones de probabilidad apuntan a cuantificar la evidencia de un fenómeno mediante la comparación de la probabilidad (dados los datos observados) de dos modelos: un modelo "restringido" que restringe la influencia del fenómeno a cero y un modelo "sin restricciones" que permite la influencia no cero de el fenómeno. Después de corregir las probabilidades observadas de la complejidad diferencial de los modelos (a través del Criterio de información de Akaike, que es asintóticamente equivalente a la validación cruzada), la relación cuantifica la evidencia del fenómeno.


4

Todas esas técnicas están disponibles en R en el mismo sentido que todo el álgebra está disponible en su lápiz. Incluso los valores p están disponibles a través de muchas funciones diferentes en R, decidir qué función usar para obtener un valor p o un Bayesiano posterior es más complejo que un puntero a una sola función o paquete.

Una vez que aprenda sobre esas técnicas y decida qué pregunta quiere realmente la respuesta, podrá ver (o podemos brindarle más ayuda) cómo hacerlo utilizando R (u otras herramientas). Solo decir que desea minimizar su función de pérdida, u obtener una distribución posterior es tan útil como responder "comida" cuando se le pregunta qué quiere comer para la cena.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.