Comprobación de un pico estadísticamente significativo

Tengo un conjunto de datos, y . Me gustaría probar la siguiente hipótesis: hay un pico en ; es decir, a medida que aumenta, primero aumenta y luego disminuye. $y$ $x$ $y$ $x$ $y$

Mi primera idea fue ajustar y en una SLR. Es decir, si encuentro que el coeficiente antes de es significativamente positivo y el coeficiente antes de es significativamente negativo, entonces tengo apoyo para la hipótesis. Sin embargo, esto solo busca un tipo de relación (cuadrática) y no necesariamente captura la existencia del pico. $x$ $x^2$ $x$ $x^2$

Entonces pensé en encontrar , una región de (valores ordenados de) , que está entre y , otras dos regiones de que contienen al menos tantos puntos como , y que y significativamente. Si la hipótesis es cierta, deberíamos esperar muchas de esas regiones . Por lo tanto, si el número de es lo suficientemente grande, debe existir apoyo para la hipótesis. $b$ $x$ $b$ $a$ $c$ $x$ $b$ $\bar{y_b}>\bar{y_a}$ $\bar{y_b}>\bar{y_c}$ $b$ $b$

¿Crees que estoy en el camino correcto para encontrar una prueba adecuada para mi hipótesis? ¿O estoy inventando la rueda y hay un método establecido para este problema? Le agradeceré mucho su aporte.

ACTUALIZAR. Mi variable dependiente es count (entero no negativo). $y$

regression statistical-significance curves

— Nikita Samoylov
fuente

varía suavemente con

? Si es así, puede intentar ajustar un modelo que incluya un suavizador (digamos un GAM) y luego calcular las primeras derivadas del suavizador ajustado y su intervalo de confianza. Si la derivada es significativa, entonces significa que disminuye, tiene una respuesta.

y

$y$

x

$x$

— Restablecer Mónica - G. Simpson

Respuestas:

Estaba pensando en la idea de suavizar también. Pero hay un área entera llamada metodología de superficie de respuesta que busca picos en datos ruidosos (implica principalmente el uso de ajustes cuadráticos locales a los datos) y había un famoso artículo que recuerdo con "Bump hunting" en el título. Aquí hay algunos enlaces a libros sobre metodología de superficie de respuesta. Los libros de Ray Myer están particularmente bien escritos. Trataré de encontrar el papel de caza de golpes.

Metodología de superficie de respuesta: optimización de procesos y productos mediante experimentos diseñados

Metodología de superficie de respuesta y temas relacionados

Metodología de superficie de respuesta

Construcción de modelos empíricos y superficies de respuesta

Aunque no es el artículo que estaba buscando, aquí hay un artículo muy relevante de Jerry Friedman y Nick Fisher que trata estas ideas aplicadas a datos de alta dimensión.

Aquí hay un artículo con algunos comentarios en línea.

Así que espero que al menos aprecies mi respuesta. Creo que sus ideas son buenas y están en el camino correcto, pero sí, creo que podría estar reinventando la rueda y espero que usted y otros vean estas excelentes referencias.

— Michael R. Chernick
fuente

No estaba entre los votantes negativos, pero se espera que las respuestas en los sitios de SE sean más que un enlace al contenido. Resumir el contenido o proporcionar una respuesta resumida y luego vincularlo al contenido para obtener más detalles sería mejor.

— Restablecer Mónica - G. Simpson

Estoy votando este porque (1) presenta una buena idea; (2) tiene algún comentario; y (3) es compatible con algunos enlaces cuidadosamente seleccionados, incluido material disponible gratuitamente. Sí, se ve tipográficamente malo, porque los enlaces podrían estar mejor formateados: ¡pero espero que la gente no esté sopesando mucho ese aspecto de las respuestas en sus decisiones de votación!

— whuber

@whuber Estoy de acuerdo después de poder leerlo claramente debido al buen formato de Procastinator. +1 también. Creo que hay suficiente resumen aquí y algunos temas son casi demasiado complejos para algo más que la idea fundamental y una referencia para leer más.

— Erik

@MichaelChernick Tenga en cuenta que no fue una crítica de mi parte, solo ofrece una razón por la cual la gente podría haber votado en contra. No estaría de acuerdo con ellos si esa fuera la razón porque creo que su respuesta es acertada, especialmente con PRIM; Estaba consultando a mi Hastie et al (2009) sobre lo que decía en PRIM. Es posible que desee agregar ese enlace a la Respuesta, ya que hay dos secciones en PRIM allí y el PDF está disponible de forma gratuita.

— Restablece a Monica - G. Simpson el

@Nikita ¿Cuál es la hipótesis estadística formal que quieres probar? Primero tienes que encontrar los picos, que es una gran parte de esto. ¿Estás probando que el pico no es solo el resultado del ruido? No estoy seguro de qué literatura hay para resolver este problema, pero creo que podría ajustar una regresión polinómica a los datos (tal vez una cuadrática localmente). A partir de eso, tendría una estimación de la varianza residual. La significación estadística del término cuadrático sería una prueba de significación del pico.

— Michael R. Chernick

Aunque no haya respondido a mi pregunta, si creo que es correcto, está buscando una prueba de ruido blanco que se encuentre en el dominio de la frecuencia para mostrar que el espectro es plano. Por lo tanto, podría usarse la prueba del periodograma de Fisher que en esta referencia se llama kappa de Fisher. Ver el enlace.

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

La prueba de Bartlett también se menciona en la referencia. Ahora, rechazar la hipótesis nula equivale a encontrar un pico significativo en el periodograma. Esto significaría que existe un componente periódico en la serie de tiempo.

Debido a que la prueba está en el dominio de la frecuencia e involucra ordenadas de periodograma, las ordenadas tienen una distribución de chi cuadrado 2 bajo la hipótesis nula y son independientes. Esta distribución especial se produce solo por la transformación al dominio de frecuencia. Si x fuera el tiempo, esto no funcionaría en el dominio del tiempo o, en general, la distribución de las ys no sería chi cuadrado independiente.

$_m$

— Michael R. Chernick
fuente

Cuanto más pregunto en este sitio web, más aprendo =), esta vez sobre las pruebas de ruido blanco y sobre la necesidad de dar suficiente información en mis preguntas. Lamento no haber respondido a su pregunta lo antes posible. Creo que las pruebas de ruido blanco para residuos serían adecuadas cuando los errores se distribuyen normalmente, pero mi variable dependiente

y

$y$ es realmente contar Por lo tanto, no esperaría ver ruido blanco en los residuos en ningún caso. ¿O me estoy perdiendo algo?

— Nikita Samoylov

Entonces, ¿son datos de recuento y cuál es xa variable explicativa continua? Mis sugerencias anteriores probablemente no lo hagan en ese caso, pero hay mucha literatura reciente sobre modelos de conteo. Entonces, si puede ser un poco más específico sobre los datos y el problema, tal vez pueda señalar una solución.

— Michael R. Chernick

Si,

y

$y$ es contar

x

$x$ es continuo (pero no negativo). No estoy seguro de qué otra información sería importante.

— Nikita Samoylov

No estoy seguro de si esto ayudará o no, pero Cameron y Trivedi publicaron un libro sobre modelos de regresión de conteos y tienen una segunda edición que saldrá en 2013. Aquí hay un enlace con información: cameron.econ.ucdavis.edu/racd/count .html

— Michael R. Chernick