Prueba de Kolmogorov-Smirnov?

Estoy estudiando las perturbaciones causadas por el tráfico de barcos a una pequeña ave marina. Observé animales focales durante un período de tiempo determinado y registré si volaban o no desde el agua durante la observación. Esta ave en particular no vuela con altas probabilidades cuando no es molestada (aproximadamente el 10% del tiempo). Post hoc, he agregado la distancia al barco más cercano a cada observación (los barcos de interés tenían localizadores GPS que registraban un punto cada 5 segundos).

He trazado la función de distribución acumulativa para TODAS las observaciones y para las observaciones en las que el pájaro voló desde el agua en función de la distancia al barco más cercano. Como se esperaba, la mayoría de las observaciones en las que voló el pájaro se observaron cuando el barco estaba cerca.

trama ecdf, vuela, no vuela, todo obs

¿Puedo usar la prueba de Kolmogorov-Smirnov para probar si hay una diferencia estadística en la distribución de las observaciones de vuelo y las observaciones totales? Mi pensamiento es que si estas dos distribuciones son diferentes, sugeriría que la distancia del barco influye en el vuelo. Me preocupa, ya que estas funciones de distribución no son independientes, ya que las observaciones de vuelo son un subconjunto de las observaciones totales.

Pensamientos?

Después de leer un poco más en este sitio, creo que puedo probar la distribución de las observaciones en las que se produjo el vuelo (F) contra la distribución de las observaciones en las que no ocurrió (NF), ya que son independientes. Si estas distribuciones son las mismas F = NF, entonces podemos suponer que la distribución de (F) y (TOT = todas las observaciones) son las mismas, ya que sabemos que la distribución de (F) es igual a sí misma y (F) + (T) = (TOT). ¿Derecha?

ACTUALIZACIÓN: 2/12/14

Siguiendo las sugerencias de @Scortchi, investigué la relación de la incidencia de vuelo vs distancia al barco más cercano en un marco de regresión logística. Hubo una ligera relación presente (pendiente negativa) pero el valor p no fue significativo, lo que sugiere que la pendiente verdadera podría ser cero. Con base en las estadísticas descriptivas (incluidas las parcelas ecdf) sospeché que el efecto de los barcos cercanos se estaba ahogando por las muchas observaciones cuando el barco no estaba afectando el comportamiento. Luego usé el paquete R segmentado ( http://cran.r-project.org/web/packages/segmented/segmented.pdf) para tratar de encontrar un punto de quiebre en el modelo. El programa descubrió que romper los datos a 2.6 km del barco y ajustar dos coeficientes separados era mejor que el modelo de coeficiente único. El coeficiente para la pendiente de las aproximaciones de barcos cercanos fue negativo y sugiere que los barcos afectan la respuesta de vuelo hasta aproximadamente 2.6 km (valor p <0.001). El coeficiente para la segunda pendiente fue ligeramente positivo, pero el valor p no fue significativo en el nivel alfa de 0.05 (valor p = 0.11). En resumen, la línea de regresión segmentada pudo detectar una diferencia de umbral a la que aumenta la probabilidad de vuelo. La estimación de la probabilidad de vuelo cuando el barco está más allá de 2.6 km es 0.11. Oportunamente, observé 79 aves cuando ni siquiera había barcos en la bahía de estudio (>

Gracias por todas las sugerencias. Espero que esta pregunta junto con las sugerencias y respuestas ayude a otros.

kolmogorov-smirnov

— marcellt
fuente

¿Por qué no la regresión logística con voló / no voló como respuesta, y la distancia al barco más cercano como predictor?

— Scortchi - Restablece a Monica

He intentado eso La intersección es significativa pero la pendiente no lo es. Hay demasiado ruido (vuelo) en los datos a distancias no biológicamente relevantes. Este es el vuelo natural que ocurre en esta especie. Estoy tratando de determinar la distancia a la que el barco afecta el vuelo para poder agrupar las observaciones como "en presencia" o "en ausencia" de barcos. Creo que la distancia máxima o el punto en el que se calcula la estadística D podría acercarme a ese objetivo.

— marcellt

Mala idea, mira aquí . Y usar la variable de respuesta para decidir dónde romper una variable continua es especialmente malo, sesgando las estimaciones de coeficientes. ¿Comprobó la curvatura en la relación del logit de la respuesta al predictor?

— Scortchi - Restablece a Monica

No hay nada malo con su prueba (F vs NF), o con determinar la distancia a la cual los ECDF están más separados; pero (a) usar sus datos para definir grupos de control y tratamiento, luego probar / modelar los mismos datos en esos grupos no es válido; (b) a menos que realmente piense que hay una distancia más allá de la cual las aves no se ven afectadas y dentro de las cuales se ven afectadas, esa es una mala forma de modelarlo incluso para datos futuros; (c) dadas las diferencias evidentes entre los ECDF, una regresión logística adecuadamente especificada debería mostrar un efecto significativo de la distancia del barco en la probabilidad de vuelo.

— Scortchi - Restablece a Monica

(i) Realmente no desea comparar (A vs A + B) porque pierde la independencia de los dos y cualquier prueba tendrá que ajustarse para eso (lo cual será complicado en muchos casos). Prueba A vs B y mantén la independencia. Ninguna de las pruebas estándar funcionará de otra manera. (ii) desea evitar discretizar los predictores si se puede evitar.

— Glen_b -Reinstala a Mónica el

Interesante problema Tengo dos pensamientos, uno general y otro sobre cómo caracterizar sus datos ...

Primero, con respecto a la comparación de distribuciones, estoy de acuerdo con @Glen_b y @Scortchi en que no desea comparar Fly vs All como se muestra en su gráfico (pero es una buena idea superponer el gráfico de la estadística D). Debido a que cree firmemente en dónde es probable que las distribuciones sean diferentes, y no solo en que son diferentes, es posible que desee considerar la comparación de cuantiles de las dos distribuciones. Hay una buena publicación de blog sobre el tema que funciona a través del código R para desarrollar el método de prueba. Y hay un paquete R, WRS , que implementa métodos de prueba basados en cuantiles.

En segundo lugar, consideraría dejar el uso de una prueba de comparación formal por completo y en su lugar usar Weight of Evidence (WOE). Este enfoque se usa comúnmente en industrias que necesitan marcos de decisión que aborden diferentes niveles de riesgo en varios predictores. Los ejemplos incluyen suscripción de seguros, evaluación de crédito y ensayos clínicos.

En su entorno, existe un "riesgo" de vuelo de referencia (usted dijo 10%), pero las probabilidades de vuelo parecen aumentar considerablemente en presencia de barcos a ciertas distancias. Usando el enfoque WOE, puede transmitir el cambio en las probabilidades de vuelo en función de la distancia de un barco, lo cual es fácil de entender para el público lego (bueno, al menos más fácil que comprender los valores p asociados con las estadísticas de prueba). Tenga en cuenta que esto está estrechamente relacionado con la sugerencia de @ Scortchi de utilizar la regresión logística, pero con WOE no está tratando de ajustar un modelo de regresión.

Hay buena documentación en el sitio web de Statistica para aplicar el método, pero la mejor introducción que he encontrado es en un libro de Calificación crediticia, Modelado de respuestas y Calificación de seguros: una guía práctica para pronosticar el comportamiento del consumidor . Si busca el término "WOE", encontrará varias secciones que discuten la idea, y la sección 5.1 le muestra un ejemplo completo de cómo calcular WOE (es bastante fácil) y evaluar los resultados para la toma de decisiones. Finalmente, tenga en cuenta que hay una publicación de stackoverflow sobre este tema, que no está muy desarrollada, pero hay un enlace a PDF que muestra otro ejemplo en el contexto de la codificación SAS.

— Josh Hemann
fuente