Esta es mi primera publicación en StackExchange, pero la he estado utilizando como recurso durante bastante tiempo, haré todo lo posible para usar el formato apropiado y realizar las ediciones apropiadas. Además, esta es una pregunta de varias partes. No estaba seguro de si debía dividir la pregunta en varias publicaciones diferentes o solo en una. Como todas las preguntas son de una sección del mismo texto, pensé que sería más relevante publicarlas como una sola pregunta.
Estoy investigando el uso del hábitat de una gran especie de mamífero para una tesis de maestría. El objetivo de este proyecto es proporcionar a los administradores forestales (que probablemente no sean estadísticos) un marco práctico para evaluar la calidad del hábitat en las tierras que manejan con respecto a esta especie. Este animal es relativamente esquivo, un especialista en hábitat, y generalmente se encuentra en áreas remotas. Se han llevado a cabo relativamente pocos estudios sobre la distribución de la especie, especialmente estacionalmente. Varios animales fueron equipados con collares GPS por un período de un año. Cien ubicaciones (50 en verano y 50 en invierno) fueron seleccionadas al azar de los datos del collar GPS de cada animal. Además, se generaron aleatoriamente 50 puntos dentro del rango de hogar de cada animal para servir como ubicaciones "disponibles" o de "pseudo ausencia".
Para cada ubicación, se muestrearon varias variables de hábitat en el campo (diámetros de árboles, cobertura horizontal, escombros leñosos gruesos, etc.) y varias se tomaron muestras de forma remota a través de SIG (elevación, distancia al camino, rugosidad, etc.). Las variables son en su mayoría continuas, excepto por 1 variable categórica que tiene 7 niveles.
Mi objetivo es utilizar el modelo de regresión para construir funciones de selección de recursos (RSF) para modelar la probabilidad relativa de uso de unidades de recursos. Me gustaría construir un RSF estacional (invierno y verano) para la población de animales (diseño tipo I) así como para cada animal individual (diseño tipo III).
Estoy usando R para realizar el análisis estadístico.
El texto principal que he estado usando es ...
- "Hosmer, DW, Lemeshow, S. y Sturdivant, RX 2013. Regresión logística aplicada. Wiley, Chicester".
La mayoría de los ejemplos en Hosmer et al. uso STATA, También he estado usando las siguientes 2 textos para la referencia con R .
- "Crawley, MJ 2005. Estadísticas: una introducción utilizando RJ Wiley, Chichester, West Sussex, Inglaterra".
- "Plant, RE 2012. Análisis de datos espaciales en ecología y agricultura usando R. CRC Press, Londres, GBR".
Actualmente estoy siguiendo los pasos del Capítulo 4 de Hosmer et al. para la "Selección intencional de covariables" y tenga algunas preguntas sobre el proceso. He esbozado los primeros pasos en el texto a continuación para ayudar en mis preguntas.
- Paso 1: Un análisis univariable de cada variable independiente (utilicé una regresión logística univariable). Cualquier variable cuya prueba univariable tenga un valor p inferior a 0.25 debe incluirse en el primer modelo multivariable.
- Paso 2: Ajuste un modelo multivariable que contenga todas las covariables identificadas para su inclusión en el paso 1 y evalúe la importancia de cada covariable utilizando el valor p de su estadística de Wald. Las variables que no contribuyen a los niveles tradicionales de importancia deben eliminarse y ajustarse a un nuevo modelo. El modelo más nuevo y más pequeño debe compararse con el modelo antiguo y más grande utilizando la prueba de razón de probabilidad parcial.
- Paso 3: Compare los valores de los coeficientes estimados en el modelo más pequeño con sus valores respectivos del modelo grande. Cualquier variable cuyo coeficiente ha cambiado notablemente en magnitud debe agregarse nuevamente al modelo, ya que es importante en el sentido de proporcionar un ajuste necesario del efecto de las variables que permanecen en el modelo. Realice un ciclo a través de los pasos 2 y 3 hasta que parezca que todas las variables importantes están incluidas en el modelo y las excluidas son clínicamente y / o estadísticamente sin importancia. Hosmer y col. use el " delta-beta-hat-percent " como una medida del cambio en la magnitud de los coeficientes. Sugieren un cambio significativo como un delta-beta-hat-percent de> 20%. Hosmer y col. definir el delta-beta-hat-percent como . Dondeθ1es el coeficiente del modelo más pequeño yβ1es el coeficiente del modelo más grande.
- Paso 4: Agregue cada variable no seleccionada en el Paso 1 al modelo obtenido al final del paso 3, una a la vez, y verifique su significado ya sea por el valor p de la estadística de Wald o la prueba de razón de probabilidad parcial si es categórico variable con más de 2 niveles. Este paso es vital para identificar variables que, por sí mismas, no están significativamente relacionadas con el resultado pero hacen una contribución importante en presencia de otras variables. Nos referimos al modelo al final del Paso 4 como el modelo preliminar de efectos principales .
- Pasos 5-7: no he progresado hasta este punto, por lo que dejaré estos pasos por ahora o los guardaré para una pregunta diferente.
Mis preguntas:
- En el paso 2, ¿qué sería apropiado como un nivel tradicional de significancia, un valor p de <0.05 algo más grande como <.25?
- En el paso 2 nuevamente, quiero asegurarme de que el código R que he estado usando para la prueba de probabilidad parcial es correcto y quiero asegurarme de que estoy interpretando los resultados correctamente. Esto es lo que he estado haciendo ...
anova(smallmodel,largemodel,test='Chisq')
Si el valor p es significativo (<0.05), agrego la variable al modelo, si es insignificante, ¿procedo con la eliminación? - En el paso 3, tengo una pregunta con respecto al delta-beta-hat-percent y cuándo es apropiado volver a agregar una variable excluida al modelo. Por ejemplo, excluyo una variable a partir del modelo y cambia el para una variable diferente por> 20%. Sin embargo, la variable con el cambio> 20% en Delta ß % parece ser insignificante y se ve como si se excluye del modelo en los próximos ciclos de los pasos 2 y 3. ¿Cómo se puede hacer una determinación si ambas variables debe ser incluido o excluido del modelo? Debido a que procedo excluyendo 1 variable a la vez eliminando primero las variables menos significativas, dudo en excluir una variable fuera de orden.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])