Tengo un problema que creo que debería ser simple pero no puedo resolverlo. Estoy mirando la polinización de semillas, tengo plantas (n = 36) que florecen en racimos, tomo muestras de 3 racimos de flores de cada planta y 6 vainas de semillas de cada grupo (18 vainas de semillas en total de cada planta). Una vaina puede tener entre 0 y como máximo 4 semillas polinizadas. Entonces, los datos se cuentan, con un límite superior. Estoy encontrando que un promedio de ~ 10% de las semillas son polinizadas, pero entre 1 y 30% en una planta determinada, por lo que sobre datos dispersos, y por supuesto, faltan 4 réplicas de racimos en 3 plantas, por lo que no son perfectamente simétricas .
La pregunta que hago es si estos datos respaldan la idea de que esta planta requiere polinizadores para el conjunto de semillas.
Estoy descubriendo que la distribución de la cantidad de semillas en una vaina parece que hay más 0 vainas de semillas polinizadas (6-9 vainas de 16) y más 3 y 4 vainas de semillas polinizadas (2-4 para cada una) de lo que lo haría se esperaría si las semillas de la población se polinizaran al azar. Básicamente, creo que este es un ejemplo clásico para datos inflados cero, primero un insecto visita o no la flor (un generador cero) y si lo hace, luego poliniza 0-4 de las semillas en otra distribución. La hipótesis alternativa es que la planta se está autoajustando parcialmente, y entonces se esperaría que cada semilla tuviera la misma probabilidad de ser polinizada (estos datos sugieren una probabilidad de aproximadamente 0.1, lo que significa una probabilidad de 0.01 para dos semillas en la misma vaina, etc.) .
Pero simplemente quiero demostrar que los datos se ajustan mejor a una u otra distribución, no HACER realmente un ZIP o ZINB en los datos. Creo que cualquier método que use debe tener en cuenta la cantidad real de semillas polinizadas y la cantidad de vainas muestreadas en cada planta. Lo mejor que se me ocurrió es hacer algún tipo de correa de arranque donde simplemente asigno al azar el número de semillas polinizadas para una planta determinada en el número de vainas de semillas que probé, lo hago 10,000 veces y veo qué tan probable es los datos experimentales para la planta dada surgieron de esa distribución aleatoria.
Siento que hay algo en esto que debería ser mucho más fácil que el arranque de fuerza bruta, pero después de días de pensar y buscar, me doy por vencido. No puedo compararme con una distribución de Poisson porque es el límite superior, no es binomial porque necesito generar la distribución esperada de alguna manera primero. ¿Alguna idea? Y estoy usando R, así que los consejos allí (especialmente cómo generar de manera más elegante 10,000 distribuciones aleatorias de n bolas en 16 cajas que pueden contener cada una como máximo 4 bolas) serían bienvenidas.
AGREGADO 07/09/2012 Primero, gracias a todos por todo el interés y la ayuda. Leer las respuestas me ha hecho pensar en reformular un poco mi pregunta. Lo que digo es que tengo una hipótesis (que por ahora estoy pensando como nula) de que las semillas se polinizan aleatoriamente entre las vainas, y mi hipótesis alternativa es que una vaina de semillas con al menos 1 semilla polinizada tiene más probabilidades de tener múltiples semillas polinizadas de lo que se esperaría de un proceso aleatorio. He proporcionado datos reales de tres plantas como ejemplos para ilustrar de lo que estoy hablando. La primera columna es el número de semillas polinizadas en una vaina, la segunda columna es la frecuencia de las vainas con ese recuento de semillas.
planta 1 (total de 3 semillas: 4% de polinización)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
planta 2 (total de 19 semillas: 26% de polinización)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
planta 3 (total de 16 semillas: 22% de polinización)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
En la planta # 1, solo se polinizaron 3 semillas en 18 vainas, una vaina tenía una semilla y una vaina tenía dos semillas. Pensando en un proceso de agregar una semilla a las vainas al azar, las dos primeras semillas van a su propia vaina, pero para la 3ra semilla, hay 6 lugares disponibles en las vainas que ya tienen una semilla pero 64 en las 16 vainas. sin semillas, entonces la probabilidad más alta de una vaina con 2 semillas aquí es 6/64 = 0.094. Eso es un poco bajo, pero no realmente extremo, por lo que diría que esta planta se ajusta a la hipótesis de la polinización aleatoria en todas las semillas con una probabilidad de ~ 4% de polinización. Pero la planta 2 me parece mucho más extrema, con 4 vainas completamente polinizadas, pero 12 vainas sin nada. No estoy muy seguro de cómo calcular las probabilidades de esta distribución directamente (de ahí mi idea inicial), pero supongo que las probabilidades de que esta distribución ocurra al azar si cada semilla tiene un ~ 25% de posibilidades de polinización son bastante bajas. Planta # 3 Realmente no tengo idea, creo que hay más 0 y 3 de lo que uno esperaría para una distribución aleatoria, pero mi intuición es que esta distribución para este número de semillas es mucho más probable que la distribución para la planta # 2, y puede que no sea tan improbable. Pero obviamente quiero saber con certeza, y en todas las plantas. Creo que hay más 0 y 3 de lo que uno esperaría para una distribución aleatoria, pero mi intuición es que esta distribución para este número de semillas es mucho más probable que la distribución para la planta # 2, y puede no ser tan improbable. Pero obviamente quiero saber con certeza, y en todas las plantas. Creo que hay más 0 y 3 de lo que uno esperaría para una distribución aleatoria, pero mi intuición es que esta distribución para este número de semillas es mucho más probable que la distribución para la planta # 2, y puede no ser tan improbable. Pero obviamente quiero saber con certeza, y en todas las plantas.
Al final, estoy buscando escribir una declaración como “La distribución de semillas polinizadas en vainas de semillas se ajusta (o no se ajusta) a la hipótesis de que las plantas no son simplemente parcialmente autocompatibles, sino que requieren la visita de un polinizador para efectuar el conjunto de semillas. (resultados de la prueba estadística) ". Esto es realmente solo una parte de mi sección prospectiva, donde estoy hablando sobre qué experimentos realizar a continuación, así que no estoy desesperado por que esto sea una cosa u otra, pero quiero saber por mí mismo, si es posible. Si no puedo hacer lo que intento hacer con estos datos, ¡también me gustaría saberlo!
Al principio hice una pregunta bastante amplia, ya que tengo curiosidad por saber si hay buenas pruebas para mostrar si los datos deben entrar en un modelo inflado cero en primer lugar. Todos los ejemplos que he visto parecen decir: "mira, hay muchos ceros aquí, y hay una explicación razonable para eso, así que usemos un modelo inflado cero". Eso es lo que estoy haciendo ahora en este foro, pero tuve una experiencia en mi último capítulo en el que utilicé una película de Poisson para datos de conteo y uno de mis supervisores dijo: "No, las películas son demasiado complejas e innecesarias, estos datos deberían ir a una tabla de contingencia "y luego me envió un volcado de datos de la tabla de contingencia masiva generada por su costoso paquete de estadísticas que dio los mismos valores de p para todos mis factores + interacciones a tres dígitos significativos !! Entonces, trato de mantener las estadísticas claras y simples, y me aseguro de comprenderlos lo suficientemente bien como para defender con firmeza mis elecciones, lo que no creo que pueda hacer por un modelo inflado cero en este momento. He utilizado tanto un cuasibinomio (para plantas enteras para deshacerse de la pesudoreplicación) como un modelo mixto para los datos anteriores para comparar tratamientos y responder a mis preguntas experimentales principales, o parece que hago el mismo trabajo, pero también voy a juega con ZINB's esta noche, para ver qué tan bien funciona. Estoy pensando que si puedo demostrar explícitamente que estos datos están fuertemente agrupados (o cero inflados) al principio, luego proporcionar una buena razón biológica para que eso ocurra, estaré mucho mejor preparado para sacar posteriormente un ZINB, que simplemente compare uno con un modelo cuasibinomial / mixto y discuta ya que da mejores resultados, eso es lo que debería usar. lo que no creo que pueda hacer por un modelo inflado cero en este momento. He utilizado tanto un cuasibinomio (para plantas enteras para deshacerse de la pesudoreplicación) como un modelo mixto para los datos anteriores para comparar tratamientos y responder a mis preguntas experimentales principales, o parece que hago el mismo trabajo, pero también voy a juega con ZINB's esta noche, para ver qué tan bien funciona. Estoy pensando que si puedo demostrar explícitamente que estos datos están fuertemente agrupados (o cero inflados) al principio, luego proporcionar una buena razón biológica para que eso ocurra, estaré mucho mejor preparado para sacar posteriormente un ZINB, que simplemente compare uno con un modelo cuasibinomial / mixto y discuta ya que da mejores resultados, eso es lo que debería usar. lo que no creo que pueda hacer por un modelo inflado cero en este momento. He utilizado tanto un cuasibinomio (para plantas enteras para deshacerse de la pesudoreplicación) como un modelo mixto para los datos anteriores para comparar tratamientos y responder a mis preguntas experimentales principales, o parece que hago el mismo trabajo, pero también voy a juega con ZINB's esta noche, para ver qué tan bien funciona. Estoy pensando que si puedo demostrar explícitamente que estos datos están fuertemente agrupados (o cero inflados) al principio, luego proporcionar una buena razón biológica para que eso ocurra, estaré mucho mejor preparado para sacar posteriormente un ZINB, que simplemente compare uno con un modelo cuasibinomial / mixto y discuta ya que da mejores resultados, eso es lo que debería usar. He utilizado tanto un cuasibinomio (para plantas enteras para deshacerse de la pesudoreplicación) como un modelo mixto para los datos anteriores para comparar tratamientos y responder a mis preguntas experimentales principales, o parece que hago el mismo trabajo, pero también voy a juega con ZINB's esta noche, para ver qué tan bien funciona. Estoy pensando que si puedo demostrar explícitamente que estos datos están fuertemente agrupados (o cero inflados) al principio, luego proporcionar una buena razón biológica para que eso ocurra, estaré mucho mejor preparado para sacar posteriormente un ZINB, que simplemente compare uno con un modelo cuasibinomial / mixto y discuta ya que da mejores resultados, eso es lo que debería usar. He utilizado tanto un cuasibinomio (para plantas enteras para deshacerse de la pesudoreplicación) como un modelo mixto para los datos anteriores para comparar tratamientos y responder a mis preguntas experimentales principales, o parece que hago el mismo trabajo, pero también voy a juega con ZINB's esta noche, para ver qué tan bien funciona. Estoy pensando que si puedo demostrar explícitamente que estos datos están fuertemente agrupados (o cero inflados) al principio, luego proporcionar una buena razón biológica para que eso ocurra, estaré mucho mejor preparado para sacar posteriormente un ZINB, que simplemente compare uno con un modelo cuasibinomial / mixto y discuta ya que da mejores resultados, eso es lo que debería usar.
Pero no quiero distraer demasiado de mi pregunta principal, ¿cómo puedo determinar si mis datos están realmente más inflados de lo esperado de una distribución aleatoria? En mi caso, la respuesta a eso es lo que realmente me interesa, y el posible beneficio de la justificación del modelo es una bonificación.
Gracias de nuevo por todo su tiempo y ayuda!
Saludos, BWGIA