Supongamos que una determinada enfermedad () tiene una prevalencia de . Supongamos también que cierto síntoma () tiene una prevalencia (en la población general = personas con esa enfermedadD y personas sin esa enfermedad [probablemente con otra enfermedad, pero no es importante]) de . En una investigación previa, se descubrió que la probabilidad condicional (la probabilidad de tener el síntoma , dada la enfermedad es )
Primera pregunta : podría ser interpretado como equivalente a la prevalencia del síntoma en el grupo de personas que tienen la enfermedad ?
Segunda pregunta : quiero crear en R un conjunto de datos, que muestra que:
¿Como hacer esto? Si uso simplemente la sample
función, mi conjunto de datos carece de la información que:
symptom <- sample(c("yes","no"), 1000, prob=c(0.005, 0.995), rep=T)
disease <- sample(c("yes","no"), 1000, prob=c(0.002, 0.998), rep=T)
Entonces mi pregunta es: ¿cómo crear un buen conjunto de datos, incluida la probabilidad condicional que deseo?
EDITAR : publiqué la misma pregunta también en stackoverflow.com ( /programming/7291935/how-to-create-a-dataset-with-conditional-probability ), porque, en mi opinión, mi pregunta se hereda del programa de lenguaje R, pero también de la teoría estadística.