10

La enseñanza estándar dice que la sensibilidad y la especificidad son propiedades de la prueba y son independientes de la prevalencia. ¿Pero no es esto solo una suposición?

Los principios de la medicina interna de Harrison 19ª ed dice

Durante mucho tiempo se ha afirmado que la sensibilidad y la especificidad son parámetros independientes de la prevalencia de la precisión de la prueba, y muchos textos aún hacen esta afirmación. Esta suposición estadísticamente útil, sin embargo, es clínicamente simplista. ... la sensibilidad de la prueba probablemente será mayor en pacientes hospitalizados, y la especificidad de la prueba será mayor en pacientes ambulatorios.

(La prevalencia suele ser mayor en pacientes hospitalizados que en pacientes ambulatorios)

¿Existe una relación matemática o gráfica aproximada entre estos parámetros?

Incluso este enlace lo llama una "simplificación". ¿Por qué?

Editar: Sé cómo se define la sensibilidad. No hay término de prevalencia involucrado, como se menciona en las respuestas. Yo mismo he mantenido que estas son propiedades de la prueba no afectadas por la población utilizada, hasta que me encontré con esta declaración, de ahí la pregunta. Pero supongo que esta confusión está surgiendo no debido a la definición sino al cálculo práctico de estos valores. La especificidad y la sensibilidad se calculan utilizando tablas 2x2, ¿importa la prevalencia de la población de referencia aquí? ¿A eso se refieren? Si es así, ¿cuál es la función?

— Polisetty
fuente

4

Aunque las respuestas de @ Tim ♦ y @ gung ♦ cubren casi todo, intentaré sintetizarlas en una sola y proporcionar más aclaraciones.

El contexto de las líneas citadas podría referirse principalmente a pruebas clínicas en forma de cierto Umbral, como es más común. Imagine una enfermedad , y todo excepto incluido el estado saludable conocido como . Nosotros, para nuestra prueba, quisiéramos encontrar alguna medida de proxy que nos permita obtener una buena predicción para $D$ $D$ $D^c$ $D$ (1) La razón por la que no obtenemos especificidad / sensibilidad absoluta es que los valores de nuestra cantidad de proxy no se correlacionan perfectamente con el estado de la enfermedad, pero generalmente solo se asocia con él y, por lo tanto, en mediciones individuales, podríamos tener la posibilidad de que esa cantidad cruce nuestro umbral para $D^c$ individuos y viceversa. En aras de la claridad, supongamos un modelo gaussiano para la variabilidad.

Digamos que estamos usando como la cantidad de proxy. Si se ha elegido bien, entonces debe ser mayor que ( es el operador del valor esperado). Ahora el problema surge cuando nos damos cuenta de que es una situación compuesta (también lo es ), en realidad hecha de 3 grados de severidad , , , cada uno con un valor esperado progresivamente creciente para la $x$ $x$ $E[x_D]$ $E[x_{Dc}]$ $E$ $D$ $D^c$ $D_1$ $D_2$ $D_3$ . Para un solo individuo, seleccionado entre $x$ categoría o de lacategoría , las probabilidades de que la 'prueba' sea positiva o no dependerá del valor umbral que elijamos. Digamos que elegimos base al estudio de una muestra verdaderamente aleatoria que tieneindividuos y . Nuestra causará algunos falsos positivos y negativos. Si seleccionamos unapersona al azar, la probabilidad que gobierna suvalor es dada por el gráfico verde, y la de unapersona elegida al azarpor el gráfico rojo. $D$ $D^c$ $x_T$ $D$ $D^c$ $x_T$ $D$ $x$ $D_c$

Los números reales obtenidos dependerán de los números reales de individuos y pero la especificidad y sensibilidad resultantes no lo harán. Deje ser una función de probabilidad acumulativa. Luego, para la prevalencia de de la enfermedad , aquí hay una tabla de 2x2 como se esperaría del caso general, cuando tratamos de ver realmente cómo funciona nuestra prueba en la población combinada. $D$ $D^c$ $F()$ $p$ $D$

(D, +) = p (1 - F_{D} (x_{T}))

$(D,+) = p(1-F_D(x_T))$

(re C, -) = (1 - pag) (1 - F_{re C} (X_{T}))

$(Dc,-) = (1-p)(1-F_{Dc}(x_T))$

(re, -) = pag (F_{re} (X_{T}))

$(D,-) = p(F_D(x_T))$

(re C, +) = (1 - pag) * F_{re C} (X_{T})

$(Dc,+) = (1-p)*F_{Dc}(x_T)$

Los números reales dependen de , pero la sensibilidad y la especificidad son independientes de . Pero, ambos dependen de y . Por lo tanto, todos los factores que los afectan cambiarán definitivamente estas métricas. Si estuviéramos, por ejemplo, trabajando en la UCI, nuestra sería reemplazada por , y si estuviéramos hablando de pacientes ambulatorios, reemplazada por . Es un asunto separado que en el hospital, la prevalencia también es diferente, $p$ $p$ $F_D$ $F_{Dc}$ $F_D$ $F_{D3}$ $F_{D1}$ pero no es la diferente prevalencia lo que hace que las sensibilidades y especificidades difieran, sino la distribución diferente, ya que el modelo en el que se definió el umbral no era aplicable a la población que aparecía como pacientes ambulatorios o pacientes hospitalizados . Puede seguir adelante y desglosar en múltiples subpoblaciones, ya que la subparte de internación de también tendrá una elevada debido a otras razones (ya que la mayoría de los servidores proxy también están 'elevados' en otras condiciones graves). La ruptura de la población en subpoblación explica el cambio en la sensibilidad, mientras que el de la población explica el cambio en la especificidad (por los cambios correspondientes en $D^c$ $D^c$ $x$ $D$ $D^c$ y $F_D$ $F_{Dc}$ Esto es de lo que realmente se compone el gráfico compuesto. Cada uno de los colores tendrá su propia y, por lo tanto, siempre que esto difiera de la en la que se calcularon la sensibilidad y especificidad originales, estas métricas cambiarán. $D$ $F$ $F$

Ejemplo

Suponga una población de 11550 con 10000 Dc, 500,750,300 D1, D2, D3 respectivamente. La parte comentada es el código utilizado para los gráficos anteriores.

set.seed(12345)
dc<-rnorm(10000,mean = 9, sd = 3)
d1<-rnorm(500,mean = 15,sd=2)
d2<-rnorm(750,mean=17,sd=2)
d3<-rnorm(300,mean=20,sd=2)
d<-cbind(c(d1,d2,d3),c(rep('1',500),rep('2',750),rep('3',300)))
library(ggplot2)
#ggplot(data.frame(dc))+geom_density(aes(x=dc),alpha=0.5,fill='green')+geom_density(data=data.frame(c(d1,d2,d3)),aes(x=c(d1,d2,d3)),alpha=0.5, fill='red')+geom_vline(xintercept = 13.5,color='black',size=2)+scale_x_continuous(name='Values for x',breaks=c(mean(dc),mean(as.numeric(d[,1])),13.5),labels=c('x_dc','x_d','x_T'))

#ggplot(data.frame(d))+geom_density(aes(x=as.numeric(d[,1]),..count..,fill=d[,2]),position='stack',alpha=0.5)+xlab('x-values')

Podemos calcular fácilmente las medias x para las diversas poblaciones, incluidas Dc, D1, D2, D3 y el compuesto D.

mean(dc) 
mean(d1) 
mean(d2) 
mean(d3) 
mean(as.numeric(d[,1]))

> mean(dc) [1] 8.997931
> mean(d1) [1] 14.95559
> mean(d2) [1] 17.01523
> mean(d3) [1] 19.76903
> mean(as.numeric(d[,1])) [1] 16.88382

Para obtener una tabla de 2x2 para nuestro caso de prueba original, primero establecemos un umbral, basado en los datos (que en un caso real se establecería después de ejecutar la prueba como muestra @gung). De todos modos, suponiendo un umbral de 13.5, obtenemos la siguiente sensibilidad y especificidad cuando se calcula en toda la población.

sdc<-sample(dc,0.1*length(dc)) 
sdcomposite<-sample(c(d1,d2,d3),0.1*length(c(d1,d2,d3))) 
threshold<-13.5 
truepositive<-sum(sdcomposite>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sdcomposite<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity<-truepositive/length(sdcomposite) 
specificity<-truenegative/length(sdc) 
print(c(sensitivity,specificity))

> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]139 928  72  16
> print(c(sensitivity,specificity)) [1] 0.8967742 0.9280000

Supongamos que estamos trabajando con los pacientes ambulatorios y que solo tenemos pacientes enfermos de la proporción D1, o que estamos trabajando en la UCI donde solo recibimos D3. (para un caso más general, también necesitamos dividir el componente Dc) ¿Cómo cambian nuestra sensibilidad y especificidad? Al cambiar la prevalencia (es decir, al cambiar la proporción relativa de pacientes que pertenecen a cualquier caso, no cambiamos la especificidad y la sensibilidad en absoluto. Simplemente sucede que esta prevalencia también cambia con la distribución cambiante)

sdc<-sample(dc,0.1*length(dc)) 
sd1<-sample(d1,0.1*length(d1)) 
truepositive<-sum(sd1>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sd1<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity1<-truepositive/length(sd1) 
specificity1<-truenegative/length(sdc) 
print(c(sensitivity1,specificity1)) 
sdc<-sample(dc,0.1*length(dc)) 
sd3<-sample(d3,0.1*length(d3)) 
truepositive<-sum(sd3>13.5) 
truenegative<-sum(sdc<=13.5) 
falsepositive<-sum(sdc>13.5) 
falsenegative<-sum(sd3<=13.5) 
print(c(truepositive,truenegative,falsepositive,falsenegative)) 
sensitivity3<-truepositive/length(sd3) 
specificity3<-truenegative/length(sdc) 
print(c(sensitivity3,specificity3))

> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]  38 931  69  12
> print(c(sensitivity1,specificity1)) [1] 0.760 0.931
> print(c(truepositive,truenegative,falsepositive,falsenegative)) [1]  30 944  56   0
> print(c(sensitivity3,specificity3)) [1] 1.000 0.944

Para resumir, una gráfica para mostrar el cambio de sensibilidad (la especificidad seguiría una tendencia similar si también hubiéramos compuesto la población Dc a partir de subpoblaciones) con media variable x para la población, aquí hay un gráfico

df<-data.frame(V1=c(sensitivity,sensitivity1,sensitivity3),V2=c(mean(c(d1,d2,d3)),mean(d1),mean(d3))) 
ggplot(df)+geom_point(aes(x=V2,y=V1),size=2)+geom_line(aes(x=V2,y=V1))

$D$

— Satwik Pasani
fuente

9

Primero, vale la pena reconocer que normalmente no se puede cambiar la sensibilidad independientemente de la especificidad, y viceversa. Este es el punto de una curva ROC. Dada la naturaleza del proceso de generación de datos, y sus datos y modelo específicos, siempre se quedará atascado con una compensación entre sensibilidad y especificidad. Por supuesto, preferiría tener 100% de sensibilidad y 100% de especificidad al mismo tiempo, pero generalmente no puede. Puede obtener una mejor sensibilidad, pero a expensas de una peor especificidad, o mejor especificidad, pero a expensas de la peor sensibilidad. La curva ROC le muestra el conjunto de compensaciones entre las que se ve obligado a elegir. (Un par de notas: 1. a veces puede parecer que gana en una dimensión sin perder nada en la otra porque hay una brecha en su conjunto de datos, pero esto es principalmente ilusorio; 2.La curva ROC es la sensibilidad en función de la especificidad 1, el trazado de la sensibilidad frente a la especificidad misma sería una curva ROC reflejada).

En cualquier caso, ¿cómo podría la aparente sensibilidad y especificidad cambiar con la prevalencia? Este es un problema en el que ayuda a simular y jugar con algunos datos para ver cómo puede funcionar esto en la práctica. Imaginemos que un modelo se ajusta a un conjunto de datos bastante grande que tiene una prevalencia particular, y se establece un umbral en el eje x ¹ . Más tarde, el rendimiento de esta prueba se calcula con muestras que tienen prevalencias sustancialmente diferentes (y, por lo tanto, diferentes valores de x). El resultado es que el mismo modelo, que usa el mismo umbral, funcionará de manera diferente cuando se aplique a conjuntos de datos con diferentes prevalencias.

library(caret)  # we'll use these packages
library(binom)
  # we'll use this function to convert log odds to probabilities
lo2p = function(lo){ exp(lo)/(1+exp(lo)) }

##### training dataset for original model
set.seed(734)                     # these make the examples exactly reproducible
Nt = 1000
xt = rnorm(Nt, mean=5, sd=1)      # this is the distribution of X
lo = -1.386 + .308*xt             # this is the data generating process
pt = lo2p(lo)
yt = rbinom(Nt, size=1, prob=pt)
mt = glm(yt~xt, family=binomial)
summary(mt)
# ...
# Coefficients:
#             Estimate Std. Error z value Pr(>|z|)    
# (Intercept) -1.16736    0.32794  -3.560 0.000371 ***
# xt           0.24980    0.06429   3.886 0.000102 ***
# ...
#     Null deviance: 1384.5  on 999  degrees of freedom
# Residual deviance: 1369.1  on 998  degrees of freedom
# AIC: 1373.1

## determine threshold
# prob(Y) = 50%, where log odds = 0, so:
-coef(mt)[1]/coef(mt)[2]  # 4.673159
threshold = 4.7  # a simple round number
classt    = ifelse(xt>threshold, 1, 0)
tabt      = table(classt, yt)[2:1,2:1]

confusionMatrix(tabt)
#       yt
# classt   1   0
#      1 346 279
#      0 175 200
#                                           
#                Accuracy : 0.546           
#                     ...                                          
#             Sensitivity : 0.6641          
#             Specificity : 0.4175          
#          Pos Pred Value : 0.5536          
#          Neg Pred Value : 0.5333          
#              Prevalence : 0.5210          


##### high prevalence dataset from hospital
set.seed(4528)
Nh = 500
xh = rnorm(Nh, mean=6, sd=1)  # a different distribution of X
lo = -1.386 + .308*xh         # but the same data generating process
ph = lo2p(lo)
yh = rbinom(Nh, size=1, prob=ph)
classh = ifelse(xh>threshold, 1, 0)  # the same threshold is used
tabh   = table(classh, yh)[2:1,2:1]

confusionMatrix(tabh)
#       yh
# classh   1   0
#      1 284 163
#      0  20  33
#                                           
#                Accuracy : 0.634           
#                     ...
#             Sensitivity : 0.9342          
#             Specificity : 0.1684          
#          Pos Pred Value : 0.6353          
#          Neg Pred Value : 0.6226          
#              Prevalence : 0.6080          


##### low prevalence dataset from outpatients
set.seed(1027)
Nl = 500
xl = rnorm(Nl, mean=3, sd=1)
lo = -1.386 + .308*xl
pl = lo2p(lo)
yl = rbinom(Nl, size=1, prob=pl)
classl = ifelse(xl>threshold, 1, 0)
tabl   = table(classl, yl)[2:1,2:1]

confusionMatrix(tabl)
#       yl
# classl   1   0
#      1   9  14
#      0 190 287
#                                           
#                Accuracy : 0.592           
#                     ...
#             Sensitivity : 0.04523         
#             Specificity : 0.95349         
#          Pos Pred Value : 0.39130         
#          Neg Pred Value : 0.60168         
#              Prevalence : 0.39800         


##### sensitivities
binom.confint(346, 521, method="e")
#   method   x   n      mean     lower    upper
# 1  exact 346 521 0.6641075 0.6217484 0.704592
binom.confint(284, 304, method="e")
#   method   x   n      mean   lower     upper
# 1  exact 284 304 0.9342105 0.90022 0.9593543
binom.confint(  9, 199, method="e")
#   method x   n       mean      lower      upper
# 1  exact 9 199 0.04522613 0.02088589 0.08411464

##### specificities
binom.confint(200, 479, method="e")
#   method   x   n      mean     lower     upper
# 1  exact 200 479 0.4175365 0.3729575 0.4631398
binom.confint( 33, 196, method="e")
#   method  x   n      mean     lower     upper
# 1  exact 33 196 0.1683673 0.1188206 0.2282441
binom.confint(287, 301, method="e")
#   method   x   n      mean     lower     upper
# 1  exact 287 301 0.9534884 0.9231921 0.9743417

Estas son las sensibilidades y especificidades en función de las prevalencias, con intervalos de confianza exactos del 95%:

Entonces, ¿qué está pasando aquí? Considere que una regresión logística prototípica podría parecerse a la figura a continuación. Tenga en cuenta que toda la 'acción' tiene lugar en el intervalo [4, 6] en el eje x. Los datos a continuación tendrán una prevalencia muy baja y el modelo mostrará poca discriminación y sensibilidad. Los datos por encima de ese intervalo tendrán una prevalencia muy alta, pero el modelo nuevamente no discriminará bien y tendrá poca especificidad.

Para ayudar a comprender cómo podría suceder esto, considere la prueba de Alanina transaminasa para determinar si el hígado del paciente está fallando². La idea es que el hígado normalmente usa ALT, pero que si el hígado ha dejado de funcionar, ALT será arrojado al torrente sanguíneo. Entonces, si el nivel de ALT en el torrente sanguíneo de un paciente está por encima de algún umbral, eso significa que el hígado está fallando. Si extrae una muestra con una alta prevalencia de insuficiencia hepática, extraerá una muestra con altos niveles de ALT en la sangre. Por lo tanto, tendrá más pacientes por encima del umbral. No todas las personas con niveles altos de ALT en sangre tendrán insuficiencia hepática; para algunos pacientes, habrá alguna otra causa. Pero las personas con insuficiencia hepática deberían ser atrapadas. Esto lleva a una mayor sensibilidad. Del mismo modo, no todos los pacientes con niveles normales de ALT tienen hígados sanos, pero una muestra con baja prevalencia tendrá niveles más bajos de ALT, y más pacientes pasarán la prueba. Aquellos cuyos hígados no son t fallando, pero los que tienen niveles normales de ALT serán extrañados. Esto conduce a una menor sensibilidad, pero a una mayor especificidad.

En términos más generales, la idea de un examen médico es que una cosa u otra es un correlato de un estado de enfermedad del que le gustaría tener medidas directas, pero no puede. Obtener una medida del correlato le da una idea del estado de la enfermedad. Una prueba (potencial) donde esto no sea cierto no tendría ningún valor y no se utilizaría. Por lo tanto, en la práctica, las muestras de mayor prevalencia deben tener una distribución del correlato con valores más anormales que conduzcan a una mayor sensibilidad, y viceversa. (Tenga en cuenta que el correlato no tiene que ser una causa de la enfermedad; en el ejemplo ALT, es un efecto, en otros ejemplos, tanto la enfermedad como el correlato podrían ser efectos de una causa común, etc.)

_{1. Esto es bastante común en medicina. Tenga en cuenta que el colesterol debe ser <200, la presión arterial sistólica debe ser <140, etc. Esas no son realmente 'pruebas' per se, pero hay muchas pruebas que funcionan así. Para algunas discusiones (quizás distantes) relacionadas con los umbrales, puede ser útil leer mis respuestas a ¿Son los umbrales 0-1 siempre equivalentes a los umbrales del eje x? , y ¿Por qué el número de falsos positivos es independiente del tamaño de la muestra, si utilizamos valores p para comparar dos conjuntos de datos independientes?

2. Tenga en cuenta que no soy médico, y este ejemplo puede estar muy mal. Pregúntele a un médico real si desea información precisa sobre la función hepática, las pruebas del mismo y asuntos relacionados.}

— gung - Restablece a Monica
fuente

¡Gracias! Por demostrar que realmente cambia. Pero, ¿cómo considera la respuesta de @Tim? ¿No es contradictorio?

— Polisetty

1

@Polisetty, Tim afirma que "los pacientes hospitalizados y ambulatorios pueden diferir en muchos aspectos, no solo en la prevalencia sola, por lo que algunos otros factores pueden influir en la sensibilidad". Si la prueba es una función de alguna propiedad de los pacientes (por ejemplo, colesterol), y la enfermedad también está fuertemente correlacionada con esa propiedad (que generalmente es el punto principal), entonces los "otros factores" deben moverse conjuntamente con la prevalencia. Por lo tanto, cuando la prevalencia cambia, el otro correlaciona el cambio y la prueba tiene más o menos sensibilidad con ese grupo específico.

— gung - Restablece a Monica

7

Como ya han dicho otros, la sensibilidad y la especificidad no dependen de la prevalencia. La sensibilidad es la proporción de verdaderos positivos entre todos los positivos y la especificidad es la proporción de verdaderos negativos entre todos los negativos. Entonces, si la sensibilidad es del 90%, la prueba será correcta para el 90% de los casos que sean positivos. Obviamente, el 90% de algo más pequeño y el 90% de algo más grande sigue siendo 90% ...

Entonces, dados los datos tabulares que mencionas,

\begin{array}{cc} \begin{matrix} positivo \\ condición \end{matrix} & \begin{matrix} negativo \\ condición \end{matrix} \\ \begin{matrix} positivo \\ prueba \end{matrix} & una & C \\ \begin{matrix} negativo \\ prueba \end{matrix} & si & re \end{array}

$\begin{array}{cc} & \substack{\text{positive} \\ \text{condition}} & \substack{\text{negative} \\ \text{condition}}\\ \substack{\text{positive} \\ \text{test}} & a & c \\ \substack{\text{negative} \\ \text{test}} & b & d \\ \end{array}$

$\tfrac{a}{a+b+c+d} \,/\, \tfrac{a+b}{a+b+c+d} = \tfrac{a}{a+b}$ $p(Y \mid X) = \tfrac{p(Y \cap X)}{p(X)}$ $\tfrac{d}{a+b+c+d} \,/\, \tfrac{c+d}{a+b+c+d} = \tfrac{d}{c+d}$

Pero la cita también parece estar diciendo algo más.

la sensibilidad de la prueba probablemente será mayor en pacientes hospitalizados, y la especificidad de la prueba será mayor en pacientes ambulatorios

Entonces, los autores dicen que la sensibilidad difiere en los diferentes grupos. Supongo que los pacientes hospitalizados y ambulatorios pueden diferir en muchos aspectos, no solo en la prevalencia sola, por lo que algunos otros factores pueden influir en la sensibilidad. Por lo tanto, estoy de acuerdo en que pueden cambiar entre diferentes conjuntos de datos, que difieren en prevalencia, pero el cambio no será una función de la prevalencia en sí (como lo muestra @gung en su respuesta).

$p(\text{positive test}\mid\text{condition})$

pag (condición ∣ prueba positiva) \propto pag (prueba positiva ∣ condición) \times pag (condición)

$p(\text{condition}\mid\text{positive test}) \propto p(\text{positive test}\mid\text{condition})\times p(\text{condition})$

y, en muchos casos, esta es la probabilidad de que las personas estén interesadas ("¿qué tan probable es que un paciente con un resultado positivo de la prueba tenga realmente la enfermedad?") y depende de la prevalencia. Tenga en cuenta que también su enlace discute el impacto de la prevalencia en el valor predictivo positivo, es decir, la probabilidad posterior, no en la sensibilidad.

— Tim
fuente

Como mencioné en una de las respuestas anteriores, estoy bastante seguro de que las autorizaciones no lo confundieron con la probabilidad posterior, ya que mencionan explícitamente que "muchos textos aún hacen esta afirmación". Y también cito otra fuente, aunque no tan confiable como la de Harrison, que dice que es una "suposición" segura. Todo lo que quiero preguntar es, ¿cuál es la 'suposición'?

— Polisetty

2

@Polisetty No puedo decir por los autores, pero de la cita, parecen llamar a la independencia sobre la prevalencia la "suposición", pero esto es más bien un hecho matemático que una suposición. Si no se cumpliera, significaría que la teoría de la probabilidad está rota y no lo está.

— Tim

La sensibilidad y la especificidad pueden considerarse propiedades fijas de una prueba de diagnóstico. [Esta es una ligera simplificación, pero es lo suficientemente buena para nuestros propósitos]. - eso es lo que dice

— Polisetty

3

Vea mi respuesta aquí sobre las tasas de verdadero / falso positivo / negativo.

La sensibilidad es solo otro nombre para la tasa positiva verdadera, y la especificidad es la misma que la tasa negativa verdadera. Tanto la sensibilidad como la especificidad son probabilidades condicionales; condicionan el estado de la enfermedad del paciente. Por lo tanto, la prevalencia de la enfermedad (es decir, la probabilidad a priori de que un paciente tenga la enfermedad) es irrelevante, ya que usted está asumiendo un estado de enfermedad particular.

No puedo comentar por qué el autor del libro de texto afirma que la sensibilidad y la especificidad dependen del contexto clínico. ¿Son estas observaciones empíricas?

— tddevlin
fuente

Exactamente. De ahí la pregunta. La sensibilidad de una prueba depende de la población donde se use. La suposición de que es independiente no siempre es cierta. Estoy preguntando cómo y por qué. El libro luego cita valores también

— Polisetty

Podría haber factores específicos de la población que afectan la sensibilidad y la especificidad. Pero de las definiciones matemáticas de sensibilidad y especificidad se deduce que la prevalencia no puede ser uno de estos factores, al menos no directamente. (Por cierto, siéntase libre de aceptar mi respuesta si está satisfecho con mi explicación de las definiciones matemáticas.)

— tddevlin

Lo siento, supongo que no estaba claro. Quería saber la relación entre sensibilidad y prevalencia matemáticamente. Sé cómo se definen. Supongo que la relación entra por la forma en que se calculan. La sensibilidad es tp / (tp + fn) mientras que la prevalencia es tp + fn / (tp + fn + fp + tn)

— Polisetty

P (Disease)

$P(\text{Disease})$

P (+ | disease)

$P(+|\text{disease})$

Harrison no lo entendería mal. Incluso este enlace lo llama una simplificación. med.uottawa.ca/sim/data/Sensitivity_and_Prevalence_e.htm

— Polisetty

1

Por supuesto, no puedo hablar de las intenciones del autor, pero este sería mi razonamiento para esa declaración:

Considere el contexto clínico como una prueba de diagnóstico en sí. Uno con muy poca sensibilidad y especificidad, pero una prueba no obstante. Si está en el hospital, es probable que se enferme. Si no está en el hospital, no es probable que se enferme.

Desde esta perspectiva, la prueba de diagnóstico real que realiza es en realidad la segunda parte de dos pruebas realizadas en serie.

— Fomite
fuente

En su explicación, lo a priori está cambiando y conduce a una mayor probabilidad posterior. Eso es verdad. Pero, ¿cómo cambia la sensibilidad en sí?

— Polisetty

@Polisetty ¿Qué pasa si llama a un posterior alto una prueba positiva? "El contexto clínico es en sí mismo una prueba". Creo que cualquier prueba decidida arbitrariamente puede depender de la prevalencia de esta manera, por lo que la "prueba" debe definirse más específicamente. Creo que la declaración se aplica a la variedad habitual de pruebas basadas en un umbral de alguna medición proxy.

— Satwik Pasani

1

Esto debe ser un error. Creo que quizás el autor está tratando de sugerir que el valor predictivo positivo y negativo (VPP y VPN) depende de la prevalencia (así como de la sensibilidad y la especificidad). Estos a menudo se discuten con pruebas de diagnóstico y, para un médico, tal vez más valioso que la interpretación cruda de sensibilidad y especificidad.

Este gráfico demuestra la relación entre el VPP y el VPN con prevalencia, para una prueba con 95% de sensibilidad y 85% de especificidad.

De Mausner JS, Kramer S: Epidemiología de Mausner y Bahn: un texto introductorio. Filadelfia, WB Saunders, 1985, p. 221.

— prince_of_pears
fuente

1

@Satwik, @gung y @Tim ya han proporcionado muchos detalles, pero intentaré agregar un pequeño ejemplo de cómo el caso de los factores subyacentes puede causar tal efecto.

Un principio clave: sesgo

La sensibilidad / especificidad y TODAS las pruebas estadísticas comparten la misma advertencia: se aplica solo a repetir el mismo procedimiento de muestreo que antes de manera imparcial.

Los hospitales son organizaciones funcionales diseñadas para realizar muestreos sesgados, que utilizan políticas de admisión para filtrar a la población general en aquellos que requieren admisión y tratamiento. Esto es muy antítesis del procedimiento científico. Si desea saber cómo se realiza una prueba en diferentes poblaciones, debe realizarse una prueba en diferentes poblaciones.

El efecto latente: correlación

Es raro (o imposible en el mundo real si quiere ser estricto) que un diagnóstico sea independiente / ortogonal a todos los demás factores de riesgo de una enfermedad, por lo que existe cierto grado de correlación.

Si la pantalla de ingreso al hospital se correlaciona positivamente con el diagnóstico, entonces lo que encontrará es que las personas que pasan la prueba de ingreso están predispuestas favorablemente a resultados positivos por el diagnóstico, proporcional a la correlación. Así, los verdaderos positivos se enriquecen y los falsos negativos se reducen en cantidades proporcionales a la correlación.

Esto hace que la sensibilidad parezca más grande.

La explicación del fenómeno.

Por lo tanto, una observación de que la sensibilidad puede ser mayor en un contexto hospitalario no es poco realista. De hecho, si la política de admisión está bien pensada y es adecuada para su propósito, uno esperaría que esto ocurra.

No es evidencia de un colapso en el supuesto de que la sensibilidad y la especificidad son independientes de la prevalencia, más bien es evidencia de un muestreo sesgado basado en la política de admisión hospitalaria.

Lo cual, dado que un hospital está allí para tratar a las personas y no para hacer experimentos científicos, definitivamente es algo bueno.

Pero sí les da dolor de cabeza a los científicos.

— ReneBt
fuente

¿Es la sensibilidad o especificidad una función de prevalencia?

Ejemplo

Un principio clave: sesgo

El efecto latente: correlación

La explicación del fenómeno.