Tamaño de muestra y métodos de validación cruzada para modelos predictivos de regresión de Cox

Tengo una pregunta que me gustaría hacerle a la comunidad. Recientemente me han pedido que proporcione análisis estadísticos para un estudio de pronóstico de marcadores tumorales . Principalmente he usado estas dos referencias para guiar mi análisis:

McShane LM y col. Informe de recomendaciones para estudios de pronóstico de marcadores tumorales (OBSERVACIÓN). J Natl Cancer Inst. 2005 17 de agosto; 97 (16): 1180-4.
Simon RM y col. Uso de validación cruzada para evaluar la precisión predictiva de los clasificadores de riesgo de supervivencia basados en datos de alta dimensión. Breve Bioinform. 2011 mayo; 12 (3): 203-14. Epub 2011 15 de febrero.

He resumido el estudio y mis análisis a continuación. Agradecería cualquier comentario, sugerencia o crítica.

Antecedentes del estudio:

Algunos pacientes con cáncer X experimentan una recaída temprana después del tratamiento. El puntaje de pronóstico clínico utilizado actualmente por los médicos no hace un buen trabajo para predecir el resultado clínico en estos pacientes. Por lo tanto, sería útil identificar marcadores de pronóstico biológico que agreguen valor por encima y más allá de este puntaje estándar. El objetivo de este estudio es descubrir dicho biomarcador.

Métodos de estudio:

Preselección de biomarcadores candidatos

Doce biomarcadores asociados con el cáncer X fueron identificados en un estudio previo. Intentamos validar la asociación entre estos 12 candidatos y el cáncer X en una muestra independiente de pacientes / tumores, que se describe a continuación.

Validación univariada de biomarcadores candidatos preseleccionados

Los niveles de estos biomarcadores se midieron en un conjunto de 220 pacientes / tumores.

[Nota: he enmascarado los datos y los he puesto a disposición para su descarga pública como un archivo * .csv . El archivo tiene las siguientes columnas: "ID", un identificador único para cada paciente; "PS", la puntuación pronóstica para cada paciente, con 1 que indica un buen pronóstico y 2 que indica un mal pronóstico; "M1" a "m12", niveles de cada marcador tumoral; "Tiempo", en meses; y "evento", donde 0 indica que la observación está censurada y 1 indica que se produjo un fracaso del tratamiento.]

Se construyeron modelos de regresión de Cox univariables con tiempo hasta la muerte como variable dependiente para cada uno de los 12 biomarcadores (n = 220 observaciones, número de eventos = 91).

    Risk  LCI  UCI pValue
1   0.93 0.86 1.02 0.1088
2   0.93 0.88 0.99 0.0215
3   0.99 0.92 1.05 0.6528
4   0.93 0.87 1.00 0.0468
5   0.93 0.88 0.98 0.0055
6   0.97 0.92 1.01 0.1202
7   0.91 0.83 0.99 0.0297
8   0.98 0.90 1.07 0.6972
9   0.99 0.92 1.06 0.7841
10  1.01 0.91 1.11 0.9149
11  0.96 0.87 1.05 0.3837
12  0.90 0.83 0.97 0.0047

Usando un valor umbral de p de 0.05 / 12 = 0.004, ninguno de los resultados fue significativo.

Análisis multivariables.

Se decidió ajustar un modelo a los datos ingresando los 12 biomarcadores a la vez en un algoritmo de regresión de Cox por pasos utilizando validación cruzada diez veces. Después de construir diez modelos en los diez conjuntos de entrenamiento diferentes, se construyeron curvas ROC dependientes del tiempo para permitir la selección de puntos de corte óptimos para identificar dos grupos de pacientes, riesgo "alto" y "bajo". Se seleccionaron los puntos de corte que minimizaban "1 - TP + FP". Luego se les pidió a estos diez modelos que hicieran predicciones sobre los pacientes correspondientes en los grupos de validación. Luego, estos pacientes se clasificaron en grupos de riesgo "alto" y "bajo" y se representaron en una sola curva de Kaplan Meier validada cruzada.

Conclusiones

Los intervalos de confianza de las curvas de alto y bajo riesgo se superponían significativamente, lo que sugiere que los biomarcadores identificados no eran marcadores pronósticos útiles. Por lo tanto, nuestro estudio no ha identificado ninguna asociación significativa univariada o multivariada entre estos marcadores y el pronóstico del paciente.

Preguntas para la comunidad

¿He analizado mis datos de la manera correcta?

Si hubiera sido el estadístico en este estudio, ¿habría hecho algo diferente?

Antes de realizar los análisis de validación, el tamaño de la muestra y los cálculos de potencia no se realizaron para determinar el número de muestras a incluir y el tamaño del efecto detectable. Me gustaría realizar estos análisis ahora para guiar futuros estudios. alguien puede decirme cómo hacer esto?

Lo que realmente me interesa es si estos biomarcadores proporcionan información predictiva más allá de la puntuación de pronóstico clínico. Por lo que entiendo, esto implicaría hacer tres modelos diferentes: (1) un modelo con solo covariables clínicas, (2) un modelo de biomarcadores con solo covariables de biomarcadores, y (3) un modelo de biomarcadores / clínico basado en ambos tipos de covariables. Hasta ahora he hecho los modelos 1 (no se muestra arriba; tampoco fue capaz de diferenciar entre pacientes de alto y bajo riesgo en nuestra muestra) y 2 (se muestra arriba). Debido a que 1 y 2 no fueron significativos, no hice el modelo 3. ¿Debería hacer esto de alguna manera?

¡Cualquier comentario adicional sobre preocupaciones analíticas sería muy apreciado! No dude en descargar los datos enmascarados y echar un vistazo usted mismo.

— Alejandro
fuente

Usted ha descrito bien el problema y lo ha configurado bien de varias maneras. No tenía clara la definición de "puntaje pronóstico", pero es muy poco probable que un puntaje de 2 niveles sea clínicamente útil. Es importante ajustar todas las variables clínicas disponibles pertinentes, según la opinión de los expertos al elegirlas. Aquí hay algunas oportunidades de mejora:

La validación cruzada de 10 veces es inestable y debe repetirse 100 veces para obtener la precisión adecuada (o use la rutina de arranque de optimismo Efron-Gong con 400 muestras; ambas están disponibles en el rmspaquete R )
Dividir la señal en "bueno" y "malo" impulsado por las curvas ROC es una técnica popular, pero no se basa en ningún buen principio estadístico. Cualquier biomarcador que valga la pena debería tener una relación dosis-respuesta, y la división en dos grupos muy arbitrarios es innecesaria, engañosa y pérdida de información y poder.
Las curvas ROC no tienen absolutamente nada que ofrecer en este contexto.
Elegir puntos de corte en los biomarcadores es un desastre estadístico. Entre otras cosas, no reconoce que matemáticamente, si algunos puntos de corte son útiles, solo pueden estar en el extremo posterior, no en el extremo covariable, porque el punto de corte para cada marcador depende del valor absoluto de todos los demás valores de marcador para un paciente.
La regresión gradual sin penalización no es confiable. En su configuración, no hay razón para no poner todos los marcadores en un modelo y hacer una razón de probabilidad $\chi^2$ prueba para probar el valor que agregan a las variables clínicas.
Una buena alternativa a 5. es hacer un análisis de redundancia o agrupamiento variable de los biomarcadores para reducir su número antes de relacionarlos con el resultado.
Si el tamaño de su muestra fuera mayor, podría permitir que todas las variables ingresen al modelo de forma no lineal utilizando splines de regresión. Ocasionalmente, permitir que un biomarcador sea suave y no lineal duplica su valor sobre la linealidad forzada.
Deje que la probabilidad de registro, que es una regla de puntuación óptima (la probabilidad penalizada sería aún mejor) haga su trabajo. No pierda el tiempo en reglas de puntaje de precisión incorrecta.
Considere usar el "índice de adecuación", basado en la probabilidad de registro, para describir la utilidad de los biomarcadores, como se describe en mi libro Estrategias de modelado de regresión .

— Frank Harrell
fuente