Tengo una pregunta que me gustaría hacerle a la comunidad. Recientemente me han pedido que proporcione análisis estadísticos para un estudio de pronóstico de marcadores tumorales . Principalmente he usado estas dos referencias para guiar mi análisis:
McShane LM y col. Informe de recomendaciones para estudios de pronóstico de marcadores tumorales (OBSERVACIÓN). J Natl Cancer Inst. 2005 17 de agosto; 97 (16): 1180-4.
Simon RM y col. Uso de validación cruzada para evaluar la precisión predictiva de los clasificadores de riesgo de supervivencia basados en datos de alta dimensión. Breve Bioinform. 2011 mayo; 12 (3): 203-14. Epub 2011 15 de febrero.
He resumido el estudio y mis análisis a continuación. Agradecería cualquier comentario, sugerencia o crítica.
Antecedentes del estudio:
Algunos pacientes con cáncer X experimentan una recaída temprana después del tratamiento. El puntaje de pronóstico clínico utilizado actualmente por los médicos no hace un buen trabajo para predecir el resultado clínico en estos pacientes. Por lo tanto, sería útil identificar marcadores de pronóstico biológico que agreguen valor por encima y más allá de este puntaje estándar. El objetivo de este estudio es descubrir dicho biomarcador.
Métodos de estudio:
Preselección de biomarcadores candidatos
Doce biomarcadores asociados con el cáncer X fueron identificados en un estudio previo. Intentamos validar la asociación entre estos 12 candidatos y el cáncer X en una muestra independiente de pacientes / tumores, que se describe a continuación.
Validación univariada de biomarcadores candidatos preseleccionados
Los niveles de estos biomarcadores se midieron en un conjunto de 220 pacientes / tumores.
[Nota: he enmascarado los datos y los he puesto a disposición para su descarga pública como un archivo * .csv . El archivo tiene las siguientes columnas: "ID", un identificador único para cada paciente; "PS", la puntuación pronóstica para cada paciente, con 1 que indica un buen pronóstico y 2 que indica un mal pronóstico; "M1" a "m12", niveles de cada marcador tumoral; "Tiempo", en meses; y "evento", donde 0 indica que la observación está censurada y 1 indica que se produjo un fracaso del tratamiento.]
Se construyeron modelos de regresión de Cox univariables con tiempo hasta la muerte como variable dependiente para cada uno de los 12 biomarcadores (n = 220 observaciones, número de eventos = 91).
Risk LCI UCI pValue
1 0.93 0.86 1.02 0.1088
2 0.93 0.88 0.99 0.0215
3 0.99 0.92 1.05 0.6528
4 0.93 0.87 1.00 0.0468
5 0.93 0.88 0.98 0.0055
6 0.97 0.92 1.01 0.1202
7 0.91 0.83 0.99 0.0297
8 0.98 0.90 1.07 0.6972
9 0.99 0.92 1.06 0.7841
10 1.01 0.91 1.11 0.9149
11 0.96 0.87 1.05 0.3837
12 0.90 0.83 0.97 0.0047
Usando un valor umbral de p de 0.05 / 12 = 0.004, ninguno de los resultados fue significativo.
Análisis multivariables.
Se decidió ajustar un modelo a los datos ingresando los 12 biomarcadores a la vez en un algoritmo de regresión de Cox por pasos utilizando validación cruzada diez veces. Después de construir diez modelos en los diez conjuntos de entrenamiento diferentes, se construyeron curvas ROC dependientes del tiempo para permitir la selección de puntos de corte óptimos para identificar dos grupos de pacientes, riesgo "alto" y "bajo". Se seleccionaron los puntos de corte que minimizaban "1 - TP + FP". Luego se les pidió a estos diez modelos que hicieran predicciones sobre los pacientes correspondientes en los grupos de validación. Luego, estos pacientes se clasificaron en grupos de riesgo "alto" y "bajo" y se representaron en una sola curva de Kaplan Meier validada cruzada.
Conclusiones
Los intervalos de confianza de las curvas de alto y bajo riesgo se superponían significativamente, lo que sugiere que los biomarcadores identificados no eran marcadores pronósticos útiles. Por lo tanto, nuestro estudio no ha identificado ninguna asociación significativa univariada o multivariada entre estos marcadores y el pronóstico del paciente.
Preguntas para la comunidad
¿He analizado mis datos de la manera correcta?
Si hubiera sido el estadístico en este estudio, ¿habría hecho algo diferente?
Antes de realizar los análisis de validación, el tamaño de la muestra y los cálculos de potencia no se realizaron para determinar el número de muestras a incluir y el tamaño del efecto detectable. Me gustaría realizar estos análisis ahora para guiar futuros estudios. alguien puede decirme cómo hacer esto?
Lo que realmente me interesa es si estos biomarcadores proporcionan información predictiva más allá de la puntuación de pronóstico clínico. Por lo que entiendo, esto implicaría hacer tres modelos diferentes: (1) un modelo con solo covariables clínicas, (2) un modelo de biomarcadores con solo covariables de biomarcadores, y (3) un modelo de biomarcadores / clínico basado en ambos tipos de covariables. Hasta ahora he hecho los modelos 1 (no se muestra arriba; tampoco fue capaz de diferenciar entre pacientes de alto y bajo riesgo en nuestra muestra) y 2 (se muestra arriba). Debido a que 1 y 2 no fueron significativos, no hice el modelo 3. ¿Debería hacer esto de alguna manera?
¡Cualquier comentario adicional sobre preocupaciones analíticas sería muy apreciado! No dude en descargar los datos enmascarados y echar un vistazo usted mismo.