Tengo una pregunta metodológica y, por lo tanto, no se adjunta ningún conjunto de datos de muestra.
Estoy planeando hacer una regresión de Cox ajustada por puntaje de propensión que tenga como objetivo examinar si un determinado medicamento reducirá el riesgo de un resultado. El estudio es observacional y comprende 10,000 individuos.
El conjunto de datos contiene 60 variables. Considero que 25 de estos podrían afectar la asignación del tratamiento. Nunca me ajustaría para los 25 de estos en una regresión de Cox, pero he oído que puede incluir tantas variables como predictores en un puntaje de propensión y luego solo incluir la subclase de puntaje de propensión y la variable de tratamiento en la regresión de Cox.
(las covariables que no serán iguales después del ajuste de puntaje de apoyo, por supuesto, tendrían que incluirse en la regresión de Cox).
En pocas palabras, ¿es realmente inteligente incluir tantos predictores en el puntaje de apoyo?
@Dimitriy V. Masterov Gracias por compartir estos hechos importantes. Al contrario de los libros y artículos que consideran otros marcos de regresión, no veo ninguna guía (lectura del libro de Rosenbaums) sobre la selección de modelos en los análisis de puntaje de propensión. Si bien los libros de texto estándar / artículos de revisión parecen recomendar siempre una selección de variables estrictas y mantener bajo el número de predictores, no he visto mucha de esta discusión en los análisis de puntaje de apoyo. Usted escribe: (1) "El conocimiento teórico, el conocimiento institucional y una buena investigación deberían guiar la selección de X". Estoy de acuerdo, pero hay circunstancias en las que tenemos una variable a mano y realmente no sabemos (pero podría ser posible) si la variable afecta la asignación al tratamiento o el resultado. Por ejemplo: ¿debería incluir la función renal, como medida por la tasa de filtración, en una puntuación de apoyo con el objetivo de ajustar el tratamiento con estatinas? El tratamiento con estatinas no tiene nada que ver con la función renal y ya he incluido una serie de variables que afectarán el tratamiento con estatinas. Pero aún es tentador incluir la función renal; podría ajustarse aún más. Ahora, algunos dirían que debería incluirse porque afecta el resultado, pero podría darles otro ejemplo (como la variable binaria de vida urbana / rural) de una variable que no afecta el tratamiento ni el resultado, hasta donde sabemos. Pero me gustaría incluirlo, siempre y cuando no t efectúa la precisión del puntaje de apoyo. (2)"La inclusión de X afectadas por el tratamiento, ya sea ex post o ex ante en anticipación del tratamiento, invalidará el supuesto". No estoy seguro de lo que quieres decir aquí. Pero si estudio el efecto de las estatinas en el resultado cardiovascular, incluiré varias mediciones de lípidos en la sangre en el puntaje de propensión. Los lípidos en la sangre se ven afectados por el tratamiento. Creo que entendí mal esta declaración.
@statsRus gracias por compartir los hechos, particularmente lo que llama "una nota sobre la selección de entradas". Creo que razoné de la misma manera que tú.
Desafortunadamente, los métodos de puntaje de apoyo discuten varias estrategias de ajuste en lugar de estrategias de selección de modelos. Quizás el ajuste del modelo no sea importante. Si ese es el caso, me ajustaría para cada variable disponible que pudiera afectar el resultado y la asignación del tratamiento lo más mínimo. No soy un estático, pero si el ajuste del modelo no tiene importancia, me gustaría ajustar todas las variables que podrían afectar la asignación y el resultado del tratamiento. En muchos casos, esto significaría incluir variables que se verán afectadas por el tratamiento.
Además, algunas personas sugieren que la regresión posterior de Cox solo debe incluir la variable de tratamiento y la subclase de puntaje de apoyo. Mientras que otros sugieren que el ajuste de Cox debe incluir el puntaje de apoyo adicionalmente a todas las demás variables para las que se ajustaría.