Este es un tema complicado que introduce muchos problemas relacionados con: 1) especificar claramente una hipótesis, 2) comprender qué mecanismos causales (pueden) subyacen a un efecto hipotético y 3) elección / estilo de presentación.
Tiene razón en que, si aplicamos una práctica estadística sólida, para afirmar que "los grupos son similares", habría que realizar una prueba de equivalencia. Sin embargo, las pruebas de equivalencia sufren los mismos problemas que su contraparte NHST: el poder es simplemente un reflejo del tamaño de la muestra y el número de comparaciones: esperamos diferencias, pero su extensión y efecto en un análisis principal es mucho más importante.
Cuando se enfrentan a estas situaciones, las comparaciones de referencia casi siempre son pistas falsas. Se pueden aplicar mejores métodos (de ciencia y estadística). Tengo algunos conceptos / respuestas comunes que considero al responder preguntas como esta.
Una columna "total" es más importante que las columnas divididas por tratamiento; se justifica una discusión de esos valores.
En ensayos clínicos, la muestra de seguridad generalmente se analiza. Este es el subconjunto de los que primero fueron abordados, luego consentidos, luego aleatorizados y finalmente expuestos a al menos una iteración de control o tratamiento. En ese proceso, enfrentamos diversos grados de sesgo de participación.
Probablemente el aspecto más importante y omitido de estos estudios es presentar los resultados de la Tabla 1 en conjunto . Esto logra el propósito más importante de una Tabla 1: demostrar a otros investigadores cuán generalizable es la muestra del estudio a la población más amplia en la que se aplican los resultados.
Encuentro sorprendente cuán fijos están los investigadores, los lectores y los revisores en las tendencias tangenciales dentro de las características del paciente cuando hay un total desprecio por los criterios de inclusión / exclusión y la generalización de la muestra.
Me da vergüenza decir que fui analista en un ensayo que pasó por alto esto como un problema. Reclutamos pacientes y luego, debido a problemas logísticos, esperamos casi un año antes de implementar la intervención. El diagrama de consorte no solo mostró una gran caída entre esos períodos, sino que la muestra cambió. El resultado fue en gran parte desempleado / subempleado, más viejo y más saludable que las personas que pretendíamos alcanzar. Tenía profundas preocupaciones sobre la posibilidad de generalizar el estudio, pero era difícil presionar para que se dieran a conocer esas preocupaciones.
El poder y el error tipo I de las pruebas para detectar el desequilibrio en las características de la línea de base depende del número real de características
El punto de presentar una lista tan detallada de las variables de línea de base, como se mencionó anteriormente, es proporcionar una instantánea completa de la muestra; su historial del paciente, laboratorios, medicamentos y demografía. Todos estos son aspectos que los médicos utilizan para recomendar el tratamiento a los pacientes. Se cree que todos predicen el resultado. Pero la cantidad de tales factores es asombrosa. Se pueden comparar hasta 30 variables diferentes. El riesgo bruto de error de Tipo I es 1- (1-0.05) ^ 30 = 0.79. Se recomiendan correcciones de Bonferroni o de permutación si se deben realizar pruebas .
Las pruebas estadísticas en su forma más pura deben ser imparciales, y se supone que deben especificarse previamente. Sin embargo, la elección y presentación de las características basales es a menudo relativa. Creo que el último enfoque es apropiado: si encontramos, como en mi ensayo, hay rasgos interesantes que describen la muestra de manera efectiva, deberíamos tener la libertad de elegir presentar esos valores ad hoc . Se pueden realizar pruebas si tiene algún valor, pero se aplican las advertencias habituales: no son hipótesis de interés, existe un alto riesgo de confusión en cuanto a lo que implican resultados significativos y no significativos, y los resultados son más un reflejo de tamaño de la muestra y consideraciones de presentación que cualquier verdad.
La aleatorización se puede hacer, pero solo antes de que los pacientes estén expuestos al tratamiento
Como mencioné, la muestra analizada es típicamente la muestra de seguridad. Sin embargo, la aleatorización es un enfoque ampliamente recomendado y teóricamente consistente para pacientes que no han estado expuestos al tratamiento del estudio. Esto solo se aplica a la configuración en la que se realiza la inscripción por lotes. Aquí, 100 participantes son reclutados y asignados al azar. Si, por ejemplo, la probabilidad asigna una alta proporción de personas mayores a un grupo, entonces la muestra se puede aleatorizar para equilibrar la edad. Esto no se puede hacer con la inscripción secuencial o escalonada, que es el entorno en el que se realizan la mayoría de los ensayos. Esto se debe a que el momento de la inscripción tiende a predecir el estado del paciente por "sesgo" de caso frecuente (incidente confuso y criterios de elegibilidad prevalentes).
El diseño equilibrado no es un requisito para una inferencia válida
El supuesto de aleatorización dice que, teóricamente, todos los participantes tendrán en promedio distribuciones iguales de covariables. Sin embargo, como se mencionó anteriormente, al comparar 30 o más niveles, la probabilidad acumulativa de desequilibrio no es despreciable. De hecho, desequilibrio de covariables puede ser irrelevante al considerar el todo.
Si la aleatorización es justa, podemos ver que la edad es elevada en el grupo de tratamiento, pero fumar es elevado en el grupo control: los dos contribuyen individualmente al riesgo del resultado. Lo que se necesita para una inferencia eficiente y válida es que el puntaje de propensión esté equilibrado entre los grupos. Esta es una condición mucho más débil. Desafortunadamente, la propensión no puede ser inspeccionada por un balance sin un modelo de riesgo. Sin embargo, es fácil ver que dicha propensión depende de una combinación de covariables, y la probabilidad de un desequilibrio en las propensiones en una muestra aleatoria es mucho menos probable, a pesar de ser imposible de mostrar con exactitud.
Si se conoce un modelo de riesgo, o existen predictores sólidos del resultado, se realizan ECA más eficientes y válidos simplemente ajustando esos factores, independientemente de si están equilibrados entre los grupos de tratamiento.
Uno de mis artículos favoritos, 7 mitos de ensayos controlados aleatorios , discute esto. El ajuste mejora la eficiencia cuando la variable de ajuste es muy predictiva del resultado. Resulta que incluso con un equilibrio perfecto de 50/50, usando una aleatorización bloqueada, o incluso como una coincidencia de cómo se realizó la aleatorización, el ajuste reducirá los IC, lo que requerirá que menos participantes tengan un estudio igualmente potente; Esto reduce los costos y riesgos. Es sorprendente que esto no se haga con más frecuencia.
Los estudios de observación requieren control para la confusión, independientemente de lo que muestre la Tabla 1
El supuesto de aleatorización elimina la confusión. Con el tratamiento no aleatorizado, hay confusión. Un factor de confusión es una variable causal del resultado y predice la recepción del tratamiento cuasiexperimental. No existe una prueba para determinar qué variable (s) es / son los factores de confusión. El riesgo de echar un vistazo a los datos para responder estas preguntas es que los factores de confusión son prácticamente indistinguibles de los mediadores o colisionadores sin una medición completamente perfecta de los valores longitudinales (e incluso entonces ...). El ajuste para mediadores atenúa cualquier efecto, el ajuste del colisionador puede causar cualquier tipo de sesgo. Además, uno no necesita ajustarse para un conjunto total de factores de confusión, sino que debe eliminar el criterio de puerta trasera.
Por ejemplo, en un estudio sobre la función pulmonar y el tabaquismo en adolescentes: los niños mayores tienen más probabilidades de fumar, pero como son más altos, su función pulmonar es mayor. Resulta que el ajuste de altura solo es suficiente para eliminar la confusión, ya que satisface el criterio de puerta trasera. Un ajuste adicional por edad simplemente pierde eficiencia. Sin embargo, simplemente inspeccionar el "equilibrio" de una tabla 1 en fumadores y no fumadores sugeriría que tanto la edad como la estatura están "desequilibradas" y, por lo tanto, deben controlarse. Eso es incorrecto.