Pensé que había tropezado con un sitio web y una referencia que trata exactamente con esta pregunta:
http://www.graphpad.com/faq/viewfaq.cfm?faq=1226
Comience desde "Los dos métodos comparados".
El sitio hace referencia al documento de Berstein vinculado (arriba):
http://www.jstor.org/stable/2530564?seq=1
El sitio resume los resultados de Berstein et al., Así que lo citaré:
Los dos generalmente dan resultados idénticos (o casi idénticos). Pero los resultados pueden diferir cuando varios sujetos mueren al mismo tiempo o cuando la relación de riesgo está lejos de ser 1.0.
Bernsetin y sus colegas analizaron datos simulados con ambos métodos (1). En todas sus simulaciones, la suposición de riesgos proporcionales era cierta. Los dos métodos dieron valores muy similares. El método logrank (al que se refieren como el método O / E) informa valores que están más cerca de 1.0 que la verdadera razón de riesgo, especialmente cuando la razón de riesgo es grande o el tamaño de la muestra es grande.
Cuando hay vínculos, ambos métodos son menos precisos. Los métodos logrank tienden a informar índices de riesgo que están aún más cerca de 1.0 (por lo que el índice de riesgo informado es demasiado pequeño cuando el índice de riesgo es mayor que 1.0 y demasiado grande cuando el índice de riesgo es menor que 1.0). El método Mantel-Haenszel, por el contrario, informa índices de riesgo que están más lejos de 1.0 (por lo tanto, el índice de riesgo informado es demasiado grande cuando el índice de riesgo es mayor que 1.0 y demasiado pequeño cuando el índice de riesgo es menor que 1.0).
No probaron los dos métodos con datos simulados donde la suposición de riesgos proporcionales no es cierta. He visto un conjunto de datos donde las dos estimaciones de FC eran muy diferentes (por un factor de tres), y la suposición de riesgos proporcionales era dudosa para esos datos. Parece que el método Mantel-Haenszel da más peso a las diferencias en el peligro en puntos de tiempo tardíos, mientras que el método logran da el mismo peso en todas partes (pero no he explorado esto en detalle). Si observa valores de FC muy diferentes con los dos métodos, piense si la suposición de riesgos proporcionales es razonable. Si esa suposición no es razonable, entonces, por supuesto, el concepto completo de una sola razón de riesgo que describe la curva completa no tiene sentido
El sitio también se refiere al conjunto de datos en el que "las dos estimaciones de FC eran muy diferentes (por un factor de tres)", y sugieren que la suposición de PH es una consideración clave.
Entonces pensé: "¿Quién creó el sitio?" Después de buscar un poco, descubrí que era Harvey Motulsky. Entonces, Harvey, he logrado hacerte referencia para responder tu propia pregunta. Te has convertido en la autoridad!
¿Es el "conjunto de datos problemático" un conjunto de datos disponible públicamente?