¿Pasar de datos continuos a categóricos siempre está mal?

Cuando leo sobre cómo configurar sus datos, una cosa que a menudo me encuentro es que transformar algunos datos continuos en datos categóricos no es una buena idea, ya que es muy posible que llegue a una conclusión incorrecta si los umbrales están mal determinados.

Sin embargo, actualmente tengo algunos datos (valores de PSA para pacientes con cáncer de próstata), donde creo que el consenso común es que si tiene menos de 4 años, probablemente no lo tenga, si está por encima está en riesgo, y luego algo así como por encima de 10 y 20, probablemente lo tengas. Algo como eso. En ese caso, ¿seguiría siendo incorrecto clasificar mis valores continuos de PSA en grupos de digamos 0-4, 4-10 y> 10? ¿O está realmente bien ya que los umbrales están "bien determinados", por así decirlo?

categorical-data continuous-data

— Denver Dang
fuente

Depende (como siempre). Por ejemplo, si está estudiando cómo los médicos tomarán decisiones y toman decisiones basadas en estas categorías, entonces le corresponde usar las mismas categorías. Si, en cambio, está estudiando las consecuencias biológicas asociadas con el PSA elevado, lo más probable es que no desee clasificar el PSA en absoluto. Por lo tanto, no hay una respuesta definitiva a su amplia pregunta "¿está bien?"

— whuber

¿Qué intentas hacer con los datos? ¿Acaso los límites como ese generalmente no están relacionados con lo que quieres resolver, de modo que ponerlos a mano es la pregunta?

— RemcoGerlich

Estoy configurando los datos para un modelo de regresión logística. Entonces, la pregunta principal es si usar los datos continuos o tener datos discretos.

— Denver Dang

No me queda claro qué son los datos 'continuos'. No es algo que exista en la realidad. No existe una medida / estadística con precisión infinita.

— JimmyJames

@BillHorvath Sí, no soy médico, así que no estoy totalmente seguro de cómo se ha determinado esto. Si solo echa un vistazo a la página Wiki, indica un lugar: "Los niveles de PSA entre 4 y 10 ng / mL (nanogramos por mililitro) se consideran sospechosos y se debe considerar confirmar el PSA anormal con una prueba repetida. " y luego otro lugar: "Bajo riesgo: PSA <10, puntaje de Gleason ≤ 6, y estadio clínico ≤ T2a Riesgo intermedio: PSA 10-20, puntaje de Gleason 7, O estadio clínico T2b / c Alto riesgo: PSA> 20 , Puntuación de Gleason ≥ 8, O estadio clínico ≥ T3 "

— Denver Dang

Respuestas:

¿Hay una fuerte discontinuidad en sus umbrales?

Por ejemplo, suponga que tiene dos pacientes A y B con valores 3.9 y 4.1, y otros dos pacientes C y D con valores 6.7 y 6.9. ¿Es la diferencia en la probabilidad de cáncer entre A y B mucho mayor que la diferencia correspondiente entre C y D?

Si es así, entonces discretizar tiene sentido.

De lo contrario, sus umbrales pueden tener sentido para comprender sus datos, pero no están "bien determinados" en un sentido estadísticamente significativo. No discretizar En su lugar, use los puntajes de sus exámenes "tal cual", y si sospecha algún tipo de no linealidad, use splines .

Esto es muy recomendable.

— Stephan Kolassa
fuente

Ese enlace en la parte inferior está lleno de grandes puntos. Los futuros lectores de esta respuesta deberían echarle un vistazo.

— eric_kernfeld

Creo que discretizar no tiene sentido a menos que haya un gran salto en el resultado en el descanso propuesto Y si el resultado es relativamente homogéneo dentro de esos grupos. De lo contrario, hay mejores formas de abordar un "salto" en la función @Stephan Kolassa

— LSC

Creo que la respuesta estándar es que siempre es mala porque pierdes información en el proceso. Es difícil creer que haya algún caso en el que pueda ganar algo tomando datos de intervalos naturales y haciéndolos categóricos.

— usuario54285
fuente

La situación apropiada sería cuando hay una verdadera discontinuidad en la relación de esa x particular con el DV y que dentro de las "categorías" el resultado es relativamente homogéneo.

— LSC