Por lo general, en la investigación biomédica, no utilizamos un conjunto de capacitación, solo aplicamos la regresión logística en el conjunto de datos completo para ver qué predictores son factores de riesgo significativos para el resultado que estamos analizando; o mirar un predictor de interés mientras se controla el efecto de otros posibles predictores en el resultado.
No estoy muy seguro de lo que quiere decir con valores umbral, pero hay varios parámetros que uno puede tratar de optimizar: AUC, valores de corte para una dicotomización de una variable predictora continua, valores predictivos positivos y negativos, intervalos de confianza y valores p, tasas de falsos positivos y falsos negativos. La regresión logística analiza una población de sujetos y evalúa la fuerza y la dirección causal de los factores de riesgo que contribuyen al resultado de interés en esa población. También es posible "ejecutarlo en reversa", por así decirlo, y determinar el riesgo de un individuo del resultado dados los factores de riesgo que tiene el individuo. La regresión logística asigna a cada individuo un riesgo del resultado, en función de sus factores de riesgo individuales, y por defecto es 0.5. Si un sujeto ' Si la probabilidad de obtener el resultado (basado en todos los datos y temas en su modelo) es 0.5 o superior, predice que tendrá el resultado; si está por debajo de 0.5, entonces predice que no lo hará. Pero puede ajustar este nivel de corte, por ejemplo, para señalar a más personas que podrían estar en riesgo de tener el resultado, aunque al precio de que el modelo prediga más falsos positivos. Puede ajustar este nivel de corte para optimizar las decisiones de detección con el fin de predecir qué individuos se les recomendaría tener un seguimiento médico adicional, por ejemplo; y para construir su valor predictivo positivo, valor predictivo negativo y tasas de falso negativo y falso positivo para una prueba de detección basada en el modelo de regresión logística. Puede desarrollar el modelo en la mitad de su conjunto de datos y probarlo en la otra mitad, pero no Realmente no es necesario (y al hacerlo, reducirá sus datos de 'entrenamiento' a la mitad y, por lo tanto, reducirá el poder de encontrar predictores significativos en el modelo) Entonces sí, puedes 'entrenar todo de principio a fin'. Por supuesto, en la investigación biomédica, desearía validarlo en otra población, otro conjunto de datos antes de decir que sus resultados pueden generalizarse a una población más amplia. Otro enfoque es utilizar un enfoque de tipo bootstrapping donde ejecute su modelo en una submuestra de su población de estudio, luego reemplace a esos sujetos nuevamente en el grupo y repita con otra muestra, muchas veces (generalmente 1000 veces). Si obtiene resultados significativos la mayoría de las veces prescritas (por ejemplo, el 95% del tiempo), su modelo puede considerarse validado, al menos según sus propios datos. Pero, de nuevo, cuanto menor sea la población de estudio en la que ejecuta su modelo, menos probable será que algunos predictores sean factores de riesgo estadísticamente significativos para el resultado. Esto es especialmente cierto para los estudios biomédicos con un número limitado de participantes.
Usar la mitad de sus datos para 'entrenar' su modelo y luego 'validarlo' en la otra mitad es una carga innecesaria. No lo hace para pruebas t o regresión lineal, entonces ¿por qué hacerlo en regresión logística? Lo máximo que puede hacer es dejarle decir 'sí, funciona', pero si usa su conjunto de datos completo, entonces lo determina de todos modos. Romper sus datos en conjuntos de datos más pequeños corre el riesgo de no detectar factores de riesgo significativos en la población de estudio (O la población de validación) cuando de hecho están presentes, debido al pequeño tamaño de la muestra, tener demasiados predictores para el tamaño de su estudio y la posibilidad que su 'muestra de validación' no mostrará asociaciones solo por casualidad. La lógica detrás del enfoque 'entrenar y luego validar' parece ser que si los factores de riesgo que identifica como significativos no son lo suficientemente fuertes, entonces no serán estadísticamente significativos cuando se modelen en la mitad de sus datos elegidos al azar. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. No sea estadísticamente significativo cuando se modele en una mitad de sus datos elegida al azar. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. No sea estadísticamente significativo cuando se modele en una mitad de sus datos elegida al azar. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. Pero esa muestra elegida al azar podría no mostrar asociación solo por casualidad, o porque es demasiado pequeña para que los factores de riesgo sean estadísticamente significativos. Pero es la magnitud de los factores de riesgo Y su importancia estadística lo que determina su importancia y, por esa razón, es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. s la magnitud de los factores de riesgo Y su significancia estadística que determinan su importancia y por esa razón es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio. s la magnitud de los factores de riesgo Y su significancia estadística que determinan su importancia y por esa razón es mejor usar su conjunto de datos completo para construir su modelo. La significación estadística será menos significativa con tamaños de muestra más pequeños, como sucede con la mayoría de las pruebas estadísticas. Hacer regresión logística es un arte casi tanto como una ciencia estadística. Existen diferentes enfoques de uso y diferentes parámetros para optimizar según el diseño de su estudio.