Regresión múltiple con pequeños conjuntos de datos.

Tengo un conjunto de datos de estudios de casos de proyectos para un nuevo tipo de método de investigación para que las agencias gubernamentales apoyen las actividades de toma de decisiones. Mi tarea es desarrollar un método de estimación basado en la experiencia pasada para proyectos futuros con fines de estimación.

Mi conjunto de datos está limitado a 50 casos. Tengo más de 30 predictores (potenciales) registrados y una variable de respuesta (es decir, horas tomadas para completar el proyecto).

No todos los predictores son significativos, usando técnicas de selección por pasos, espero que el número de variables de predicción esté en el rango de 5-10 variables. Aunque estoy luchando por obtener un conjunto de predictores utilizando los appraoches estándar en herramientas como PASW (SPSS).

Soy muy consciente de todo el material que habla sobre las reglas generales para los tamaños de muestra y las relaciones de predictores variables a casos. Mi dilema es que se han tardado cerca de 10 años en recolectar 50 casos tal como están, por lo que es tan bueno como sea posible.

Mi pregunta es ¿qué debo hacer para aprovechar al máximo este pequeño conjunto de muestras?

¿Estas son buenas referencias para tratar con pequeños conjuntos de smaple? ¿Cambios en la significación del valor p? ¿Cambios en los enfoques de selección por pasos? Uso de transformaciones como centrado o registro?

Cualquier consejo es apreciado.

regression small-sample

— Shane
fuente

Como desea seleccionar algunos predictores de su conjunto de datos, sugeriría una regresión lineal simple con penalización o utilizando LASSO (regresión lineal penalizada). Su caso es adecuado para la regresión con penalización LASSO como el tamaño de su muestra, , y el número de predictores, . Cambiar el parámetro de sintonización seleccionará el número de predictores que desea elegir. $L_1$ $n = 50$ $p=30$

Si puede dar detalles sobre la distribución de sus variables, puedo ser más específico.

No uso SPSS, pero esto se puede hacer fácilmente al Rusar la glmnetfunción en el paquete del mismo nombre. Si mira el manual, contiene un ejemplo genérico (el primero, para el caso gaussiano ) que resolverá su problema. Estoy seguro de que debe existir una solución similar en SPSS.

— suncoolsu
fuente

La respuesta es muy negativa. Con la gran cantidad de proyectos de alrededor de 2500 horas y una cola que se extiende a un par de proyectos de 10000-14000 horas. Los predictores continuos (escala) son una mezcla de distribuciones, mientras que algunos predictores son categóricos (nominales). ¿Qué tipos de distribuciones se requieren para LASSO (o qué más necesita saber de mí)? - por cierto gracias por la respuesta!

— Shane

@ Shane, el LASSO es un concepto general de penalizar con(módulo o valor absoluto) función. Es independiente de cualquier distribución. Si marca el paquete (vea la función , le da opciones para ajustar el (la regresión lineal es un caso especial) con penalización para una variedad de distribuciones. Es bastante rápido y sorprendente al mismo tiempo.

| |

$||$ glmnetglmnetglm

L_{1}

$L_1$

— suncoolsu

La comprobación de la ayuda de SPSS habla de una característica llamada "Regularización de regresión categórica" o CATREG. Parece abordar los métodos Lasso y Ridge. Por alguna razón no está habilitado en mi versión. Si alguien sabe por qué estaría agradecido.

— Shane

@Shane Si mi memoria no me falla, he visto a @AndyW publicar un elegante código SPSS. ¡(Código) me impresiona todo el tiempo!

— suncoolsu

@Shane, parece que el comando CATREG ha existido durante bastantes versiones de SPSS, pero probablemente necesite algunas licencias / módulos de regresión avanzados para usarlo. En la edición actual, necesita el conjunto de estadísticas "premium" para obtener esta funcionalidad. Solo sugeriría revisar los paquetes R que suncoolsu menciona (¡es gratis!).

— Andy W