¿Cómo lidiar con el efecto techo debido a la herramienta de medición?


12

He recopilado datos psicofisiológicos que miden la capacidad de los sujetos (dos grupos) para percibir la vibración. Una sonda vibratoria se mueve contra la piel en desplazamientos cada vez más pequeños, y el sujeto indica cuándo sienten la vibración. Desafortunadamente, a altas frecuencias, la sonda solo puede moverse una distancia corta, y a veces la distancia más grande que la sonda puede moverse aún no es lo suficientemente grande como para que los sujetos la perciban. Por lo tanto, tengo valores de umbral precisos para algunos sujetos, pero para algunos que nunca sintieron la vibración, simplemente tengo un valor que sé que su umbral es mayor que. ¿Hay alguna manera de que aún incluya estos datos? ¿Y cuál es la mejor manera de analizarlo?


55
Estas se llaman observaciones censuradas . Cómo incluirlo depende del tipo de análisis estadístico que esté realizando.

Estoy de acuerdo con Procrastinator excepto que usaría el término truncado. El enfoque de un problema similar llamado censura a la derecha ocurre en el análisis de supervivencia donde se mantiene el valor truncado pero tiene una variable indicadora que le indica si el valor es un valor completo o uno censurado. En el análisis de supervivencia hay una manera simple de lidiar con esto, pero eso se debe a que está estimando una curva de supervivencia. Aquí es posible que desee calcular promedios. Si ignoras la trucación, subestimas el promedio. Si tira los puntos truncados, subestima el promedio.
Michael R. Chernick

Para incorporar adecuadamente los valores truncados, necesitaría tener un modelo de probabilidad para la distancia de la sonda dado que es mayor que el umbral. Luego, puede tomar la media de esa distribución y calcular un promedio ponderado usando el promedio de los valores que no se truncaron con el promedio de la distribución truncada donde la ponderación es de acuerdo con la proporción de casos truncados.
Michael R. Chernick

44
El truncamiento es lo que sucedería si desechara los datos no cuantificados. ¡No quieres hacer eso! Tienes razón, Cale, de que hay información en estos valores censurados y de sospechar que hay algunas formas estándar de analizarlos (y dificultades para los incautos). Pero para proporcionar una buena respuesta, necesitaríamos saber qué tipo de análisis busca. En particular, el tratamiento de estos datos es fundamentalmente diferente dependiendo de si aparecen como variables dependientes o independientes en una regresión. ¿Quizás podrías dar más detalles sobre esto?
whuber

1
Pequeños detalles no relacionados con la pregunta estadística en cuestión, pero podría ser útil saber: Los datos de este tipo generalmente se denominan datos "psicofísicos", no "psicofisiológicos" (que incluyen cosas como el ritmo cardíaco o las medidas de conductancia de la piel, pero no juicios subjetivos sobre las sensaciones ) Esto también podría ayudarlo a buscar literatura sobre cómo las personas suelen tratar este tipo de datos.
Gala

Respuestas:


2

Me gusta usar modelos de mezcla heterogéneos para describir efectos combinados de fuentes fundamentalmente diferentes.

Puede ver algo así como un modelo de "Poisson inflado cero" en el estilo de Diane Lambert. " Regresión de Poisson inflada a cero, con una aplicación a defectos en la fabricación ", Diane Lambert, Technometrics, vol. 34, Iss. 1, 1992

Encuentro esta idea particularmente deliciosa porque parece contradecir la noción de que la aplicación del diseño estadístico de experimentos a la medicina no puede curar completamente la enfermedad. Detrás de la noción está la idea de que el método científico no puede completar su propósito en medicina proviene de la idea de que no hay datos de enfermedad de un individuo "perfectamente" sano y que los datos no pueden informar el remedio de la enfermedad. Sin medición no hay espacio para mejorar.

El uso de algo así como un modelo inflado a cero permite extraer información útil de datos que están parcialmente "libres de errores". Está utilizando la comprensión del proceso para tomar la información que podría considerarse "silenciosa" y hacerla hablar. Para mí, este es el tipo de cosas que estás tratando de hacer.

Ahora no puedo comenzar a afirmar qué combinaciones de modelos usar. Sospecho que podría usar un modelo de mezcla gaussiana inflado a cero (GMM) para empezar. El GMM es un aproximador universal empírico para archivos PDF continuos, como el primo PDF de la aproximación de la serie Fourier, pero con el apoyo del teorema del límite central para mejorar la aplicabilidad global y permitir típicamente muchos menos componentes para hacer un " buena "aproximación".

La mejor de las suertes.

EDITAR:

Más sobre modelos con cero inflado:


0

Agrupar los resultados y definir una escala podría ser una solución.

Haga una variable de categoría como esta (o diferente):

  1. Alta sensibilidad
  2. Sensibilidad normal
  3. Baja sensibilidad
  4. Insensible (los que están fuera de escala en su caso)

Puede usar esta variable para hacer el análisis, pero si los resultados son significativos depende de qué tan bien defina las categorías.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.