En términos descriptivos, ofrecería "una muestra de datos censurada si algunas observaciones en ella toman o constituyen los valores extremos de la muestra pero su verdadero valor está fuera del rango de la muestra observada". Pero esto es engañosamente sencillo.
Entonces, primero analicemos cómo podemos concluir que un conjunto de datos está censurado, lo que naturalmente nos llevará a discutir los casos presentados en la pregunta.
Supongamos que se nos da el siguiente conjunto de datos de una variable aleatoria discreta , por lo que lo único que sabemos es que no es negativo:X
{0,1,1,2,2,2,2,2,2,2}
¿Podemos decir que el conjunto de datos está censurado? Bueno, tenemos derecho a pensar que podría ser, pero no necesariamente es así:
1) puede tener el rango { 0 , 1 , 2 } y una distribución de probabilidad { 0.1 , 0.1 , 0.8 } . Si este es realmente el caso, parece que no hay censura aquí, solo una muestra "anticipada" de una variable tan aleatoria, con soporte limitado y distribución altamente asimétrica. X{0,1,2}{0.1,0.1,0.8}
2) Sin embargo, puede ser el caso que tiene el rango { 0 , 1 , . . . , 9 } con distribución de probabilidad uniforme { 0,1 , 0,1 , . . .0 .1 } , en cuyo caso nuestra muestra de datos probablemente esté censurada. X{0,1,...,9}{0.1,0.1,...0.1}
¿Cómo podemos saberlo? No podemos, excepto si poseemos conocimiento o información previa , que nos permita argumentar a favor de uno u otro caso. ¿Los tres casos presentados en la pregunta representan conocimiento previo al efecto de la censura? Veamos:
El caso A) describe una situación en la que para algunas observaciones solo tenemos información cualitativa como "muy grande", "muy pequeña", etc., lo que nos lleva a asignar a la observación un valor extremo. Tenga en cuenta que el simple hecho de no conocer el valor real realizado no justifica la asignación de un valor extremo. Por lo tanto, debemos tener alguna información en el sentido de que para estas observaciones, su valor exceda o esté por debajo de todos los observados. En este caso, se desconoce el rango real de la variable aleatoria, pero nuestra información cualitativa nos permite crear una muestra censurada (es otra discusión sobre por qué no solo descartamos las observaciones para las cuales no poseemos el valor real realizado )
El caso B) no es un caso de censura, si lo entiendo correctamente, sino un caso de muestra contaminada: nuestra información a priori nos dice que el valor máximo de la variable aleatoria no puede exceder (debido a una ley física o un ley social: supongamos que se trata de datos de calificaciones de un sistema de calificación que usa solo los valores 1 , 2 , 3 ). Pero también hemos observado el valor 4 y el valor 5 . ¿Cómo puede ser esto? Error en la grabación de los datos. Pero en tal caso, no sabemos con certeza que los 4 y 5 deberían ser los 331,2,345453's (de hecho, mirando el teclado lateral de una computadora, ¡es más probable que los sean 1 y los 5 sean 2 !). Al "corregir" de cualquier forma la muestra, no la convertimos en censurada, porque la variable aleatoria no se supone que se encuentre en el rango registrado en primer lugar (por lo que no hay probabilidades verdaderas asignadas a los valores 4 y 5 ) 415245
El caso C) se refiere a una muestra conjunta, donde tenemos una variable dependiente y predictores. Aquí, podemos tener una muestra donde los valores de la variable dependiente se concentran en uno o ambos extremos, debido a la estructura del fenómeno en estudio: en el ejemplo habitual de "horas trabajadas", las personas desempleadas no trabajan pero tendrían funcionó (piense detenidamente: ¿este caso realmente cae dentro de la "definición" descriptiva al comienzo de esta respuesta?). Por lo tanto, incluirlos en la regresión con las horas registradas "cero" crea un sesgo. En el otro extremo, se puede argumentar que el número máximo de horas trabajadas puede alcanzar, digamos 16/ día, y puede haber empleados que estén dispuestos a trabajar tantos por un salario determinado. Pero el marco legal no lo permite y, por lo tanto, no observamos tales "horas trabajadas". Aquí, estamos tratando de estimar la " función de oferta de trabajo prevista ", y es con respecto a esta variable que la muestra se caracteriza como censurada.
Pero si declaramos que lo que queremos hacer es estimar "la función de la oferta de trabajo dado el fenómeno del desempleo y el marco legal", la muestra no sería censurada, ya que reflejaría el efecto de estos dos aspectos, algo que queremos que hacer
Entonces, vemos que caracterizar una muestra de datos como censurada
a) puede provenir de diferentes situaciones
yb) requiere un poco de cuidado,
solo el hecho de que puede confundirse con el caso del truncamiento .