Supongamos que se nos da un conjunto de datos de la forma y . Se nos da la tarea de predecir función de los valores de . Estimamos dos regresiones donde: y x y
También estimamos una regresión que predice valores de función de los valores de , es decir:
Supongamos que ahora se nos dan valores de , entonces tendríamos dos métodos diferentes para predecir :
¿Cuál sería mejor en general?
Supongo que la primera ecuación sería mejor porque utiliza información de las dos formas de puntos de datos, mientras que la segunda ecuación utiliza información de solo puntos de datos que tienen valores de predicción . Mi formación en estadística es limitada y, por lo tanto, me gustaría buscar asesoramiento profesional.
Además, en general, ¿cuál es el mejor enfoque hacia los datos que tienen información incompleta? En otras palabras, ¿cómo podemos extraer la mayor cantidad de información de los datos que no tienen valores en todas las dimensiones?