Aquí hay una posibilidad.
La evaluación del desempeño docente ha sido tradicionalmente difícil. Una parte de esta dificultad es que diferentes estudiantes tienen diferentes niveles de interés en un tema determinado. Si un estudiante determinado obtiene una A, esto no necesariamente significa que la enseñanza fue excelente, sino que puede significar que un estudiante muy talentoso e interesado hizo todo lo posible para tener éxito incluso a pesar de la baja calidad de la enseñanza. Por el contrario, un estudiante que obtiene una D no necesariamente significa que la enseñanza fue deficiente, sino que puede significar que un estudiante desinteresado se detuvo a pesar de los mejores esfuerzos del maestro para educar e inspirar.
La dificultad se ve agravada por el hecho de que la selección de estudiantes (y, por lo tanto, el nivel de interés de los estudiantes) está lejos de ser aleatoria. Es común que las escuelas enfaticen una materia (o un grupo de materias) sobre otras. Por ejemplo, una escuela puede enfatizar materias técnicas sobre humanidades. Los estudiantes en tales escuelas probablemente estén tan interesados en las áreas técnicas que recibirán una calificación aprobatoria incluso con el peor maestro posible. Por lo tanto, la fracción de estudiantes que aprueban las matemáticas no es una buena medida de enseñanza: esperamos que los buenos maestros obtengan mejores resultados que los que están ansiosos por aprender. En contraste, esos mismos estudiantes pueden no estar interesados en absoluto en las artes. Sería difícil esperar, incluso del mejor maestro, asegurar que todos los estudiantes obtengan una A.
Otra dificultad es que no todo el éxito en una clase dada es atribuible directamente al maestro de esa clase. Más bien, el éxito puede deberse a que la escuela (o todo el distrito) crea motivación y marco para el logro.
Para tener en cuenta todas estas dificultades, los investigadores han creado un modelo que evalúa el "valor agregado" del profesor. En esencia, el modelo tiene en cuenta las características intrínsecas de cada estudiante (nivel general de interés y éxito en el aprendizaje), así como las contribuciones de la escuela y el distrito al éxito de los estudiantes, y predice las calificaciones de los estudiantes que se esperarían con un "promedio" enseñando en ese ambiente. Luego, el modelo compara las calificaciones reales con las predichas y, en función de ello, decide si la enseñanza fue adecuada dadas todas las demás consideraciones, mejor que adecuada o peor. Aunque el modelo puede parecer complejo para un no matemático, en realidad es bastante simple y estándar. Los matemáticos han estado utilizando modelos similares (e incluso más complejos) durante décadas.
Para resumir, la suposición de la Sra. Isaacson es correcta. A pesar de que 65 de sus 66 estudiantes obtuvieron un puntaje competente en el examen estatal, habrían obtenido el mismo puntaje incluso si un perro fuera su maestro. Un buen maestro real permitiría a estos estudiantes lograr no solo puntajes "competentes", sino realmente "buenos" en la misma prueba.
En este punto, podría mencionar algunas de mis preocupaciones con el modelo. Por ejemplo, los desarrolladores del modelo afirman que aborda algunas de las dificultades con la evaluación de la calidad de la enseñanza. ¿Tengo suficientes razones para creerles? Los vecindarios con población de bajos ingresos tendrán puntuaciones más bajas esperadas de 'distrito' y 'escuela'. Digamos que un vecindario tendrá un puntaje esperado de 2.5. Un maestro que logrará un promedio de 3 obtendrá una buena evaluación. Esto puede hacer que los maestros apunten a un puntaje de 3, en lugar de un puntaje de, digamos, 4 o 5. En otras palabras, los maestros buscarán la mediocridad en lugar de la perfección. ¿Queremos que esto suceda? Finalmente, aunque el modelo es matemáticamente simple, funciona de una manera muy diferente de cómo funciona la intuición humana. Como resultado, no tenemos una forma obvia de validar o disputar el modelo " s decisión. El desafortunado ejemplo de la Sra. Isaacson ilustra a qué puede conducir esto. ¿Queremos depender ciegamente de la computadora en algo tan importante?
Tenga en cuenta que esta es una explicación para un laico. Eludí varios problemas potencialmente controvertidos aquí. Por ejemplo, no quería decir que se espera que los distritos escolares con datos demográficos de bajos ingresos se desempeñen peor, porque esto no le parecería bueno a un laico.
Además, he asumido que el objetivo es en realidad dar una descripción razonablemente justa del modelo. Pero estoy bastante seguro de que este no era el objetivo de NYT aquí. Entonces, al menos parte de la razón por la cual su explicación es pobre es FUD intencional, en mi opinión.