Tengo un conjunto de datos con el siguiente formato.
Hay un resultado binario cáncer / no cáncer. Todos los médicos del conjunto de datos han visto a cada paciente y han emitido un juicio independiente sobre si el paciente tiene cáncer o no. Luego, los doctores dan su nivel de confianza de 5 de que su diagnóstico es correcto y el nivel de confianza se muestra entre paréntesis.
He intentado varias formas de obtener buenos pronósticos de este conjunto de datos.
Me funciona bastante bien promediar entre los médicos, ignorando sus niveles de confianza. En la tabla anterior, eso habría producido diagnósticos correctos para el paciente 1 y el paciente 2, aunque habría dicho incorrectamente que el paciente 3 tiene cáncer, ya que por una mayoría de 2-1 los médicos piensan que el paciente 3 tiene cáncer.
También probé un método en el que tomamos muestras de forma aleatoria de dos médicos, y si no están de acuerdo entre ellos, entonces el voto decisivo corresponde al médico que tenga más confianza. Ese método es económico porque no necesitamos consultar a muchos médicos, pero también aumenta bastante la tasa de error.
Probé un método relacionado en el que seleccionamos al azar a dos médicos, y si no están de acuerdo, seleccionamos al azar a dos más. Si un diagnóstico está adelantado por al menos dos 'votos', entonces resolvemos las cosas a favor de ese diagnóstico. Si no, seguimos probando más médicos. Este método es bastante económico y no comete demasiados errores.
No puedo evitar sentir que me falta una forma más sofisticada de hacer las cosas. Por ejemplo, me pregunto si hay alguna forma de dividir el conjunto de datos en conjuntos de entrenamiento y prueba, y encontrar una forma óptima de combinar los diagnósticos, y luego ver cómo funcionan esos pesos en el conjunto de prueba. Una posibilidad es algún tipo de método que me permita bajar de peso a los médicos que seguían cometiendo errores en el conjunto de prueba, y tal vez diagnósticos de peso que se realizan con alta confianza (la confianza se correlaciona con la precisión en este conjunto de datos).
Tengo varios conjuntos de datos que coinciden con esta descripción general, por lo que los tamaños de muestra varían y no todos los conjuntos de datos se relacionan con médicos / pacientes. Sin embargo, en este conjunto de datos en particular hay 40 médicos, cada uno atendió a 108 pacientes.
EDITAR: Aquí hay un enlace a algunas de las ponderaciones que resultan de mi lectura de la respuesta de @ jeremy-miles.
Los resultados no ponderados se encuentran en la primera columna. En realidad, en este conjunto de datos, el valor de confianza máximo era 4, no 5, como dije erróneamente anteriormente. Por lo tanto, siguiendo el enfoque de @ jeremy-miles, el puntaje no ponderado más alto que cualquier paciente podría obtener sería 7. Eso significaría que, literalmente, cada médico afirmó con un nivel de confianza de 4 que ese paciente tenía cáncer. El puntaje no ponderado más bajo que cualquier paciente podría obtener es 0, lo que significa que cada médico afirmó con un nivel de confianza de 4 que ese paciente no tenía cáncer.
Ponderación por el Alfa de Cronbach. En SPSS descubrí que había un Alfa de Cronbach general de 0.9807. Traté de verificar que este valor fuera correcto calculando el Alfa de Cronbach de una manera más manual. Creé una matriz de covarianza de los 40 médicos, que pego aquí . Luego, según mi comprensión de la fórmula Alfa de Cronbach donde es el número de elementos (aquí los médicos son los 'elementos') calculé sumando todos los elementos diagonales en la matriz de covarianza, y sumando todos los elementos en La matriz de covarianza. Entonces tengo Luego los 40 resultados diferentes de Cronbach Alpha que ocurrirían cuando cada médico fuera removido del conjunto de datos Puse a cero a cualquier médico que haya contribuido negativamente al Alfa de Cronbach. Se me ocurrieron pesos para los médicos restantes proporcional a su contribución positiva al Alfa de Cronbach.
Ponderación por correlaciones totales de artículos. Calculo todas las correlaciones de ítems totales, y luego pongo un peso proporcional a cada médico al tamaño de su correlación.
Ponderación por coeficientes de regresión.
Una cosa de la que aún no estoy seguro es cómo decir qué método funciona "mejor" que el otro. Anteriormente había estado calculando cosas como el puntaje de habilidad de Peirce, que es apropiado para casos en los que hay una predicción binaria y un resultado binario. Sin embargo, ahora tengo pronósticos que van de 0 a 7 en lugar de 0 a 1. ¿Debo convertir todos los puntajes ponderados> 3.50 a 1, y todos los puntajes ponderados <3.50 a 0?
Cancer (4)
hasta la predicción de no cáncer con máxima confianza No Cancer (4)
. No podemos decir eso No Cancer (3)
y Cancer (2)
son lo mismo, pero podríamos decir que hay un continuo, y los puntos medios en este continuo son Cancer (1)
y No Cancer (1)
.
No Cancer (3)
esCancer (2)
? Eso simplificaría un poco tu problema.