Asignar pesos a variables en el análisis de conglomerados

Quiero asignar diferentes pesos a las variables en mi análisis de clúster, pero mi programa (Stata) no parece tener una opción para esto, así que necesito hacerlo manualmente.

Imagine 4 variables A, B, C, D. Los pesos para esas variables deben ser

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Me pregunto si uno de los siguientes dos enfoques realmente funcionaría:

Primero estandarizo todas las variables (por ejemplo, por su rango). Luego multiplico cada variable estandarizada con su peso. Luego haga el análisis de conglomerados.
Multiplico todas las variables con su peso y las estandarizo después. Luego haga el análisis de conglomerados.

¿O son ambas ideas una completa tontería?

[EDITAR] Los algoritmos de agrupamiento (pruebo 3 diferentes) que deseo usar son k-means, enlace promedio ponderado y enlace promedio. Planeo usar un enlace de promedio ponderado para determinar una buena cantidad de grupos que luego conecto a k-means.

clustering stata

— SPi
fuente

Ambas formas generalmente no son correctas. Multiplicar valores de variables no es equivalente a ponderar la importancia de la variable para la agrupación. Si el programa no tiene una opción de ponderación, puede hacerlo a veces con los datos que desee, pero esto depende de la naturaleza exacta de su agrupación. Por lo tanto, describa (en su pregunta) los detalles de su agrupación: qué algoritmo y método utilizará.

— ttnphns

Tenga en cuenta que la forma más fácil y universal de ponderar variables (y los pesos son enteros o pueden hacerse enteros) sería simplemente propagar las variables por esos pesos. En su ejemplo, puede tomar 50 As, 25 Bs, 10 Cs, 15 Ds en su agrupación.

— ttnphns

O, la alternativa: si usa el agrupamiento basado en una medida euclidiana o usa k-medias, multiplique cada variable por la raíz cuadrada de su peso. Esta multiplicación, por supuesto, debe hacerse después de cualquier preprocesamiento (como la estandarización) que desee realizar antes de la agrupación.

— ttnphns

Una forma de asignar un peso a una variable es cambiando su escala. El truco funciona para los algoritmos de agrupación que menciona, a saber. k-medias, enlace promedio ponderado y enlace promedio.

Kaufman, Leonard y Peter J. Rousseeuw. " Encontrar grupos en datos: una introducción al análisis de conglomerados ". (2005) - página 11:

La elección de las unidades de medida da lugar a pesos relativos de las variables. Expresar una variable en unidades más pequeñas dará lugar a un rango mayor para esa variable, lo que tendrá un gran efecto en la estructura resultante. Por otro lado, al estandarizar se intenta dar a todas las variables un peso igual, con la esperanza de lograr la objetividad. Como tal, puede ser utilizado por un practicante que no posee conocimiento previo. Sin embargo, bien puede ser que algunas variables sean intrínsecamente más importantes que otras en una aplicación particular, y luego la asignación de pesos debería basarse en el conocimiento de la materia (véase, por ejemplo, Abrahamowicz, 1985).

Por otro lado, ha habido intentos de idear técnicas de agrupamiento que sean independientes de la escala de las variables (Friedman y Rubin, 1967). La propuesta de Hardy y Rasson (1982) es buscar una partición que minimice el volumen total de los cascos convexos de los grupos. En principio, dicho método es invariable con respecto a las transformaciones lineales de los datos, pero desafortunadamente no existe un algoritmo para su implementación (excepto por una aproximación que está restringida a dos dimensiones). Por lo tanto, el dilema de la estandarización parece inevitable en la actualidad y los programas descritos en este libro dejan la elección del usuario.

Abrahamowicz, M. (1985), El uso de información no numérica para medir diferencias, documento presentado en la Cuarta Reunión Europea de la Sociedad Psicométrica y las Sociedades de Clasificación, 2-5 de julio, Cambridge (Reino Unido).

Friedman, HP y Rubin, J. (1967), sobre algunos criterios invariables para agrupar datos. J. Amer Estadístico. ASSOC6., 2, 1159-1178.

Hardy, A. y Rasson, JP (1982). Anal. Donnies, 7, 41-56.

— Franck Dernoncourt
fuente

Su primera referencia está destrozada de alguna manera: Leonard Kaufman y Peter J. Rousseeuw son los autores del libro al que se vincula.

— Nick Cox

Oh, gracias por señalar esto ... Fui jodido por Lavoisier, que cometió un error en su página "Auteurs: SEWELL Grandville, ROUSSEEUW Peter J.", que a su vez atornilló a Gscholar que estaba usando para obtener la referencia.

— Franck Dernoncourt el

Gracias @FranckDernoncourt! Si la escala (y por lo tanto el rango) de la variable determina su peso, ¿no se acercaría a 1.) en mi pregunta inicial sería una solución correcta?

— SPi

Sí, el enfoque 1 es el correcto, y corresponde a lo que Kaufman, Leonard y Peter J. Rousseeuw dicen en los párrafos que cité en la respuesta. El Enfoque 2 sería inútil ya que la estandarización elimina los pesos :)

— Franck Dernoncourt