A continuación se describe lo que estoy tratando de lograr, pero es posible que una declaración alternativa del problema pueda describir mi objetivo:
quiero
divida los siguientes números en grupos donde las variaciones de los números dentro de cada grupo no sean demasiado grandes y las diferencias entre los promedios de los grupos no sean demasiado pequeñas
compare la distribución obtenida al final con las "perfectas" y vea cuán "diferente" es de ser perfecta.
Explicación de la meta del laico
Estoy tratando de calcular la distribución del ingreso y determinar los "niveles de ingresos" en los que se encuentra cada población. Se supone que el nivel de ingresos se autoajusta en función de los datos de entrada.
Mi objetivo es, en última instancia, medir o calcular la diferencia entre los niveles de ingresos. Supongo que habrá muchos corchetes, y quiero ver qué tan "separados" están cada nivel.
Aquí hay una muestra de ingresos por hora para un conjunto de muestras de una población de 20, y un ingreso total de 3587:
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
¿Cómo puedo usar conceptos matemáticos para agrupar, ordenar y analizar datos que actúan como la distribución del ingreso en una población determinada?
Al final del cálculo, quiero determinar la distribución de ingresos escalonada, donde una distribución perfecta se vería (algo) así
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
o esto:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
Pregunta
¿Cómo debería analizar los grupos de población y medir la brecha de una manera que me diga cuánto se necesita para que se parezca más a los dos últimos conjuntos de modelos enumerados anteriormente?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.