El enfoque propuesto puede dar un resultado razonable, pero solo por accidente. A esta distancia, es decir, tomando la pregunta al pie de la letra, con los significados de las variables disfrazadas, algunos problemas son aparentes:
Ni siquiera es evidente que cada variable esté positivamente relacionada con la "calidad". Por ejemplo, ¿qué pasa si un 10 para 'Var1' significa que la "calidad" es peor que la calidad cuando Var1 es 1? Luego agregarlo a la suma es algo tan incorrecto como uno puede hacer; necesita ser restado.
La estandarización implica que la "calidad" depende del conjunto de datos en sí. Por lo tanto, la definición cambiará con diferentes conjuntos de datos o con adiciones y eliminaciones de estos datos. Esto puede convertir la "calidad" en una construcción arbitraria, transitoria, no objetiva y evitar comparaciones entre conjuntos de datos.
No existe una definición de "calidad". ¿Qué se supone que significa? ¿Capacidad para bloquear la migración de agua contaminada? Capacidad para apoyar procesos orgánicos? Capacidad para promover ciertas reacciones químicas? Los suelos buenos para uno de estos propósitos pueden ser especialmente pobres para otros.
El problema mencionado no tiene ningún propósito: ¿por qué la "calidad" necesita ser clasificada? ¿Para qué se utilizará la clasificación: entrada para más análisis, selección del "mejor" suelo, decisión de una hipótesis científica, desarrollo de una teoría, promoción de un producto?
Las consecuencias del ranking no son aparentes. Si la clasificación es incorrecta o inferior, ¿qué sucederá? ¿El mundo tendrá más hambre, el medio ambiente estará más contaminado, los científicos estarán más engañados y los jardineros estarán más decepcionados?
¿Por qué debería ser apropiada una combinación lineal de variables? ¿Por qué no deberían multiplicarse o exponerse o combinarse como un posinomio o algo aún más esotérico?
Las medidas de calidad del suelo crudo se reexpresan comúnmente. Por ejemplo, la permeabilidad logarítmica suele ser más útil que la permeabilidad en sí misma y la actividad del ion hidrógeno (pH) logarítmica es mucho más útil que la actividad. ¿Cuáles son las expresiones adecuadas de las variables para determinar la "calidad"?
Uno esperaría que la ciencia de los suelos respondiera a la mayoría de estas preguntas e indicara cuál podría ser la combinación apropiada de las variables para cualquier sentido objetivo de "calidad". De lo contrario, se enfrenta a un problema de valoración de múltiples atributos . El artículo de Wikipedia enumera docenas de métodos para abordar esto. En mi humilde opinión, la mayoría de ellos son inapropiados para abordar una cuestión científica. Una de las pocas con una teoría sólida y una aplicabilidad potencial a los asuntos empíricos es la teoría de valoración de atributos múltiples de Keeney & Raiffa(MAVT) Requiere que pueda determinar, para cualquiera de las dos combinaciones específicas de las variables, cuál de las dos debería tener un rango más alto. Una secuencia estructurada de tales comparaciones revela (a) formas apropiadas de volver a expresar los valores; (b) si una combinación lineal de los valores reexpresados producirá o no la clasificación correcta; y (c) si es posible una combinación lineal, le permitirá calcular los coeficientes. En resumen, MAVT proporciona algoritmos para resolver su problema siempre que ya sepa cómo comparar casos específicos.