Si simplemente desea saber si los conjuntos son iguales, el equals
método AbstractSet
se implementa aproximadamente como se muestra a continuación:
public boolean equals(Object o) {
if (o == this)
return true;
if (!(o instanceof Set))
return false;
Collection c = (Collection) o;
if (c.size() != size())
return false;
return containsAll(c);
}
Tenga en cuenta cómo optimiza los casos comunes en los que:
- los dos objetos son iguales
- el otro objeto no es un conjunto en absoluto, y
- Los tamaños de los dos conjuntos son diferentes.
Después de eso, containsAll(...)
regresará false
tan pronto como encuentre un elemento en el otro conjunto que no esté también en este conjunto. Pero si todos los elementos están presentes en ambos conjuntos, deberá probarlos todos.
Por tanto, el peor de los casos se produce cuando los dos conjuntos son iguales pero no los mismos objetos. Ese costo suele ser O(N)
o O(NlogN)
depende de la implementación de this.containsAll(c)
.
Y obtiene un rendimiento cercano al peor de los casos si los conjuntos son grandes y solo difieren en un pequeño porcentaje de los elementos.
ACTUALIZAR
Si está dispuesto a invertir tiempo en la implementación de un conjunto personalizado, existe un enfoque que puede mejorar "casi el mismo" caso.
La idea es que necesita calcular previamente y almacenar en caché un hash para todo el conjunto para poder obtener el valor actual del código hash del conjunto O(1)
. Luego, puede comparar el código hash de los dos conjuntos como una aceleración.
¿Cómo podrías implementar un código hash como ese? Bueno, si el código hash establecido fuera:
- cero para un conjunto vacío, y
- el XOR de todos los códigos hash de elementos para un conjunto no vacío,
entonces podría actualizar de forma económica el código hash en caché del conjunto cada vez que agregue o elimine un elemento. En ambos casos, simplemente XOR el código hash del elemento con el código hash establecido actual.
Por supuesto, esto supone que los códigos hash de elementos son estables mientras que los elementos son miembros de conjuntos. También asume que la función de código hash de clases de elementos ofrece una buena distribución. Esto se debe a que cuando los dos códigos hash establecidos son iguales, aún debe recurrir a la O(N)
comparación de todos los elementos.
Podrías llevar esta idea un poco más lejos ... al menos en teoría.
ADVERTENCIA : esto es muy especulativo. Un "experimento mental" si quieres.
Suponga que su clase de elemento establecida tiene un método para devolver una suma de comprobación criptográfica para el elemento. Ahora implemente las sumas de verificación del conjunto haciendo XOR las sumas de verificación devueltas para los elementos.
¿Qué nos compra esto?
Bueno, si asumimos que no ocurre nada oculto, la probabilidad de que dos elementos de conjuntos desiguales tengan las mismas sumas de comprobación de N bits es 2 -N . Y la probabilidad de que 2 conjuntos desiguales tengan las mismas sumas de comprobación de N bits también es 2 -N . Entonces mi idea es que puedas implementar equals
como:
public boolean equals(Object o) {
if (o == this)
return true;
if (!(o instanceof Set))
return false;
Collection c = (Collection) o;
if (c.size() != size())
return false;
return checksums.equals(c.checksums);
}
Bajo los supuestos anteriores, esto sólo le dará la respuesta equivocada una vez en 2 -N tiempo. Si hace que N sea lo suficientemente grande (por ejemplo, 512 bits), la probabilidad de una respuesta incorrecta se vuelve insignificante (por ejemplo, aproximadamente 10 -150 ).
La desventaja es que calcular las sumas de verificación criptográficas para elementos es muy costoso, especialmente a medida que aumenta la cantidad de bits. Por lo tanto, realmente necesita un mecanismo eficaz para memorizar las sumas de comprobación. Y eso podría ser problemático.
Y la otra desventaja es que una probabilidad de error distinta de cero puede ser inaceptable sin importar cuán pequeña sea la probabilidad. (Pero si ese es el caso ... ¿cómo maneja el caso en el que un rayo cósmico invierte un bit crítico? ¿O si simultáneamente invierte el mismo bit en dos instancias de un sistema redundante?)