Tengo una fábrica class XFactory
que crea objetos de class X
. Las instancias de X
son muy grandes, por lo que el objetivo principal de la fábrica es almacenarlas en caché, de la forma más transparente posible al código del cliente. Los objetos de class X
son inmutables, por lo que el siguiente código parece razonable:
# module xfactory.py
import x
class XFactory:
_registry = {}
def get_x(self, arg1, arg2, use_cache = True):
if use_cache:
hash_id = hash((arg1, arg2))
if hash_id in _registry:
return _registry[hash_id]
obj = x.X(arg1, arg2)
_registry[hash_id] = obj
return obj
# module x.py
class X:
# ...
¿Es un buen patrón? (Sé que no es el patrón de fábrica real). ¿Hay algo que deba cambiar?
Ahora, encuentro que a veces quiero almacenar en caché los X
objetos en el disco. Usaré pickle
para ese propósito y almacenaré como valores en _registry
los nombres de archivo de los objetos en escabeche en lugar de referencias a los objetos. Por supuesto, _registry
sí mismo tendría que almacenarse de forma persistente (tal vez en un archivo pickle propio, en un archivo de texto, en una base de datos, o simplemente dando a los archivos pickle los nombres de archivo que contienen hash_id
).
Excepto que ahora la validez del objeto en caché depende no solo de los parámetros pasados get_x()
, sino también de la versión del código que creó estos objetos.
Estrictamente hablando, incluso un objeto almacenado en la memoria caché podría volverse inválido si alguien modifica x.py
o cualquiera de sus dependencias y lo recarga mientras el programa se está ejecutando. Hasta ahora ignoré este peligro, ya que parece poco probable para mi aplicación. Pero ciertamente no puedo ignorarlo cuando mis objetos se almacenan en caché en un almacenamiento persistente.
¿Que puedo hacer? Supongo que podría hacer hash_id
más robusto calculando el hash de una tupla que contiene argumentos arg1
y arg2
, así como el nombre de archivo y la última fecha de modificación para x.py
cada módulo y archivo de datos del que depende (recursivamente). Para ayudar a eliminar archivos de caché que nunca volverán a ser útiles, agregaría a la _registry
representación sin compartir de las fechas modificadas para cada registro.
Pero incluso esta solución no es 100% segura, ya que teóricamente alguien podría cargar un módulo dinámicamente, y no lo sabría al analizar estáticamente el código fuente. Si hago todo lo posible y asumo que cada archivo en el proyecto es una dependencia, el mecanismo aún se romperá si algún módulo toma datos de un sitio web externo, etc.).
Además, la frecuencia de los cambios x.py
y sus dependencias es bastante alta, lo que lleva a una gran invalidación de caché.
Por lo tanto, pensé que también podría renunciar a un poco de seguridad, e invalidar el caché solo cuando haya un desajuste evidente. Esto significa que class X
tendría un identificador de validación de caché de nivel de clase que debería cambiarse siempre que el desarrollador crea que se produjo un cambio que debería invalidar la caché. (Con múltiples desarrolladores, se requiere un identificador de invalidación por separado para cada.) Este identificador es ordenado junto con arg1
y arg2
y se convierte en parte de las claves hash almacenados en _registry
.
Dado que los desarrolladores pueden olvidarse de actualizar el identificador de validación o no darse cuenta de que invalidaron la memoria caché existente, parece mejor agregar otro mecanismo de validación: class X
puede tener un método que devuelva todos los "rasgos" conocidos de X
. Por ejemplo, si X
es una tabla, podría agregar los nombres de todas las columnas. El cálculo de hash también incluirá los rasgos.
Puedo escribir este código, pero me temo que me falta algo importante; y también me pregunto si quizás hay un marco o paquete que ya puede hacer todo esto. Idealmente, me gustaría combinar el almacenamiento en caché en memoria y en caché.
EDITAR:
Puede parecer que mis necesidades pueden ser bien atendidas por un patrón de piscina. En investigaciones posteriores, sin embargo, no es el caso. Pensé en enumerar las diferencias:
¿Puede un objeto ser utilizado por múltiples clientes?
- Grupo: No, cada objeto debe ser extraído y luego registrado cuando ya no sea necesario. El mecanismo preciso puede ser complicado.
- XFactory: sí. Los objetos son inmutables y pueden ser utilizados por infinitos clientes a la vez. Nunca es necesario crear una segunda copia del mismo objeto.
¿Es necesario controlar el tamaño de la piscina?
- Piscina: a menudo sí. Si es así, la estrategia para hacerlo puede ser bastante complicada.
- XFactory: No. Se debe entregar un objeto a pedido del cliente, y si un objeto existente no es adecuado, se debe crear uno nuevo.
¿Todos los objetos son libremente sustituibles?
- Grupo: Sí, los objetos suelen ser de libre sustitución (o, de lo contrario, es trivial verificar qué objeto necesita el cliente).
- XFactory: Absolutamente no, y es muy difícil averiguar si un objeto determinado puede atender una solicitud de cliente determinada. Depende de si un objeto existente está disponible que se creó con (a) los mismos argumentos y (b) la misma versión del código fuente. XFactory no puede verificar la parte (b), por lo que le pide ayuda al cliente. El cliente cumple con esta responsabilidad de dos maneras. Primero, el cliente puede incrementar cualquiera de sus varios contadores de versión interna designados (uno por desarrollador). Esto no puede suceder en tiempo de ejecución, solo un desarrollador puede cambiar estos contadores cuando cree que el cambio del código fuente hace que los objetos existentes sean inutilizables. En segundo lugar, un cliente devolverá algunos invariantes sobre los objetos que necesita, y XFactory verificará que estos invariantes no sean violados antes de entregar el objeto al cliente. Si alguno de estos controles falla,
¿El impacto en el rendimiento necesita un análisis cuidadoso?
- Pool: Sí, en algunos casos, un pool realmente perjudica el rendimiento si la sobrecarga de la gestión de objetos es mayor que la sobrecarga de creación / destrucción de objetos.
- XFactory: No. Se sabe que los costos de cómputo de los objetos en cuestión son muy altos, y cargarlos desde la memoria o desde el disco es sin duda superior a volver a calcularlos desde cero.
¿Cuándo se destruyen los objetos?
- Piscina: cuando la piscina está cerrada. Quizás también podría destruir objetos si se le ordena liberar (parcialmente) recursos o si ciertos objetos no se han utilizado durante un tiempo.
- XFactory: cada vez que se crea un objeto con la versión del código fuente que ya no es actual, como lo demuestra la violación invariante o la falta de coincidencia del contador. El proceso de localizar y destruir tales objetos en el momento adecuado es bastante complicado. Además, la invalidación basada en el tiempo de todos los objetos puede implementarse para reducir los riesgos acumulados de usar objetos no válidos. Dado que XFactory nunca está seguro de que sea el único propietario de un objeto, tal invalidación se logra mejor mediante un "contador de versiones" adicional en los objetos del cliente, que se incrementa programáticamente de forma periódica, en lugar de un desarrollador.
¿Qué consideraciones especiales existen para el entorno multiproceso?
- Pool: tiene que evitar colisiones en la extracción / comprobación de objetos (no desea extraer un objeto a dos clientes)
- XFactory: tiene que evitar la colisión en la creación de objetos (no desea crear dos objetos basados en dos solicitudes idénticas)
¿Qué debe hacerse si el cliente no libera un objeto?
- Grupo: puede querer que el objeto esté disponible para otros después de esperar un tiempo.
- XFactory: no aplicable. Los clientes no notifican a XFactory sobre cuándo terminan con el objeto.
¿Los objetos necesitan ser modificados?
- Grupo: puede que sea necesario restablecer el estado predeterminado antes de volver a utilizarlo.
- XFactory: No, los objetos son inmutables.
¿Hay alguna consideración especial relacionada con la persistencia de los objetos?
- Piscina: normalmente no. Un grupo consiste en ahorrar el costo de la creación de objetos, por lo que todos los objetos se guardan en la memoria (la lectura del disco anularía el propósito).
- XFactory: Sí, XFactory se trata de ahorrar el costo de realizar cálculos complejos, por lo que tiene sentido almacenar objetos precalculados en el disco. Como resultado, XFactory necesita lidiar con los problemas típicos del almacenamiento persistente; por ejemplo, en la inicialización, necesita conectarse al almacenamiento persistente, obtener de él los metadatos sobre qué objetos están disponibles actualmente allí y estar listo para cargarlos en la memoria si así se solicita. Y el objeto puede estar en uno de tres estados: "no existe", "existe en el disco", "existe en la memoria". Mientras XFactory se está ejecutando, el estado puede cambiar solo en una dirección (a la derecha en esta secuencia).
En resumen, la complejidad del grupo está en los elementos 1, 2, 4, 6 y posiblemente 5, 7, 8. La complejidad de XFactory está en los elementos 3, 6, 9. La única superposición es el elemento 6, y realmente no es el núcleo función de grupo o XFactory, sino más bien una restricción en el diseño que es común a cualquier patrón que necesite funcionar en un entorno multiproceso.