Necesito asegurarme de que mi mapa del sitio XML tenga menos del basura (enlaces rotos). La lista de URL está en los cientos de miles, e incluso si pudiera ser factible probarlos todos 1 por 1, preferiría no hacerlo, por muchas razones:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Entonces, creo que tomar un subconjunto aleatorio sería suficiente, el problema es que no sé las probabilidades.
¿Hay una función simple que pueda usar?
Si ayuda, podemos suponer que tenemos una información a priori sobre la probabilidad de que un enlace se rompa entre ejecuciones. Digamos que en las ejecuciones hay un para que se rompa cualquier enlace dado.