Nota : Esta respuesta está cada vez más desactualizada.
El mayor contribuyente a la colección web de Internet Archive ha sido Alexa Internet. El material que Alexa rastrea para sus propósitos ha sido donado a IA unos meses más tarde. Agregar la regla de rechazo mencionada en la pregunta no afecta esos rastreos, pero el Wayback los honrará 'retroactivamente' (denegando el acceso, el material aún estará en el archivo; debe excluir el robot de Alexa si realmente desea mantener su material fuera) del Archivo de Internet).
Puede haber formas de afectar los rastreos de Alexa, pero no estoy familiarizado con eso.
Desde que IA desarrolló su propio rastreador (Heritrix), comenzaron a realizar sus propios rastreos, pero estos tienden a ser rastreos específicos (rastrean las elecciones para la Biblioteca del Congreso y han realizado rastreos nacionales para Francia y Australia, etc.). No participan en el tipo de rastreos sostenidos a escala mundial que realizan Google y Alexa. El rastreo más grande de IA fue un proyecto especial para rastrear 2 mil millones de páginas.
Como estos rastreos se operan en horarios que se derivan de factores específicos del proyecto, no puede afectar la frecuencia con la que visitan su sitio o si visitan su sitio.
La única forma de afectar directamente cómo y cuándo IA rastrea su sitio es usar su servicio Archive-It . Ese servicio le permite especificar rastreos personalizados. Los datos resultantes (eventualmente) se incorporarán a la colección web de IA. Sin embargo, este es un servicio de suscripción pagado .