Bueno. Este será uno de esos casos en los que trabajaré durante el proceso para que quede más claro. Será algo largo, pero espero que no sea dolorosamente largo.
Comencemos por el principio, ¿de acuerdo?
Comenzando con lo que sabemos sobre cómo funciona Google basado originalmente en el trabajo de investigación de Brin y Page en 1997, sabemos algunas cosas que probablemente todavía están en juego hoy.
Google tiene una URL en su índice y recupera la cola y recupera la página. El código de la página se almacena en su base de datos para diversas formas de procesamiento. Uno de los procesos sería encontrar nuevos enlaces. Cualquier enlace que haya encontrado Google se ubicará primero en el índice de enlaces si existe. Si no lo hace, el enlace se agregará a la tabla de enlaces y se agregará a la cola de búsqueda.
Cualquier enlace dentro de la tabla de enlaces tiene al menos estos elementos, la URL del enlace, la URL de origen y el texto del enlace. Es probable que haya otros elementos de datos, sin embargo, estos no adelantan la discusión. Cualquier enlace que se agrega a la tabla de enlaces ha verificado la URL de origen, pero no necesariamente la URL de destino. Usando bases de datos relacionales como ejemplo, las URL de origen y destino podrían ser una ID de URL dentro de la tabla de URL y una tabla de unión se uniría a la URL de origen de la tabla de enlaces y a los elementos de URL de destino utilizando una ID de nuevo a la tabla de URL. ¿Confuso? No se
Para cualquier caso en el que no se haya obtenido la página de destino, se dice que el enlace dentro de la tabla de enlaces es un enlace colgante. Una vez que se busca la página, se completa el enlace dentro de la tabla de enlaces. Si la página de destino no existe, entonces el enlace dentro de la tabla de enlaces es un enlace roto. ¿Simple?
Solo los enlaces completos pueden pasar valor. El algoritmo de PageRank requiere un enlace completo para calcular el valor. Todos los enlaces colgantes y rotos detienen cualquier cálculo utilizando el enlace. Anteriormente, PR era un proceso recursivo que calculaba los valores de enlace usando la tabla de enlaces una y otra vez hasta que el valor que se puede ajustar a cualquier enlace cae dentro de un valor numérico que es tan pequeño que efectivamente no va a hacer una diferencia. Estoy seguro de que esto todavía ocurre como un proceso de mantenimiento de la casa. Sin embargo, PR hoy se calcula usando otro método similar a los saltos en una red que mide la distancia de una página a otra con relativa importancia. Se basa en el modelo de red de confianza, que es cómo se diseñó el modelo PageRank original para emular. Un enlace es un voto de confianza de una entidad a otra. Si bien se vuelve más complicado que esto, te dan la imagen. Efectivamente hace lo mismo que el proceso recursivo utilizando un cálculo más en tiempo real, aunque probablemente menos preciso pero lo suficientemente preciso como para ser confiable. Esto requiere enlaces completos ya que los valores de confianza (utilizando el modelo de red de confianza) no se pueden pasar si no se establece la confianza. Recuerde que un enlace es un voto de confianza o un enlace en el modelo de red de confianza. PageRank se representa como un valor de confianza en una red de confianza.
Ahora que comprende los enlaces y lo importantes que son, sigamos adelante.
Para un motor de búsqueda, no tiene sentido eliminar ninguna URL. Si no existe una URL dentro de la tabla de URL, entonces no puede saber nada sobre la URL y estaría perdido. Es probable que las URL no se eliminen generalmente a menos que tenga sentido, por ejemplo, si la URL ya no existe. Sin embargo, cuando una página se establece en NOINDEX, el motor de búsqueda ha recibido instrucciones explícitas de NO indexar la página. Dado que una página web dentro del índice consta de dos cosas, una URL y el código fuente HTML, NOINDEX elimina efectivamente la página en este momento. Los enlaces a una página NOINDEX están al menos colgando.
Ahora que sabe cómo se ve una página indexada, avancemos más.
Hay muchas formas en que un motor de búsqueda penalizará una página web o sitio. Uno está de la lista. Esta es la más severa de todas las sanciones y toma mucho tiempo recuperarse. Esta categoría de penalización se puede evidenciar ya que la página no se encuentra ni se puede encontrar. Además, la Consola de búsqueda de Google le informará, de forma aproximada, que las páginas se están eliminando de la lista. De las penalizaciones restantes, las penalizaciones se aplican en los filtros SERP.
Cuando se realiza una consulta de búsqueda, en realidad hay varias consultas contra el índice a la vez que luego se mezclan en un conjunto de resultados basado en una parte del algoritmo. El algoritmo restante, al que a menudo nos referimos como una sola entidad, es una serie de algoritmos SERP relativamente simples. Los algoritmos principales de los cuales reordenarán el conjunto de resultados en función de más métricas en tiempo real, como las tendencias. De los algoritmos, los que eliminan entradas del conjunto de resultados o degradan seriamente la ubicación de una entrada dentro del conjunto de resultados se denominan filtros. Uno que se aplica es el filtro que maneja DMCA como se evidencia con...we have removed 1 result(s) from this page...
Entonces, ahora que sabe cómo se aplican las penalizaciones, ¿están conectados los filtros de enlaces, relaciones públicas y DMCA?
Con esto, sabemos que se ha aplicado un filtro, sin embargo, esto no tiene nada que ver con el índice de enlace, que es cómo se calcula el PageRank. Está lo más alejado posible del proceso de enlace / relaciones públicas. Los enlaces y las relaciones públicas se encuentran al comienzo del proceso de indexación, mientras que la eliminación de la página penalizada por DMCA se encuentra al final del proceso de consulta. De hecho, estos son dos motores completamente separados. Por lo tanto, aunque una página puede eliminarse debido a una queja de DMCA, en realidad no se elimina del índice y, por lo tanto, los enlaces hacia y desde la página aún se calculan.
¿Claro como el barro? Espero haber explicado esto bien. Avíseme si puedo aclararle algo.
[Actualizar]
Una excepción que no se aplica al escenario del OP.
@StephenOstermiller trae un buen punto que no socava lo anterior, sin embargo, me gustaría agregarlo para completarlo.
Como bien sabe, la calificación de un sitio o página dentro de la búsqueda requiere muchos factores. Si bien esto no es tan técnico o místico como te puedas imaginar, todavía es mucho o factores que sopesar. Olvidé el efecto de los puntajes de confianza principalmente porque no se aplicaba en el caso del OP. Entonces lo estoy agregando aquí.
Claramente, hay sitios que no sirven para nada, como los sitios de spam. Dentro de esta clasificación de sitios se encuentran sitios que habitualmente abusan del contenido con derechos de autor. Este fue un gran problema hace muchos años donde los raspadores de contenido construirían sitios a partir de su trabajo duro. Durante mucho tiempo no se hizo nada. Los sitios con contenido original perderían a los sitios de scraper de manera bastante consistente. Yo deberia saber. Tuve dos sitios PR 8 que perdieron casi todo su tráfico debido a sitios de raspadores sin ningún recurso.
Sin embargo las cosas han cambiado. Y solo han pasado casi cuatro años desde que comenzaron los cambios significativos.
Para esta clasificación especial de sitios, el puntaje de confianza de los sitios se puede reducir significativamente. Esto es bien sabido. Se necesitan años para reconstruir los puntajes de confianza y para algunos sitios, esto nunca puede suceder. ¿Por qué, por ejemplo, crees que los monetizadores de dominio están tan dispuestos a destruir un sitio con cientos de miles esperando en el ala por el mismo abuso? Es porque la realidad es que un dominio puede arruinar su valor más allá de la redención.
Hay muchos factores que intervienen en el establecimiento de la confianza. No voy a entrar en eso aquí. Sin embargo, sepa que la confianza es un componente importante de la creación de rango para cualquier sitio.
Dicho esto, para cualquier sitio que sea un infractor grave de la DMCA con un historial bastante extenso, vería un serio golpe en su puntaje de confianza. Este no es el escenario que describe el OP. Sin embargo, es el escenario que estoy asumiendo aquí.
Los enlaces y el establecimiento de PageRank tienen más de un componente. Uno es PageRank (autoridad) de la página en sí. Para páginas altamente autorizadas, hay un límite de autoridad. Una página PR 8 no compartirá un valor de 8 entre los enlaces de esa página. Esto es parte del algoritmo original de PageRank destinado a poner una curva más natural en PR. De lo contrario, sería casi imposible que una nueva página compita contra una página con alta autoridad incluso después de un largo período de tiempo. El valor del enlace en sí se califica utilizando varios factores, incluido el valor semántico del texto del enlace, la URL del enlace, la ubicación del enlace (prominencia), el valor semántico del bloque de contenido que contiene el enlace, si corresponde, etc. Todos los enlaces se puntúan de 0 a .9. El cálculo de la autoridad y la puntuación del enlace es el valor pasado por cualquier enlace.
Bien y bueno. Entonces, ¿cómo afecta esto a un sitio que es un infractor significativo de la DMCA?
El valor de cualquier enlace entrante no se vería necesariamente afectado por la puntuación de confianza del sitio de destino, ya que el valor de los enlaces proviene del sitio de origen. Sin embargo, cualquier enlace saliente podría ser. La autoridad de cualquier sitio que sea un abusador significativo de DMCA se vería afectada por el puntaje de confianza. Después de todo, la autoridad proviene de la confianza. Entonces, de esta manera, el valor de un enlace entrante no se pasaría a través de enlaces salientes sin degradarse dependiendo de la puntuación de confianza.
Esto cambia un poco la respuesta.
Si bien no se aplica al escenario del OP, hay un escenario en el que un valor de enlace entrante no se pasa completamente a través del sitio con una violación de DMCA. Sin embargo, este es un caso difícil y, por lo tanto, el umbral antes de que esto suceda es significativo.