¿Tiene una empresa el derecho implícito de rastrear mi sitio web?

30

Descubrí que McAfee SiteAdvisor ha informado que mi sitio web "puede estar teniendo problemas de seguridad" .

Me importa poco lo que McAfee piense de mi sitio web (puedo asegurarlo yo mismo y si no, McAfee definitivamente no es la compañía a la que pediría ayuda, muchas gracias). Sin embargo, lo que me molesta es que aparentemente han rastreado mi sitio web sin mi permiso.

Para aclarar: casi no hay contenido en mi sitio web todavía, solo algunos marcadores de posición y algunos archivos para mi uso personal. No hay ToS.

Mi pregunta es: ¿McAffee tiene derecho a descargar contenido / rastrear mi sitio web? ¿Puedo prohibirles que lo hagan? Tengo la sensación de que debería haber algún tipo de principio de "Mi castillo, mis reglas", sin embargo, básicamente no sé nada sobre todas las cosas legales.

Actualización: Probablemente debería haber mencionado que mi proveedor de servidores me envía correos electrónicos sobre los hallazgos de SiteAdvisor de forma regular; así es como descubrí su 'calificación' y es por eso que estoy molesto.

web-crawler

— kralyk
fuente

78

¿Diría que los humanos tienen derecho a ver su sitio web? En caso afirmativo, ¿por qué discriminar contra los robots sirvientes humanos? Si no, ¿por qué es un sitio web en primer lugar?

— jwodder

47

¿Cómo descubrió que SiteAdvisor marcó su sitio? No has visto su sitio, ¿verdad? Si es así, ¿qué te dio el derecho?

— Joe Sniderman

17

Por cierto, no descartaría el informe de SiteAdvisor tan a la ligera, en general cuando vi informes similares que eran legítimos. El caso más común es tener una versión anterior / sin parche de CMS populares (WordPress, Joomla, Drupal, ...) explotada por algún script automático para colocar contenido malicioso (páginas "trampolín" utilizadas para spam / phishing, alojamiento de virus vinculados en correos electrónicos fraudulentos, exploits de navegador, lo que sea); puedes estar alojando cosas malas sin siquiera saberlo. Además, dado que muchos usuarios confían en tales herramientas, generalmente desea tener un registro limpio, ya que tales advertencias pueden asustar a los usuarios.

— Matteo Italia

35

Si quieres algo bloqueado, bloquéalo. Puso en marcha el sitio web y configuró el servidor para responder a las solicitudes GET. Has invitado a todos, literalmente, a todos. Este no es un derecho "implícito", es cómo funcionan los servidores web. Salvo, como se señaló, el archivo robots.txt o las restricciones de IP, o el contenido restringido a los usuarios registrados.

— mfinni

20

@RolazaroAzeveires: Los procesos automatizados están bien, no porque permitir que los visitantes humanos lo impliquen, sino porque, salvo ataques, preguntan amablemente: "¿puedo tener estos archivos?" y has configurado tu servidor web para que responda: "¡Por supuesto! Aquí tienes. ¿Necesitas algo más?" Eso no está arrastrándose sin su permiso, está arrastrándose con su permiso.

— Marcks Thomas

49

Hay un precedente legal para esto. Field v. Google Inc., 412 F. Supp. 2d 1106, (US Dist. Ct. Nevada 2006). Google ganó un juicio sumario basado en varios factores, en particular que el autor no utilizó un archivo robots.txt en las metaetiquetas de su sitio web, lo que habría evitado que Google rastreara y almacenara en caché las páginas que el propietario del sitio web no quería indexar.

PDF gobernante

No existe ninguna ley de EE. UU. Que se ocupe específicamente de los archivos robots.txt; Sin embargo, otro caso judicial ha sentado un precedente que podría conducir a que los archivos robots.txt se consideren como eludidores de las medidas electrónicas intencionales tomadas para proteger el contenido. En ABOGADOS DE SALUD, INC. Vs. HARDING, EARLEY, FOLLMER & FRAILEY, et. Todos, Healthcare Advocates argumentaron que Harding y otros esencialmente piratearon las capacidades de Wayback Machine para obtener acceso a los archivos en caché de páginas que tenían versiones más recientes con archivos robots.txt. Mientras que Healthcare Advocates perdió este caso, el Tribunal de Distrito señaló que el problema no era que Harding et al "abrieran el candado", sino que obtuvieron acceso a los archivos debido a un problema de carga del servidor con la máquina Wayback que otorgó acceso al archivos en caché cuando no debería

PDF de fallo judicial

Solo es cuestión de tiempo en mi humilde opinión hasta que alguien tome esta decisión y la ponga de su lado: el tribunal indicó que robots.txt es un candado para evitar que se arrastre y eluda que está cerrando el candado.

Desafortunadamente, muchas de estas demandas no son tan simples como "Traté de decirle a su rastreador que no está permitido y su rastreador ignoró esas configuraciones / comandos". Hay una serie de otros problemas en todos estos casos que, en última instancia, afectan el resultado más que el problema central de si un archivo robots.txt debe considerarse o no un método de protección electrónica según la ley DCMA de EE. UU.

Dicho esto, esta es una ley de los EE. UU. Y alguien de China puede hacer lo que quiera, no por el problema legal, sino porque China no hará cumplir la protección de marcas registradas y derechos de autor de los EE. UU., Así que buena suerte los persigue.

No es una respuesta corta, ¡pero realmente no hay una respuesta corta y simple a su pregunta!

— jcanker
fuente

1

Esta es una gran respuesta, gracias. Lo que no me gusta de robots.txt es que no es un estándar real (no importa el estándar requerido por la ley). Estas empresas simplemente pueden ignorarlo. No me gusta estar en la posición en la que me dicen "Deberías colocar un archivo robots.txt y tal vez no rastreemos tu sitio web, pero tal vez lo hagamos, hagamos lo que queramos". Sería genial si hubiera un estándar para especificar los ToS del sitio web en los metadatos del sitio web.

— kralyk

55

@jcanker Esos dos casos son sobre reclamos por infracción de derechos de autor. En el comportamiento de los rastreadores que almacenan contenido en caché, como los operados por Google y archive.org, tiene mucho sentido que los problemas de derechos de autor entren en juego. Pero McAfee SiteAdvisor no copia y almacena (y mucho menos pone a disposición del público) contenido de los sitios web a los que accede, ¿verdad? Aunque no soy abogado, creo que esta distinción nos da razones para dudar mucho de que cualquiera de los casos sea aplicable de alguna manera al comportamiento de un sistema como SiteAdvisor, independientemente de si respeta o no robots.txt.

— Eliah Kagan

12

@kralyk - re "Estas compañías simplemente pueden ignorarlo". Bueno, sí. Así funciona Internet. E incluso si fuera de alguna manera más fundamental, sería trivial, absolutamente trivial, para un rastreador fingir que era un ser humano accediendo a sus páginas web. Estás pidiendo lo técnicamente imposible . De hecho, si piensa en lo que está preguntando, lo que busca no es lógico, no tiene sentido. Excepto en una distinción legal. Sus únicas protecciones posibles son (1) ocultar contenido importante detrás de la autenticación de inicio de sesión del usuario y (2) protección legal, como se explica en esta respuesta.

— ToolmakerSteve

@ToolmakerSteve Sé que es técnicamente imposible prohibir completamente los robots. Sin embargo, esta es una situación diferente: no estoy buscando una solución técnica, estoy preguntando si es legal, también tenga en cuenta que McAffee me ha informado que rastrean mi sitio web, no necesito detectarlo.

— kralyk

También existe un precedente legal a la inversa: ebay v postor's edge

— John

91

Sí, tienen derecho a hacerlo: has creado un sitio web público, ¿qué te hace pensar que no?

Usted también, por supuesto, tiene derecho a detenerlos. Puede pedirles que no rastreen su sitio web con robots.txt o que eviten activamente que accedan a él con algo como fail2ban .

Alternativamente, no te preocupes por eso y continúa con tu vida. No está haciendo daño a nada y definitivamente está en el lado benigno de las pruebas de Internet.

— Dan
fuente

44

> "Sí, tienen derecho a hacerlo: has creado un sitio web público, ¿qué te hace pensar que no?" Bueno, si algo es técnicamente posible, no necesariamente significa que sea legal. Por ejemplo, los ToS de YouTube prohíben la descarga de videos, por lo que, a pesar de que es técnicamente muy fácil, todavía no está permitido. No me preocuparía por SiteAdvisor si no fuera por mi proveedor que me envía correos electrónicos sobre mi sitio "tal vez tenga problemas" ...

— kralyk

16

@kralyk: si no desea que el público (que incluye McAfee) lo vea, no lo publique en la web. Es así de simple. Usted controla su sitio web. Nadie te está obligando a publicarlo, y si no quieres que la gente lo vea, NO lo publiques. Si lo va a publicar, no se sorprenda de que las personas (incluidas las personas que quieren venderle cosas) lo estén mirando. Deja de intentar convertir tus deseos en el problema de otra persona.

— Michael Kohne

99

@kralyk: ¿en serio? ¿Realmente crees que el problema aquí es un doble rasero? Ninguna persona en McAfee conoce ni se preocupa por su sitio web. Tampoco deberían. Sería absurdo esperar que alguien rastreando la web lea los ToS de todos. Por eso se inventó robot.txt.

— ToolmakerSteve

3

@kralyk El acceso a los recursos en cuestión debe estar cerrado para que los ToS sean significativos. Un robot que rastrea sus páginas desprotegidas es completamente diferente de alguien que registra una cuenta, reconoce un ToS y luego alimenta las credenciales a un robot.

— Andrew B

44

@kralyk: ¿qué tipo de TOS tiene en su sitio que cree que McAfee está violando (no respetando)?

— Kevin Fegan

11

Si este comportamiento es ético o no, no está perfectamente claro.

El acto de rastrear un sitio público no es, en sí mismo, poco ético (a menos que lo haya prohibido explícitamente utilizando un archivo robots.txt u otras medidas tecnológicas, y los están eludiendo).

Lo que están haciendo es el equivalente aproximado de llamarlo en frío, mientras anuncia al mundo que posiblemente no está seguro. Si eso daña tu reputación y no está justificado, no es ético; si lo hace y la única resolución para esto implica que usted les pague, es un crimen organizado. Pero, no creo que esto sea lo que está sucediendo.

La otra vez que esto no es ético es cuando alguien rastrea su sitio para apropiarse de su contenido o datos y luego lo representa como propio. Pero, eso tampoco es lo que está sucediendo.

Por lo tanto, sugiero que su comportamiento en este caso es ético, y es muy probable que también lo ignore.

Su comportamiento relacionado con el envío de spam no es ético si no tiene relación con ellos y no solicitó los correos electrónicos, pero sospecho que tienen una cancelación de suscripción que funciona.

— Falcon Momot
fuente

1

No estoy seguro de llamar a una Disallowdirectiva en un archivo robots.txt una "medida tecnológica prohibida". robots.txt actúa como una solicitud de cortesía, y aunque los bots con buen comportamiento lo acatarán, no hay obligación ni seguridad real. De hecho, los bots mal portados podrían tomar una entrada en robots.txt como una invitación para rastrear esa ruta específica ...

— un CVn

2

@ MichaelKjörling, solo la mitad está de acuerdo. No hay seguridad real pero sí una obligación. Es una señal de exclusión y su obligación es mantenerse fuera ya que no tiene permiso para ingresar.

— Ben

Es una señal de "mantenerse alejado", sin cerradura. ¡Pruébelo en su casa y vea cuánta simpatía siente después de que los ladrones vienen a llamar! (En realidad, es un letrero de "mantenerse alejado" que enumera explícitamente las puertas y ventanas desbloqueadas de las que desea que la gente se mantenga fuera).

— Randy Orrison

2

Enfoque técnico para bloquear el acceso de ciertas personas o empresas a su sitio web:

Puede bloquear direcciones IP específicas o rangos de direcciones para que no accedan a las páginas de su sitio. Esto está en el archivo .htaccess (si su sitio se ejecuta en el servidor web Apache).

http://www.htaccess-guide.com/deny-visitors-by-ip-address/

Haga que su servidor web registre las direcciones IP a las que se accede y busque esas direcciones IP para encontrar las asociadas con McAfee. Probablemente sea fácil saberlo ahora, si no tiene visitantes regulares.

Por supuesto, podrían cambiar las direcciones IP en el futuro. Aún así, si busca las direcciones IP que encuentra, para ver quién las posee, es posible que pueda aprender sobre un bloque completo de direcciones propiedad de McAfee y bloquearlas todas.

Para una base legal para hacerlo:

"Los propietarios de sitios web pueden bloquear legalmente a algunos usuarios, reglas judiciales"

http://www.computerworld.com/s/article/9241730/Website_owners_can_legally_block_some_users_court_rules

(Si su sitio web es personal, nadie cuestionaría su derecho a bloquear a algunos usuarios. Pero si es un sitio web para una empresa, existen argumentos legales y morales en ambos lados de esa discusión. Cuanto más pequeña sea su empresa, más fácil será debe estar protegido legalmente y, de todos modos, a nadie le importaría lo suficiente como para quejarse.

También te puede interesar "Denegar visitas por referencia".

"Si alguna vez has visto tus registros y has notado un sorprendente aumento en el tráfico, pero no hay aumentos en las solicitudes de archivos reales, es probable que alguien pellizque el contenido (como archivos CSS) o alguien que intente piratear tu sitio web (esto puede significar simplemente intentar para encontrar contenido no público) ".

http://www.htaccess-guide.com/deny-visitors-by-referrer/

— ToolmakerSteve
fuente