Consideraciones éticas y legales del web scraping

Clase 8 de 15Curso de Web Scraping con Python

Resumen

¿Has considerado alguna vez la legalidad y ética detrás del web scraping? Es importante analizar algunas consideraciones clave para realizar esta práctica de manera responsable y ética. Uno de los elementos esenciales en este proceso es consultar un archivo específico llamado robots.txt.

¿Qué es el archivo robots.txt y cómo utilizarlo?

El archivo robots.txt indica qué partes de un sitio web se pueden scrapear o no. Está ubicado generalmente bajo el URL principal del sitio seguido de /robots.txt. Este archivo define estándares éticos que, aunque no son leyes técnicas, es recomendable respetar.

Por ejemplo, la plataforma Platzi tiene restringido el acceso de scrapers a rutas como el inicio, las clases y comentarios, pero permite el acceso específico al área de diplomas. Otro ejemplo es MercadoLibre, que restringe el acceso a la raíz para ciertos bots que entrenan modelos de inteligencia artificial; sin embargo, rutas específicas del flujo de ventas están disponibles.

¿Qué hacer cuando no existe un robots.txt?

Existen casos, como el del sitio Books to Scrape, donde no hay un archivo robots.txt definido. En estas situaciones, se enfatiza que las consideraciones éticas siguen siendo válidas y necesarias para asegurar buenas prácticas.

¿Cómo implementar buenas prácticas en web scraping?

Al realizar web scraping, es esencial no sobrecargar los servidores del sitio. Lo recomendable es imitar el comportamiento humano en términos de tiempo y frecuencia de accesos. Para hacerlo correctamente considera:

  • Definir una cabecera (user agent) que corresponda al navegador que estamos usando.
  • Para encontrar tu propio user agent, abre las herramientas de desarrollo del navegador en la pestaña network, actualiza la página y copia el valor del user agent.
  • Implementar pausas aleatorias entre peticiones para simular interacciones reales, variando entre uno y tres segundos aproximadamente.

Estas prácticas aseguran que el web scraping realizado sea ético y responsable, imitando el comportamiento de navegación de un usuario real y respetando los límites propuestos por los sitios web.

¿Ya revisaste el archivo robots.txt de tu página web favorita? Te invitamos a hacerlo y compartir tus hallazgos en los comentarios.