Web Scraping ético: uso del archivo robots.txt y buenas prácticas

Clase 8 de 15Curso de Web Scraping con Python

Resumen

El Web Scraping es una técnica útil que permite extraer información automatizada de páginas web, pero ¿te has preguntado si es legal esta práctica? Analizar cuidadosamente el archivo robots.txt del sitio objetivo es clave para respetar límites éticos y operativos.

¿Qué es el archivo robots.txt y cómo funciona?

El archivo robots.txt indica claramente qué partes de una web pueden ser scrapeadas y cuáles no. Aunque no representa una ley formal, sí establece reglas éticas importantes a seguir, accesibles mediante la URL del sitio añadiendo "/robots.txt" al dominio.

Por ejemplo: - Platzi: permite acceder al Diploma de ATAI, pero no al home, clases o comentarios. - MercadoLibre: bloquea la raíz del sitio para bots específicos de inteligencia artificial. - Despegar.com: impide el acceso a gran parte del contenido web. - Otros sitios pueden no definir el archivo, permitiendo básicamente un scrape completo.

¿Por qué respetar las reglas éticas del scraping?

Aunque técnicamente nada detiene ejecutar un scraping no autorizado, es recomendable y ético respetar las normas especificadas por cada sitio. Esto ayuda a evitar conflictos legales y mantiene la integridad de los datos en línea.

¿Qué buenas prácticas existen para realizar scraping ético?

Cuando se ejecuta un web scraping, es recomendable:

  • Definir siempre una cabecera con un UserAgent real del navegador utilizado.
  • Obtener el UserAgent desde las "Herramientas de Desarrollo" del navegador (Network > elemento cargado).
  • Copiar ese valor para que el servidor objetivo crea estar interactuando con un usuario real.
  • Insertar pausas aleatorias entre solicitudes para imitar el comportamiento humano y reducir carga en el servidor: por ejemplo, tiempos variados como 1 segundo, 2 segundos o 3 segundos entre cada página.

Al implementar estas pausas, se simula el comportamiento humano navegando, lo que favorece al servidor objetivo y garantiza mejor rendimiento del scraper.

Te invito a compartir en comentarios el archivo robots.txt de algún sitio que te interese y así explorar juntos estas prácticas éticas.