5

Web Scraping en Python

Diferencia entre Web Scraping y Web Crawling
Web Scraping es el proceso de extracción de datos de una pagina web
a modo de ejemplo se puede Scrapear un listado de productos, un listado de noticias, podemos Scrapear twits, etc. con el objetivo de hacer un posterior analisis.

Web Crawling es el proceso de indexación y mapeo de una pagina web o sea solo conocer la estructura del sitio. el objetivo del Web Crawling es la clasificación de palabras clave, para poder ser utilizadas en motores de búsqueda.

Scrapear un sitio es legal mientras que las condiciones de la pagina lo permitan, para ello es muy importante leer acerca de la legislación vigente, y ademas tener en cuenta el uso que le voy a dar a la información obtenida.

ROBOTS.TXT
es un archivo que define por parte del autor del sitio lo que se podrían llamar buenas practicas para el Scraping, esta en casi todos los sitios, si nos encontramos en este archivo la palabra DISALLOW significa que el autor del sitio no desea que hagamos Scraping de ese archivo. y la palabra CRAWL DELAY nos indica la demora que debemos tener entre cada solicitud, evitando la sobrecarga de solicitudes.

la información de ROBOTS.TXT es no vinculante, pero digna de ser respetada, ya que nos lo esta pidiendo el autor del sitio.

Escribe tu comentario
+ 2