Web scraping multipágina con Python y paginación

Clase 6 de 15 • Curso de Web Scraping con Python

Resumen

Realizar web scraping en múltiples páginas permite obtener información mucho más amplia y detallada, especialmente útil cuando los sitios web presentan paginación. Esta técnica facilita la extracción de datos completos acerca de productos, precios e imágenes, generando archivos CSV con listas extensas y organizadas de elementos recopilados.

¿Cómo funciona la paginación en los sitios web?

La mayoría de los sitios con catálogos extensos usan paginación para mostrar sus productos. Esto implica una URL dinámica que cambia conforme avanzamos de página. Por ejemplo, una dirección podría incluir un número como parámetro que va incrementando: página uno, dos, tres y así sucesivamente.

Página 1: muestra productos del 1 al 20.
Página 2: productos 21 al 40.
Página 3: productos 41 al 60.

Es necesario identificar ese patrón en la URL que varía con cada página específica.

¿Cómo implementar scraping multipágina con Python?

Para extraer datos de múltiples páginas, realiza las siguientes acciones desde Python:

Define una URL base con un parámetro modificable para indicar la página.
Recorre el rango de páginas deseadas utilizando un ciclo.
Ejecuta una petición GET por cada URL generada.
Parsea el contenido HTML obtenido.
Extrae la información requerida (título, precio, imagen).
Introduce una pausa breve (time sleep) entre cada petición para no saturar el servidor.

¿Qué bibliotecas y herramientas son esenciales para realizar el scraping?

Las dependencias básicas para llevar a cabo un web scraping multipágina en Python incluyen:

requests para realizar solicitudes HTTP.
BeautifulSoup para parsear las respuestas y extraer datos.
Complementos como JSON, tag, y random que facilitan otras tareas específicas en el proceso.

La incorporación del método de pausa con time.sleep ayuda a mantener una práctica ética y eficiente, evitando saturaciones innecesarias del servidor.

¿Cómo almacenar los datos obtenidos del scraping?

Una vez que recuperas los datos necesarios de cada página, el almacenamiento eficiente facilita el uso de información:

Guarda los resultados en formato CSV.
Cada registro contendrá información relevante como título, precio e imágenes.
Se generan archivos organizados que detallan múltiples productos mediante una estructura uniforme.

Este método simplifica el análisis posterior de datos recolectados mediante scraping, mejora la gestión interna y permite una evaluación rápida de grandes volúmenes de información.

¿Qué limita al scraper y cómo solucionarlo?

A largo plazo, algunos sitios web podrían alterar estructuralmente sus URLs o características de productos. Este hecho haría que la herramienta actual presentase inconvenientes y dejara de funcionar apropiadamente.

Explorar métodos de tratamiento de errores y excepciones incrementará la robustez y adaptabilidad del scraper, asegurando que la recopilación de datos continúe siendo eficiente aún después de cambios en estructuras del proveedor.

Neicer Vásquez

student•

Dabney Rueda

student•

¿Por qué esta clase está después de lo que ya ha explicado? Se han equivocado en el orden de los videos, este video debió ser antes de la clase 4 y 5.

JulianFranchesco rp

student•

usted explica pero no deja ver el codigo, debe ir mostrando el codigo de lo que va haciendo, el enlace muestra un codigo totalmente diferente. complicado asi

Yeyson Hernando Sanchez Ospina

student•

Mi amigo en los recusrsos esta el repositorio. https://github.com/platzi/webscraping/tree/main

Daniel Andrés Palacios Carabalí

student•

Además de lo que ya te mencionó Yeyson, también está la opción de pausar el video para ver el código. Lo importante es no frustrarse por cosas como esas

Julian Estevan Guatibonza Barbosa

student•

Y si es una pagina web dinamica que tiene la paginacion en el codigo dinamicamente y no en la URL que podemos hacer?

Diego Alejandro Castaño Ceballos

student•

En esos casos , como la carga dinamica por lo general depende del navegador , usarías selenium.

Mario Peña

student•

Muy bueno