Automatización de scroll infinito en web scraping con Selenium

Clase 12 de 15 • Curso de Web Scraping con Python

Contenido del curso

Fundamentos y Primer Scraper Estático

Web Estático Avanzado

Scraping Dinámico con Selenium

Scraping Dinámico con Playwright

Resumen

El scraping en páginas con scroll infinito puede presentar desafíos específicos, especialmente cuando se trata de páginas que cargan contenidos adicionales al desplazarse. Con este método, es posible capturar más información conforme se interactúa con la página web.

¿Por qué agregar interacción con scroll en scraping?

Cuando trabajamos con páginas con scroll infinito, solamente obtenemos una parte del contenido si no interactuamos con el desplazamiento. Al incluir la función para realizar scroll, podemos extender significativamente la cantidad de datos recuperados, pasando, por ejemplo, de 10 frases iniciales hasta una cifra mucho mayor.

¿Cómo implementar la interacción con scroll en nuestro scraper?

Primero, utilizamos el mismo navegador web automatizado (driver) que ya conocimos, realizamos la petición a la URL, pero añadimos un script específico que realice el scroll regularmente en la página web.

Definir el tiempo de espera entre scrolls

Esto depende exclusivamente del tiempo que tarda la página en cargar o renderizar el contenido:

El tiempo elegido en el ejemplo fue de dos segundos.
Se recomienda aumentar o disminuir según las condiciones de carga de cada sitio.

Obtener y actualizar la altura de la página

Para realizar el scroll correctamente necesitamos conocer la altura actual de la página. Utilizamos scripts que obtienen ese valor y actualizamos con cada scroll para mantenernos sincronizados:

window.scrollTo(0, document.body.scrollHeight);

Es importante ejecutar este comando repetidas veces para cada desplazamiento, añadiendo siempre un tiempo de espera posterior.

Detectar los elementos relevantes en la página

Usamos herramientas como By.class_name para capturar elementos específicos tales como:

Frases identificadas con la clase quote.
Autores correspondientes.

Con esto logramos seleccionar precisamente los datos que nos interesan.

¿Qué resultados debemos esperar?

Al seguir este proceso, pasamos de capturar originalmente 10 frases sin interacción alguna, hasta cerca de 40 u 80 frases después de tres iteraciones o desplazamientos. Considera que la carga de datos en páginas con scroll infinito puede variar en volumen entre cada iteración, debido a la aleatoriedad en la generación de contenidos.

¿Qué hacer si llegamos al final del scroll?

Si nuestra página no es infinita y el scroll termina en algún momento, debemos configurar condiciones que detecten ese punto final y corten el proceso adecuadamente.

Esto es especialmente útil en páginas con contenidos limitados, aunque en el caso presentado con scroll infinito esto no suele ocurrir.

¿Has implementado alguna vez un scraper con scroll infinito en Python? ¡Comparte tu experiencia en los comentarios!

Comentarios

Neicer Vásquez

student•

Juan Diego

student•

La principal diferencia entre buscar elementos con BeautifulSoup y hacerlo con Selenium radica en su enfoque y uso:

BeautifulSoup: Ideal para scraping de páginas estáticas. Analiza el HTML descargado y permite buscar elementos mediante selectores CSS o métodos específicos. Es rápido y eficiente para contenido ya renderizado.
Selenium: Diseñado para interactuar con páginas dinámicas. Controla un navegador real, permitiendo acciones como clics o desplazamientos (scroll). Es útil para sitios que cargan contenido mediante JavaScript, ya que puede manejar páginas que necesitan ser renderizadas en tiempo real.

Ambas herramientas tienen sus usos específicos, dependiendo de la naturaleza del sitio web y la información que deseas extraer.

Aaron Ascencio

student•

Dejo mi nota de orgmode para realizar este proceso en firefox

#+property: header-args:python :results output :session selenium

** Scrapping using scrolling

*** Library

#+begin_src python :results none

import time

from bs4 import BeautifulSoup

from selenium import webdriver

#from selenium.webdriver.chrome.service import Service

from selenium.webdriver.common.by import By

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.firefox.service import Service

#+end_src

*** Variables and configuration

#+begin_src python :results none

url = "http://quotes.toscrape.com/scroll"

SCROLL_PAUSE_TIME = 2

#+end_src

#+begin_src python

options = webdriver.FirefoxOptions()

options.add_argument("--start-maximized") # Pantalla completa

options.add_argument("--disable-gecko-features=AutomationControlled") # Menos detectable

service_path = "/usr/bin/geckodriver"

service = Service(executable_path=service_path)

#+end_src

#+RESULTS:

*** Start driving

#+begin_src python

driver = webdriver.Firefox(service=service, options=options)

time.sleep(3)

driver.get(url)

last_height = driver.execute_script("return document.body.scrollHeight")

quotes_set = set()

# Desplazarse varias veces (limitando hasta 3 iteraciones)

for i in range(3):

driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

time.sleep(SCROLL_PAUSE_TIME)

new_height = driver.execute_script("return document.body.scrollHeight")

# Extraer las nuevas frases cargadas en esta iteración

quotes = driver.find_elements(By.CLASS_NAME, "quote")

for quote in quotes:

text = quote.find_element(By.CLASS_NAME, "text").text

quotes_set.add(text)

if new_height == last_height:

break

last_height = new_height

driver.quit()

#+end_src

#+RESULTS:

*** Print quotes

#+begin_src python

print(f"Total de frases únicas cargadas: {len(quotes_set)}")

for quote in quotes_set:

print(quote)

#+end_src

Automatización de scroll infinito en web scraping con Selenium

Fundamentos y Primer Scraper Estático

Web scraping con Python: extracción de datos de sitios web

Códigos de estado HTTP más comunes en la navegación web

Peticiones HTTP GET con Python y la librería Requests

Cómo extraer datos específicos de páginas web con Beautiful Soup

Extracción de datos específicos con Beautiful Soup en Python

Web Estático Avanzado

Web scraping multipágina con Python y paginación

Manejo de errores y excepciones en web scraping

Consideraciones éticas y legales del web scraping

Formatos de guardado para datos de web scraping

Scraping Dinámico con Selenium

Automatización de web scraping con Selenium para sitios dinámicos

Configuración de Selenium y ChromeDriver para scraping web

Automatización de scroll infinito en web scraping con Selenium

Automatización de logins con Selenium y Beautiful Soup

Scraping Dinámico con Playwright

Instalación y configuración de Playwright para web scraping

Automatización de formularios de login con Playwright