Manejo de errores y excepciones en web scraping

Clase 7 de 15 • Curso de Web Scraping con Python

Resumen

Aprender a manejar errores y excepciones en web scraping asegura resultados confiables y procesos más robustos. Una estrategia práctica al realizar web scraping es utilizar segmentos de control como el try y el except para gestionar excepciones comunes como páginas no disponibles o falta de información crucial en ciertos productos web.

¿Qué pasa cuando intentamos acceder a páginas inexistentes?

Cuando se quiere alcanzar páginas más allá del límite, el sitio envía códigos de error como el 404, indicando que el recurso solicitado no existe. Para gestionar adecuadamente esta situación:

Utiliza un bloque try-except.
Detecta los errores mediante códigos de estado (400 o 500).

Esto permitirá que tu código maneje estos errores de forma eficiente y continúe buscando resultados donde realmente existen datos disponibles.

¿Cómo gestionamos excepciones en productos con información incompleta?

En algunos casos, los productos podrían carecer de títulos o enlaces URL válidos. Esto podría hacer que el proceso de scraping se interrumpa abruptamente. Es recomendable:

Envolver la extracción específica de información de productos dentro de bloques try-except individuales.
Informar el error específico, permitiendo que el proceso continúe sin detenerse en productos con errores puntuales.

Esta práctica facilita la detección y manejo de inconsistencias en el sitio web de manera efectiva.

¿Por qué es importante incluir pausas dinámicas en tus peticiones web?

Incluir un time.sleep() entre peticiones no solo evita saturar innecesariamente los servidores, sino que también imita comportamientos humanos en la navegación web. Esto ayuda a mantener el rendimiento óptimo del servidor objetivo y reduce el riesgo de ser bloqueado por el sitio.

Cuando sequestramos estos pasos correctamente, evitamos resultados vacíos o incorrectos, ofrecemos estabilidad al programa y recogemos datos relevantes de forma continua. ¿Has enfrentado situaciones similares o utilizas otras técnicas prácticas para el manejo de errores en web scraping? Comparte tu experiencia en los comentarios.

Danny Camilo Bernal Bernal

student•

Hay varios problemas scrapeando páginas no existentes, uno de ellos son los tiempos de ejecución, ya que, si tenemos definido scrapear 100 páginas y por algún motivo la página deja de contar con 50 páginas, estaría perdiendo tiempo buscando información en 50 páginas que no contienen información o directamente no están disponibles.

Por eso es importante tener como parámetro cuántas páginas hay disponibles.

Kevin Orduz Beltran

student•

Hola Dani, la forma mas optima para hacerlo es que cuando ya no exista esa pagina romper el ciclo y salir, o capturar el selector donde indica cuantas paginas son y jugar con este

Jeinfferson Bernal G

student•

Estar muy atentos a la cantidad de paginas a screapear ya que, sin darnos cuenta, podriamos estar recolectando informacion en paginas inexistentes.

David Rosas

student•

Para una pagina con usuario, como procede el Scraping? Por ejemplo... para los cursos de Platzi En las paginas donde se presenta el curso...

](https://platzi.com/cursos/webscraping/)

Cuando hemos visto las clases el texto de la duracion de la calse se cambia por el CHECK de COMPLETADO... APARTE, como accedder a recursos donde solo podemos acceder si tenemos una cuenta? Debemos pasarle los accesos al scraper?

David Rosas

student•

<Response [403]> De hecho los cursos de Platzi regresan este `request.get()` de nuestro url

David Rosas

student•

SELENIUM. Ya vi la respuesta... mas adelante, esto se soluciona con Selenium, para paginas dinamicas, etc, acceder a cuentas, automatizar, etc

Danny Alejandro fernandez gallego

student•

Scrapeando un e-commerce encontre errores por productos que no siempre tienen un descuento, que no tienen un precio especial o que por alguna razon que desconosco no dejaba descargar fotos, y me rompia el flujo de mi scrap, pero la solución es facil:

        descuento = producto_all.find('span', class_="discount-badge-item").text if producto_all.find('span', class_="discount-badge-item") else '0'

Sebastián Córdoba

student•

Estoy tratando de extraer el precio de una pagina, pero el precio esta dividido en 4 segmentos, al tratar de extraerlo aparece N/A. Pero el nombre si se extrae correctamente.

Alguien sabe como lo puedo arreglar?

Fede Perez Cannizzaro

student•

Si le agregan el if, cuando una de las paginas no existen directamente para el bucle, mientras tanto el while true mantiene el bucle en accion, hasta que el status code sea 404:

product_dict = {
    'nombre' : [],
    'precio £' : [],
    'imagen_url' : [],
    'rate' : []
}
i = 1

while True:
    url_page = f"http://books.toscrape.com/catalogue/page-{i}.html"
    print("Scrapeando:", url_page)
    try:
        response = requests.get(url_page)
        if response.status_code == 404:
            print(f"Página {i} no existe, deteniendo scrapeo")
            break
        soup = BeautifulSoup(response.text, "html.parser")
        products = soup.select("article.product_pod")
    except requests.exceptions.RequestException as e:
        print(f"Error en pagnia {i}:{e}")
        continue
    for product in products:
        try:
            nombre = product.find("h3").find("a")["title"]
            precio = product.find("p",attrs={'class' : 'price_color'}).get_text(strip=True)
            precio = precio.replace('Â£','')
            img = product.find("div",attrs={'class' : 'image_container'}).find("img")["src"]
            imagen_url = "http://books.toscrape.com/" + img
            star =  product.find("p",attrs={'class' : 'star-rating'})['class'][1]
            

            product_dict["nombre"].append(nombre)
            product_dict["precio £"].append(precio)
            product_dict["imagen_url"].append(imagen_url)
            product_dict["rate"].append(star)

        except Exception as ex:
            print("Error extrayendo datos de producto: ", ex)
    time.sleep(1)
    print(f"pagina {i} scrapeada")
    i = i + 1

Chrystian Fabian Lozano Ramirez

student•

que buen curso profe

Jhon Beigmar Balderrama Castro

student•

Buena explicación

Manejo de errores y excepciones en web scraping

Fundamentos y Primer Scraper Estático

Web scraping con Python: extracción de datos de sitios web

Códigos de estado HTTP más comunes en la navegación web

Peticiones HTTP GET con Python y la librería Requests

Cómo extraer datos específicos de páginas web con Beautiful Soup

Extracción de datos específicos con Beautiful Soup en Python

Web Estático Avanzado

Web scraping multipágina con Python y paginación