Extracción de datos específicos con Beautiful Soup en Python

Clase 5 de 15 • Curso de Web Scraping con Python

Resumen

¿Alguna vez has querido extraer fácilmente datos específicos de un sitio web? Aprenderás cómo hacerlo usando Beautiful Soup en Python. Podrás obtener información esencial como títulos, precios e imágenes desde páginas web estructuradas rápidamente y guardarlas en formato CSV.

¿Cómo identificar elementos específicos en una página web?

Antes de extraer información con Python, necesitas identificar la estructura HTML donde se encuentra la información clave. Utilizando herramientas de desarrollo del navegador, puedes explorar las etiquetas HTML y clases de los elementos para encontrar exactamente las partes importantes del contenido.

Por ejemplo, en este proyecto se identifica que cada libro del sitio web está encerrado en un elemento llamado artículo: etiqueta article con clase product-pot. Dentro de cada artículo hay detalles como título, imagen, precio y otros.

¿Cómo extraer nombres, precios e imágenes con Beautiful Soup?

Primero obtendrás todos los artículos de productos usando Beautiful Soup con la función select:

products = soup.select('.product-pot')

Luego recorres cada artículo para extraer información concreta:

Para el título: localizarás la etiqueta h3 dentro del artículo, luego la etiqueta a contenida en ella.

nombre = producto.find('h3').find('a')['title']

Para el precio: buscas la etiqueta p que tenga la clase price_color y obtienes el texto de dicha etiqueta.

precio = producto.find('p', class_='price_color').get_text()

Para la imagen: necesitas primero localizar el div con clase image_container, encontrar la etiqueta img y extraer su atributo src.

imagen = producto.find('div', class_='image_container').find('img')['src']

Sin embargo, este atributo es una URL relativa, así que debes añadir la base del URL para obtener la dirección completa:

imagen_url = 'http://BooksToScrape.com/' + imagen

¿Cómo guardar los datos obtenidos en un archivo CSV?

Para guardar los datos recolectados de forma sistemática en CSV, defines una ruta y creas columnas específicas para cada información extraída:

with open("resultados/productos.csv", "w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(['nombre', 'precio', 'imagen_url'])
    writer.writerows(productos)

Esto generará un archivo CSV dentro de la carpeta resultados, estructurado por columnas que contienen cada aspecto esencial del producto que seleccionaste previamente.

¡Te invito a participar en el desafío propuesto: intenta obtener también el número de estrellas de cada libro y si está en stock! Deja tu solución en los comentarios.

Neicer Vásquez

student•

Aquí dejo mi solución de scraping incluyendo la parte de extraer las estrellas del libro, su disponibilidad en stock y el guardado de los datos en un archivo de csv.

Fabian Mauricio López Guasca

student•

Waooo que código tan limpio... soy novato en esto de programar, así que espero llegar a este nivel!

Neicer Vásquez

student•

Gracias por lo del código limpio @Fabian Mauricio Lópes Guasca.

Yo también soy novato aun, solo he aprendido poco a poco las bases del buen código. Sé que lograras aprender mucho más. Nunca pares de aprender.

Jhonntan Andres Castaño Rojas

student•

que curso tan bueno que docente tan bueno

Juan Diego

student•

En el contexto de Beautiful Soup, el uso de class_="product_pod" es una forma de referirse a los atributos de un elemento HTML. Sin embargo, al utilizar el método select(), se emplea la notación de CSS, donde el punto . indica una clase. Por eso, select(".product_pod") significa "selecciona todos los elementos con la clase product_pod". La primera forma es más directa al buscar atributos, mientras que la segunda es más flexible y potente al utilizar selectores CSS.

Felipe Moreno

student•

Al usar .text en BeautifulSoup, este obtiene todo el contenido dentro de la etiqueta, incluidos los espacios, saltos de línea y otros caracteres de formato.

Para eliminar esos espacios y saltos de línea innecesarios, puedes utilizar .strip(), que elimina los espacios en blanco y saltos de línea al principio y al final del texto extraído.

Juan Salazar Saenz

student•

Se salto un pedazo al momento de guardar en el excel.. como es la creacion del pandas creo .. para luego ser guardado en el excel

Danny Alejandro fernandez gallego

student•

Aquí no dejo una solución al reto, más bien dejo un scrap que acabo de realizar a una empresa que vende de todo aquí en Colombia, buscando precios para el Celular S24:

productos = soup.select('div.grid-pod')

diccionario = {
    'emprea':['Fallabela'] * len(productos),
    'foto': [],
    'titulo': [],
    'marca':[],
    'distribuidor': [],
    'descuento': [],
    'precio_descuento': [],
    'precio_anterior':[]
}

for producto_all in productos:
    
    # versión limpia
    foto_tag = producto_all.find('img')
    price_tag = producto_all.find('span')
    
    
    foto = foto_tag['src'] if foto_tag and foto_tag.has_attr('src') else ''
    titulo = producto_all.find('div', class_='pod-details-4_GRID').find('b', class_="subTitle-rebrand").text
    marca = producto_all.find('div', class_='pod-details-4_GRID').find('b').text
    distribuidor = producto_all.find('div', class_='pod-details-4_GRID').find('span').find('b').text
    descuento = price_tag['data-discount-percentage'] if price_tag and price_tag.has_attr('data-discount-percentage') else '0%'
    
    # Verificar si hay descuento
    precio_descuento = producto_all.find('div',class_='pod-summary-4_GRID').find('ol').find('li').find('span').text
    precio_anterior = price_tag['crossed line-height-17'] if price_tag and price_tag.has_attr('crossed line-height-17') else None
    
    #Guardar los datos en el diccionario
    diccionario['foto'].append(foto if foto else 'none')
    diccionario['titulo'].append(titulo)
    diccionario['marca'].append(marca.strip() if marca else 'none')
    diccionario['distribuidor'].append(distribuidor.strip() if distribuidor else 'none')
    diccionario['descuento'].append(descuento.strip() if precio_descuento else 'none')
    diccionario['precio_descuento'].append(precio_descuento.strip() if precio_descuento else 'none')
    diccionario['precio_anterior'].append(precio_anterior.strip() if precio_anterior else 'none')


print(diccionario)

# Guardar los datos en un archivo CSV
pd.DataFrame.from_dict(diccionario).to_csv('resultados/celulares_s24_fallabela.csv', index=False)

# Contar el numero de productos extraidos
print(f'Se extrajron {len(diccionario)} productos.')

Juan Diego

student•

    #estrellas
    estrellas = product.find('p', class_='star-rating Five')
    if estrellas == None:
        estrellas = product.find('p', class_='star-rating Four')
        if estrellas == None:
            estrellas = product.find('p', class_='star-rating Three')
            if estrellas == None:
                estrellas = product.find('p', class_='star-rating Two')
                if estrellas == None:
                    estrellas = '1'
                else:
                    estrellas ='2'
            else:
                estrellas = '2'
        else:
            estrellas = '3'
    else:
        estrellas = '5'
    estrellas = estrellas + ' estrellas'


    #EN stock
    stock = product.find('p', class_='instock availability').get_text(strip=True)
    
    product_list.append(
        {
            "nombre": nombre,
            "precio": precio,
            "imagen_url": imagen_url,
            "Estrellas": estrellas,
            "Disponibilidad": stock
            }
    )
```    #estrellas    estrellas = product.find('p', class\_='star-rating Five')    if estrellas == None:        estrellas = product.find('p', class\_='star-rating Four')        if estrellas == None:            estrellas = product.find('p', class\_='star-rating Three')            if estrellas == None:                estrellas = product.find('p', class\_='star-rating Two')                if estrellas == None:                    estrellas = '1'                else:                    estrellas ='2'            else:                estrellas = '2'        else:            estrellas = '3'    else:        estrellas = '5'    estrellas = estrellas + ' estrellas'

    #EN stock    stock = product.find('p', class\_='instock availability').get\_text(strip=True)        product\_list.append(        {            "nombre": nombre,            "precio": precio,            "imagen\_url": imagen\_url,            "Estrellas": estrellas,            "Disponibilidad": stock            }    )

Luis Orna

student•

Mi solucion

David Rosas

student•

Para Google Colab...

Hay que Montar primero el Drive:

Una celda antes incluimos esto...


drive.mount('/content/drive')

from google.colab import drive

En la parte de las carpetas a la izquierda hay que entrar a esa direccion y agregamos la carpeta de resultados dentro de MyDrive... y nuestro path quedaria asi:


path\_csv = "/content/drive/MyDrive/resultados/productos.csv"

Asi, tendremos nuestro archivo productos.csv en nuestra propia carpeta de Google Drive

Isaac Bryan Ascanoa Roncall

student•

Aqui esta mi reto del profesor:

Martin Freire

student•

import requests

from bs4 import BeautifulSoup

import csv

url="https://books.toscrape.com/"

response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

products = soup.select("article.product_pod")

#lista de productos

product_list = []

for product in products:

item = []

#guardo nombre del libro:

nombre = product.find('h3').find('a')["title"] #puedo acceder a clases dentro de la etiqueta como si fueran elementos de una lista

item.append(nombre)

#precio

precio = product.find("div", class_="product_price").find("p",class_="price_color").get_text()

item.append(precio[1:])

#Estrellas

text = 'star-rating ' #asi se llaman las classes de los divs de las estrellas

stars = ['None','One','Two','Three','Four','Five']

for star in stars:

if(product.find("p", class_=text+star)!=None):

item.append(stars.index(star))

else:

#availability

if(product.find("i", class_='icon-ok')!=None):

item.append('In Stock')

else:

item.append('Out of Stock')

print(item)

Martin Freire

student•

import requests

from bs4 import BeautifulSoup

import csv

url="https://books.toscrape.com/"

response = requests.get(url)

soup = BeautifulSoup(response.text, "html.parser")

products = soup.select("article.product_pod")

#lista de productos

product_list = []

for product in products:

item = []

#guardo nombre del libro:

nombre = product.find('h3').find('a')["title"] #puedo acceder a clases dentro de la etiqueta como si fueran elementos de una lista

item.append(nombre)

#precio

precio = product.find("div", class_="product_price").find("p",class_="price_color").get_text()

item.append(precio[1:])

#Estrellas

text = 'star-rating ' #asi se llaman las classes de los divs de las estrellas

stars = ['None','One','Two','Three','Four','Five']

for star in stars:

if(product.find("p", class_=text+star)!=None):

item.append(stars.index(star))

else:

next

#availability

if(product.find("i", class_='icon-ok')!=None):

item.append('In Stock')

else:

item.append('Out of Stock')

print(item)

Os Lorenzana

student•

No alcance a leer si ya estaba, pero yo obtuve el rating asi,

star_rating = products.find("p", class_="star-rating")["class"][1]

Marcos Sar Lo

student•

Para obtener las estrellas:

star = product.find("p", class_="star-rating")["class"][1] star = star.replace("One", "1").replace("Two", "2").replace("Three", "3").replace("Four", "4").replace("Five", "5")

Para obtener el stock:

in_stock = product.find("p", class_="instock availability").get_text(strip=True)

Luis Enrique Martínez García

student•

Aqui dejo mi aporte :)

Danny Camilo Bernal Bernal

student•

Acá dejo mi aporte a la solución del reto, segregué las funcionalidades en métodos para mayor control y reutilización en caso de que se necesite:

Danny Camilo Bernal Bernal

student•

Resultado:

Jeinfferson Bernal G

student•

Codigo del reto:product_list = [] # iteramos sobre cada productofor product in products: # obtenerr nombre nombre = product.find('h3').find('a')['title'] # print(nombre) # obtener producto precio = product.find('p', class_='price_color').get_text() #print(precio) # obtener link imagen imagen = product.find('div', class_='image_container').find('img')['src'] # agregar la raiz a la url para obtener la imagen util imagen_url = url + imagen #print(imagen_url) # obtener nombre estrellas = product.find('p', class_='star-rating').get('class')[1] # print(estrellas) # obtener stock in_stock = product.find('p', class_='instock availability').get_text(strip=True) #print(in_stock) # guardar informacion en lista product_list.append( { 'nombre': nombre, 'precio': precio, 'imagen_url': imagen_url, 'calificacion': estrellas, 'Stock': in_stock } ) print(product_list[1])

product_list = []

# iteramos sobre cada producto
for product in products:

    # obtenerr nombre
    nombre = product.find('h3').find('a')['title']
    # print(nombre)

    # obtener producto
    precio = product.find('p', class_='price_color').get_text()
    #print(precio) 

    # obtener link imagen
    imagen = product.find('div', class_='image_container').find('img')['src']
    # agregar la raiz a la url para obtener la imagen util
    imagen_url = url + imagen
    #print(imagen_url)

    # obtener nombre
    estrellas = product.find('p', class_='star-rating').get('class')[1]
    # print(estrellas)

    # obtener stock
    in_stock = product.find('p', class_='instock availability').get_text(strip=True)
    #print(in_stock)
    
    # guardar informacion en lista
    product_list.append(
        {
            'nombre': nombre,
            'precio': precio,
            'imagen_url': imagen_url,
            'calificacion': estrellas,
            'Stock': in_stock
        }
    )

    
print(product_list[1])

Viviana Lopez

student•

Profe estaba haciendo pruebas con otras paginas y como se hace por ejemplo cuando la clase es larga y separadas con espacios?

Ej: <article class="vtex-product-summary-2-x-element vtex-product-summary-2-x-element--contProductSummaryColecciones pointer pt3 pb4 flex flex-column h-100">

Miguel Palacios Banda

student•

Fabian Mauricio López Guasca

student•

Este fue mi resultado al desafío de estrellas y stock, soy novato en la programación así que me gusta dejar comentarios de todo!