Cómo extraer datos específicos de páginas web con Beautiful Soup

Clase 4 de 15 • Curso de Web Scraping con Python

Resumen

El web scraping permite extraer información específica de páginas web, y aunque no es necesario ser un experto en desarrollo web, sí es fundamental conocer ciertos aspectos clave como el HTML. A través del lenguaje HTML podemos acceder al contenido web estructurado mediante etiquetas, utilizando el Document Object Model (DOM).

¿Qué es HTML y por qué es importante en el web scraping?

HTML es un lenguaje de etiquetas que define y estructura el contenido visible en una página web. Al realizar peticiones GET, recibimos todo el código HTML, que puede contener enorme cantidad de datos organizados por etiquetas. Algunas etiquetas comunes que veremos son:

h1: títulos principales.
h2: subtítulos.
p: párrafos.
div: contenedores genéricos que agrupan contenidos, frecuentemente con clases específicas.

Comprender estas etiquetas facilita encontrar con exactitud la información necesaria para nuestro proyecto.

¿Cómo ayuda Beautiful Soup al web scraping?

Beautiful Soup es una librería útil en Python para convertir código HTML recibido en nuestras peticiones en una estructura manipulable. Con este proceso, llamado parsing, es posible seleccionar fácilmente etiquetas específicas y extraer la información requerida.

Veamos cómo podemos configurar una estructura con Beautiful Soup a partir de una petición:

from bs4 import BeautifulSoup

# Supongamos que response contiene el texto HTML de la petición que hicimos
soup = BeautifulSoup(response.text, 'html.parser')

print(soup)

¿Cómo extraer específicamente el título de una página HTML con Beautiful Soup?

Para extraer información puntual, Beautiful Soup ofrece métodos que acceden directamente a las etiquetas. Por ejemplo, el nombre de la página se almacena típicamente en una etiqueta title. Podemos obtener así ese texto:

head = soup.find('title')
print(head.getText(strip=True))

Con strip=True eliminamos los espacios extra del texto obtenido.

¿Cómo obtener información puntual utilizando clases HTML?

Frecuentemente, necesitaremos acceder a un contenido específico que esté dentro de los contenedores div con determinadas clases. Supongamos que queremos obtener un título específico del contenido:

titulo = soup.find('div', class_='nombre-de-clase')
print(titulo.getText(strip=True))

Es importante especificar correctamente la clase y verificar manualmente el contenedor que contiene exactamente el dato que queremos para asegurar precisión.

¿Has realizado anteriormente web scraping o tienes alguna consulta sobre este método? ¡Compártela en los comentarios!

Comentarios

Juan Carlos Quishpe

student•

Introducción al Web Scraping No es necesario ser un desarrollador web experto para hacer web scraping, pero sí es fundamental conocer conceptos básicos como HTML, que es el lenguaje utilizado para estructurar el contenido de una página web.

Importancia del HTML y el DOM El HTML define la estructura de una página. Mediante el modelo DOM (Document Object Model), se puede acceder a etiquetas específicas y extraer información relevante.

Estructura básica de una página HTML El HTML incluye elementos como el HEAD (metadatos, título, configuraciones) y el BODY (contenido principal). Algunas etiquetas comunes son H1 para títulos, H2 para subtítulos, P para párrafos y DIV para contenedores.

Identificación de contenedores en un e-commerce En el caso de una tienda online, cada producto suele estar contenido en un DIV con una clase específica, como "Product", que incluye título, imagen y precio.

Uso de BeautifulSoup para parsear HTML Se hace una petición GET para obtener el HTML, y luego se utiliza BeautifulSoup para convertir ese texto en una estructura navegable. Esto permite acceder a las etiquetas deseadas de manera eficiente.

Extracción del título de la página web Usando el método find de BeautifulSoup, se busca la etiqueta <title> dentro del HEAD y se utiliza get_text() para extraer solo el texto. Si hay espacios sobrantes, se eliminan con strip().

Identificación del contenido mediante herramientas de desarrollo Para encontrar contenedores específicos, se pueden usar herramientas de desarrollo del navegador, como el inspector de elementos. Esto ayuda a ubicar la clase o DIV que contiene el texto que se desea extraer.

Filtrado por clases específicas Se puede usar find o find_all especificando la etiqueta (por ejemplo, div) y la clase deseada para localizar elementos específicos, como el contenedor de un título.

Selección precisa del contenedor correcto Aunque puede haber varios DIVs anidados, lo ideal es seleccionar directamente el que contiene el texto de interés para garantizar que siempre se obtenga el valor correcto.

Cristian Acevedo

student•

se me parece muy facil hacerlo pero no sabia que podia hacer eso se me abrio un mundo muy grande para poder vender o comprar productos

Luis Orna

student•

El motivo por el cual se usa "class_" en vez de "class" en soup.find() se debe a que "class" es una palabra reservada en Python. Usar un guion bajo permite evitar conflictos con el lenguaje, facilitando la identificación de atributos de las etiquetas HTML. Así, al utilizar soup.find('div', class_='nombre_clase'), se accede correctamente al atributo "class" de un elemento HTML sin interferir con la sintaxis de Python.

Juan Diego

student•

El argumento "html.parser" se utiliza en Beautiful Soup para especificar el parser que se utilizará para analizar el contenido HTML. Este parser es parte de la biblioteca estándar de Python y es útil para procesar documentos HTML y XML. Permite a Beautiful Soup entender la estructura del HTML que ha sido descargado, facilitando la navegación y extracción de datos de manera efectiva. Usar este parser asegura que el contenido se interprete correctamente, lo cual es crucial para el web scraping.

Julio Bastidas

student•

siento que va super rapido

Nicolas Alpargatero

student•

Lo que pasa es que la metodología es de ir al grano. Si es necesario pausar para asimilar, tomar notas.

Juan Diego

student•

Un parser es una herramienta o componente de software que analiza una cadena de texto, como código HTML, y la convierte en una estructura que puede ser fácilmente manipulada. En el contexto del scraping web, los parsers como BeautifulSoup permiten extraer información específica de páginas web al jerarquizar el contenido según su estructura (DOM). Esto facilita la obtención de datos relevantes, como títulos, precios o imágenes, transformando el texto crudo en datos útiles para análisis y toma de decisiones.

Luis Orna

student•

Conviene en el caso del ejemplo strip = False porque asi se mantiene el espacio entre ambas frases.

Nicolas Alpargatero

student•

Buen punto, lo que pasa es que BeautifulSoup concatena y normaliza espacios. Efectivamente no era necesario colocar strip=True ni False porque es por defecto.

¿Y Porque en el primero si era necesario? porque el texto venia con indentación.

Oscar Daniel Farfan Juanias

student•

Actualmente estoy construyendo para extraer información de Mercado Libre pero tengo problemas con la renderización de la web

Luis Orna

student•

El comando BeautifulSoup(..., "html.parser") se usa para especificar el analizador (parser) que procesará el HTML. "html.parser" es el analizador por defecto de Python y es rápido y eficiente para parsing HTML.

Otras opciones incluyen:

lxml: Rápido y soporta HTML y XML. Requiere instalación adicional.
html5lib: Soporta HTML5, es más lento pero maneja HTML no estándar de manera efectiva.

Elegir el parser depende de las necesidades específicas del proyecto.

Marcos Sarmiento Loarte

student•

El DOM y HTML están intrínsecamente conectados: el primero es la representación en memoria del segundo.

Rolando Jose Lugo Palomino

student•

Saludos, que extensión o configuración utilizan para poder ejecutar el código por partes y visualizar estas partes en VS code, así como lo hacen en esta clase?

Antonio Mesa Casares

student•

Tienes que configurar jupiter notebook

Rolando Jose Lugo Palomino

student•

Gracias Antonio

Cómo extraer datos específicos de páginas web con Beautiful Soup

Fundamentos y Primer Scraper Estático

Web scraping con Python: extracción de datos de sitios web

Códigos de estado HTTP más comunes en la navegación web

Peticiones HTTP GET con Python y la librería Requests

Cómo extraer datos específicos de páginas web con Beautiful Soup

Extracción de datos específicos con Beautiful Soup en Python

Web Estático Avanzado

Web scraping multipágina con Python y paginación

Manejo de errores y excepciones en web scraping

Consideraciones éticas y legales del web scraping

Formatos de guardado para datos de web scraping

Scraping Dinámico con Selenium

Automatización de web scraping con Selenium para sitios dinámicos

Configuración de Selenium y ChromeDriver para scraping web

Automatización de scroll infinito en web scraping con Selenium

Automatización de logins con Selenium y Beautiful Soup

Scraping Dinámico con Playwright

Instalación y configuración de Playwright para web scraping

Automatización de formularios de login con Playwright