Cómo guardar datos del scraper según tu audiencia

Clase 9 de 15Curso de Web Scraping con Python

Resumen

Guardar correctamente los resultados generados por un scraper es fundamental según quién utilizará estos datos posteriormente. Dependiendo del usuario final, estos pueden guardarse de manera eficiente en formatos como CSV, JSON, Excel o incluso en formularios de Google. Aquí aprenderás cómo implementar paso a paso cada uno de estos formatos y adaptarlos a las necesidades específicas de cada equipo.

¿Qué formatos de archivo utilizar según los usuarios?

Al utilizar datos generados desde un scraper, es esencial considerar a quién van dirigidos:

  • CSV o Excel: Muy útil para usuarios finales que prefieren trabajar directamente con hojas de cálculo configurables.
  • JSON: Ideal para programadores o equipos técnicos que generan aplicaciones o trabajan con bases de datos.
  • Formularios de Google: Perfectos para equipos no técnicos, facilitando el acceso desde cualquier lugar a través de la nube.

¿Cómo guardar los resultados en CSV y JSON?

La primera opción mostrada es CSV, con extensión .csv, donde guardamos los resultados con un nombre identificable como "productos éticos.csv".

Para un formato JSON, utilizamos lo siguiente:

  • Archivo con extensión .json.
  • Modo escritura (write mode), codificación UTF-8 e indentación en nivel 4, mejorando la visualización.
  • Esto permite mostrar claramente la estructura del dato como vemos en el archivo ejemplo "ProductoFinal.json".

¿Cuál es el proceso para guardar en Excel usando Pandas?

Utilizando la librería Pandas simplificamos significativamente el proceso:

  1. Convertimos la lista obtenida del scraper en un DataFrame.
  2. Convertimos ese DataFrame al formato Excel (.xlsx) utilizando una librería específica de Pandas.

Si no está instalado, puedes agregar el paquete con el comando correspondiente. Un ejemplo breve:

import pandas as pd

df = pd.DataFrame(datos_obtenidos)
df.to_excel('resultados.xlsx', index=False)

Esto permite manipular grandes cantidades de información con sencillez.

¿Cómo almacenar datos usando Google Forms sin API?

Otra alternativa sencilla y económica es usar formularios de Google sin necesidad de autenticación o APIs complejas:

  • Se crea un formulario con las preguntas necesarias como Título, Precio y URL de Imagen, usando respuestas cortas.
  • Luego, accede a la opción "rellenar previamente el formulario" para obtener un enlace que usaremos en nuestra implementación.
  • Al tener este enlace, reemplaza en tu código los identificadores correspondientes y usa directamente los métodos POST con las librerías Requests y Time para enviar los datos.
  • Si enfrentas errores de permisos (por ejemplo, status code 401), asegúrate que el formulario esté abierto para cualquier usuario con enlace desde la opción "compartir vista del encuestado".
  • Se recomienda probar primero con pocos elementos para verificar la correcta carga.

Esta implementación facilita enormemente integrar resultados con equipos grandes y no técnicos, aportando flexibilidad y accesibilidad desde la nube.

Te invito a comentar cuál de estos métodos consideras más útil según tus necesidades actuales.