Web scraping para data engineers: HTML y metadatos

Clase 11 de 38Curso de Ingeniería de Datos con Python

Contenido del curso

Web scraping

Pandas

Resumen

Como data engineer necesitas construir datasets propios cuando no existe el dataset correcto. Aquí aprenderás a enfocar el web scraping en sitios de noticias para extraer información visible y metadatos en el HTML, entendiendo primero las tecnologías web que lo hacen posible.

¿Cómo crear datasets propios con web scraping en data engineering?

Durante el módulo se propone generar un web scraper que recoja datos de varios sitios de noticias. La meta es responder preguntas de negocio cuando no hay datos públicos adecuados. Se combinará lo visible en la página con lo oculto en metadatos del HTML.

¿Por qué falta el dataset correcto y qué implica?

  • Encontrar datos exactos suele fallar.
  • Toca construir datasets a medida.
  • Un web scraper permite automatizar la recolección.
  • Se trabaja con estructura del HTML y metadatos.

¿Qué extraer de una página de noticias?

  • Texto y titulares visibles.
  • Vínculos entre documentos.
  • Metadatos disponibles en el HTML.
  • Contenido necesario para análisis posterior.

¿Qué diferencia hay entre internet y la web?

Primero, la web no es todo el internet. Internet es la red de redes, donde millones de computadoras intercambian información. La web es solo una parte, aunque muy importante.

¿Qué otras tecnologías del internet existen además de la web?

  • voice over IP: llamadas telefónicas internas sobre internet.
  • email con protocolos como IMAP y POP3.
  • Transferencia de archivos con FTP.

¿Cómo funciona la web al navegar?

  • Es un espacio de información con documentos ligados por vínculos.
  • Se accede mediante URLs.
  • Cada clic en un vínculo lleva a otra página.
  • Cargar imágenes también usa la web.

¿Cuáles son los elementos básicos de la web para el scraping?

La web se apoya en cuatro elementos. Para scraping, el foco está en la estructura del HTML y, cuando es posible, en archivos JSON accesibles directamente.

¿Qué rol cumple HTML en el scraping?

  • El HTML define la estructura como un árbol de etiquetas.
  • Es un lenguaje de marcado que describe tipos de información.
  • Es lo que ves en el inspector del navegador.
  • Es la base para extraer texto, vínculos y metadatos.

¿Cuándo importan CSS y JavaScript para extraer datos?

  • El CSS solo da presentación. No aporta datos, salvo que analices el CSS mismo para, por ejemplo, extraer colores.
  • JavaScript añade interactividad y cómputo, transformando documentos estáticos en aplicaciones.
  • Algunas páginas parecen vacías al usar código como Python porque son single page web applications.
  • Las SPA dependen de JavaScript para renderizarse. Sin ejecutarlo, el contenido no aparece.
  • Existen mecanismos como Puppeteer que controlan un web browser para renderizar, aunque está fuera de alcance aquí.

¿Cómo se usa JSON en aplicaciones web y cuándo sirve?

  • JSON transmite datos entre clientes y servidores.
  • Es estándar para comunicarse con el backend.
  • Para scraping interesa cuando puedes acceder a los JSON directamente.
  • Si no hay acceso directo, la prioridad vuelve al HTML.

Si tienes dudas o conoces otra tecnología web útil para data science, compártela en los comentarios y enriquece la plataforma con tu experiencia.