Resumen

Recolectar datos es el punto de partida de cualquier proyecto en ingeniería de datos. Sin datos no hay limpieza, no hay análisis y mucho menos modelos de inteligencia artificial. Lo interesante es que hoy la propia IA puede acelerar ese proceso de recolección, generando scripts listos para extraer información de páginas web, APIs o bases de datos.

¿Qué es el data gathering y por qué es fundamental?

El data gathering o recolección de datos consiste en obtener información desde distintas fuentes: una API, una base de datos SQL, o directamente desde páginas web mediante técnicas como el web scraping [0:08]. Toda la cadena de valor en datos —limpieza, análisis, modelado— depende de esta primera etapa. Si la recolección es deficiente, todo lo que viene después también lo será.

La inteligencia artificial se convierte en un aliado poderoso porque puede generar el código necesario para estas tareas, reduciendo el tiempo de desarrollo y facilitando el trabajo incluso para quienes no dominan todas las librerías involucradas [0:38].

¿Cómo crear un web scraper con ChatGPT paso a paso?

El ejemplo práctico parte de la página de TechCrunch, un portal de noticias tecnológicas [0:48]. El flujo es sencillo y se puede replicar con cualquier sitio web:

  • Inspeccionar el HTML: se abre el inspector del navegador para copiar la estructura de los elementos que contienen los artículos [1:08].
  • Pasar el contexto al LLM: esa estructura HTML se pega dentro de un prompt en ChatGPT, junto con la instrucción de generar un script en Python que haga web scraping y lleve los resultados a un data frame de Pandas [1:30].
  • Ejecutar el código generado: el script resultante se copia directamente al entorno de desarrollo y se ejecuta [2:08].

El resultado es un data frame con columnas como título, link, fecha, autor y resumen del artículo [2:18]. Todo el código fue escrito por la IA; el único aporte manual fue darle el contexto de la estructura HTML de la página.

¿Qué precauciones tomar al hacer web scraping?

ChatGPT incluye dos advertencias importantes al generar este tipo de scripts [1:55]:

  • Si la estructura HTML de la página cambia, el scraper dejará de funcionar correctamente.
  • Es necesario revisar los términos y condiciones del sitio web, porque en algunos casos el web scraping puede violar políticas de uso e incluso considerarse un delito.

¿Qué otras técnicas de recolección se pueden potenciar con IA?

El web scraping es solo una de las opciones. También se puede usar un LLM para generar [2:42]:

  • Queries SQL: consultas a bases de datos relacionales sin necesidad de recordar toda la sintaxis.
  • Consumo de APIs: construir el código que se conecte a cualquier API. Solo se necesita pasar parte de la documentación o el contexto de la librería al modelo.
  • Consumo de la API de Twitter: en los recursos de la clase hay un ejemplo donde se usa ChatGPT para crear un script que consulta tweets en tiempo real filtrados por un hashtag específico [2:58].

¿Cómo adaptar este proceso a tus propios proyectos?

La clave está en el contexto que le entregas al modelo. Copiar la estructura HTML, compartir la documentación de una API o describir el esquema de una base de datos son formas de darle al LLM la información precisa para que genere código funcional. Este patrón es reutilizable: cambia la fuente de datos, ajusta el prompt y obtendrás un nuevo script adaptado a tu necesidad.

Si ya tienes una fuente de datos en mente —un sitio web, una API interna o una base de datos de tu organización— prueba replicar este flujo y comparte qué resultados obtuviste.