Consideraciones clave al extraer datos en ETL

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Consideraciones clave al extraer datos en ETL

Resumen

Antes de construir tu primer ETL con Python o Pentaho, necesitas entender qué pasa en la fase de extracción de datos, porque ahí se decide si tu pipeline será robusto o se romperá al primer cambio. La extracción es el punto donde te conectas a las fuentes (sources) y trae consigo decisiones técnicas que afectan formato, seguridad, eficiencia y escalabilidad.

Esta guía es para ti si estás empezando en data engineering y quieres tener un mapa claro de los criterios que revisan los equipos profesionales antes de tocar una sola línea de código.

¿Qué es la fase de extracción en un ETL?

La extracción es la primera E de ETL (Extract, Transform, Load) y consiste en leer datos desde sus fuentes originales para llevarlos a un proceso de transformación posterior. Aquí defines de dónde vienen los datos y cómo los vas a obtener sin romper nada en el camino.

¿Qué significa ETL? Es la sigla de Extract, Transform, Load. Tres fases secuenciales: extraer datos de un origen, transformarlos para que sean útiles y cargarlos en un destino analítico.

¿Por qué importa el formato de las fuentes de datos?

No es lo mismo leer un JSON que conectarte a una base SQL o NoSQL. Cada formato exige una herramienta capaz de interpretarlo y un criterio sobre si los datos vienen normalizados o no.

Antes de elegir librería o conector, pregúntate:

¿En qué formato vive el dato en su origen?
¿Está estructurado, semiestructurado o sin estructura?
¿La herramienta que voy a usar sabe leer ese formato de forma nativa?

Responder esto te ahorra horas de parches innecesarios.

¿Cómo afecta la calidad de los datos a tu ETL?

La calidad define qué tan limpios llegan los datos y qué operaciones tendrás que aplicar después. Si la fuente trae duplicados, nulos o tipos mal asignados, tu transformación se vuelve más pesada.

Evalúa el estado real antes de extraer. Así sabes qué reglas de limpieza aplicar y evitas asumir que el origen está impecable.

¿Qué criterios técnicos debes evaluar al extraer datos?

Más allá del formato, hay seis consideraciones que te van a marcar la diferencia entre un ETL frágil y uno profesional.

¿Cuándo debo extraer datos de una base transaccional?

La frecuencia de actualización es clave cuando trabajas con bases que son el core del negocio. Abrir y cerrar sesiones continuamente sobre una base transaccional puede afectar la operación real de tu organización.

La recomendación práctica es programar las extracciones en horarios de baja transaccionalidad. Piensa siempre cómo impacta tu proceso al sistema fuente.

¿Cuál es el mejor horario para extraer datos? Aquel en el que la base de datos tiene menor carga operativa, normalmente fuera de horarios pico, para no competir con las transacciones reales del negocio.

¿Qué pasa con la accesibilidad y los permisos de lectura?

Sin permisos, no hay extracción. Da igual si la fuente es un bucket S3, una base de datos o un archivo plano: si no tienes acceso, tu ETL va a fallar.

Valida antes de programar:

Que tengas credenciales activas.
Que tengas permisos de lectura sobre el recurso exacto.
Que la conexión sea estable desde tu entorno de ejecución.

¿Cómo proteger la seguridad del pipeline de datos?

La seguridad va más allá del acceso. Tu proceso debe restringirse a lectura, nunca a modificación directa de los datos en origen. Y la sesión que abras debe mantener la información protegida durante todo el pipeline.

Esto evita que la información sensible de tu empresa o proyecto quede expuesta o se altere por error.

¿Cómo lograr eficiencia y escalabilidad en la extracción?

Un ETL no se diseña solo para hoy, se diseña para cuando los datos crezcan diez o cien veces.

La eficiencia tiene que ver con consultar las fuentes en momentos y frecuencias adecuadas, y con anticipar errores comunes: cambios de permisos, cambios de formato o cambios en la estructura de la fuente. Detectarlos a tiempo evita que tu proceso se rompa en producción.

La escalabilidad responde a una pregunta directa: el método que uso hoy con miles de registros, ¿me va a servir mañana con millones o billones? Si la respuesta es no, ya tienes deuda técnica antes de arrancar.

Una lista rápida para validar escalabilidad:

Estima el crecimiento esperado de cada fuente.
Revisa si tu herramienta soporta procesamiento por lotes o streaming.
Considera paralelización desde el diseño inicial.

Con estos criterios claros, ya puedes pasar a la práctica y hacer tu primera extracción con Python y Pandas. ¿Cuál de estas consideraciones crees que más se pasa por alto en proyectos reales? Cuéntame en los comentarios.

Mario Alexander Vargas Celis

Estudiante

El término "sources" en el contexto de ETL y procesamiento de datos se refiere a las **fuentes de datos**. Estas fuentes son los orígenes de la información que se extrae para ser procesada y transformada dentro de los sistemas ETL. Pueden provenir de diferentes tipos de sistemas o bases de datos, tanto estructurados como no estructurados. A continuación, te explico algunos conceptos clave sobre las fuentes de datos en un proceso ETL, en español:

### Fuentes de Datos en un Proceso ETL:

1. **Bases de Datos Relacionales (RDBMS)**:

Las bases de datos como **MySQL**, **PostgreSQL**, **Oracle** o **SQL Server** suelen ser fuentes comunes para los procesos ETL. Los datos extraídos de estas fuentes generalmente están estructurados y organizados en tablas, lo que facilita su extracción.

2. **Archivos de Texto y CSV**:

Archivos planos como **CSV**, **JSON**, **XML** o **TXT** son comunes en muchos procesos ETL. Estos archivos pueden contener datos en formato tabular o jerárquico, pero requieren procesamiento para ser transformados en un formato adecuado para el análisis.

3. **APIs**:

Las **APIs (Interfaces de Programación de Aplicaciones)** permiten acceder a datos de aplicaciones externas, como redes sociales, plataformas de comercio electrónico o sistemas de información. Los datos extraídos a través de una API generalmente están en formato JSON o XML.

4. **Sistemas de Almacenamiento en la Nube**:

Fuentes como **Amazon S3**, **Google Cloud Storage**, o **Azure Blob Storage** son muy utilizadas, ya que permiten almacenar grandes volúmenes de datos no estructurados que se pueden extraer para su procesamiento ETL.

5. **Sistemas NoSQL**:

Bases de datos NoSQL como **MongoDB**, **Cassandra**, o **CouchDB** son comunes cuando los datos no siguen una estructura rígida de tablas y relaciones. Estos sistemas pueden ser fuentes para datos semi-estructurados o no estructurados.

6. **Flujos de Datos en Tiempo Real**:

Los sistemas que generan datos en tiempo real, como los sensores IoT, o las plataformas de streaming como **Apache Kafka**, pueden ser fuentes de datos para procesos ETL de transmisión continua (streaming ETL), donde los datos son procesados en tiempo real en lugar de ser extraídos en lotes.

### Explicación de las Fuentes de Datos en el Contexto ETL:

Las **fuentes de datos** son un componente crucial en los procesos ETL (Extract, Transform, Load), ya que son el primer paso para obtener la información necesaria para su análisis o almacenamiento. En este proceso:

- **Extract (Extracción)**: Se extraen los datos de las fuentes. Aquí es donde se encuentran las "sources" que alimentan el proceso.

- **Transform (Transformación)**: Los datos extraídos se limpian, se validan y se estructuran según sea necesario.

- **Load (Carga)**: Finalmente, los datos transformados se cargan en un sistema de destino, como un **Data Warehouse** o un **Data Lake**, donde pueden ser utilizados para análisis y reportes.

### Ejemplos de Fuentes Comunes en la Industria:

- En la **industria financiera**, las fuentes de datos pueden incluir bases de datos de transacciones bancarias, sistemas de tarjetas de crédito, APIs de pagos, etc.

- En la **industria de salud**, las fuentes pueden ser registros médicos electrónicos, dispositivos médicos, o incluso datos de investigación científica.

- En la **industria petrolera**, las fuentes de datos pueden ser sensores en los pozos de petróleo, sistemas de monitoreo de maquinaria, y bases de datos que contienen registros de producción.

En resumen, las **sources** en un proceso ETL son todas aquellas plataformas, bases de datos, archivos, APIs o sistemas que proveen los datos que se van a extraer, transformar y cargar en el flujo de trabajo ETL. Estas fuentes son fundamentales porque determinan la calidad, cantidad y tipo de datos que se utilizarán en los análisis posteriores.

Consideraciones clave al extraer datos en ETL

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos clave de ETL: source, target y staging

Consideraciones clave antes de implementar ETL

Herramientas ETL: Pentaho, Pandas y más

Extracción de datos