No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Extracción de datos con Pentaho

19/25
Recursos

¿Qué es el proceso ETL con Pentaho?

El proceso ETL (Extract, Transform, Load) es crucial en el manejo de datos masivos, y aunque anteriormente se vio cómo implementar este proceso utilizando Python, ahora nos adentramos en el mundo de las herramientas open source con Pentaho. Pentaho ofrece una interfaz amigable que simplifica el manejo de datos a través de conexiones visuales y componentes predefinidos para cada etapa del proceso ETL.

¿Cómo establecemos una conexión de base de datos en Pentaho?

El primer paso en el uso de Pentaho es crear una conexión a una base de datos. Este proceso es esencial para la extracción de datos y se realiza de la siguiente manera:

  1. Abrir la interfaz de Pentaho y navegar a la sección de "View".
  2. Crear una nueva conexión seleccionando "New" -> "Postgres".
  3. Introducir los parámetros de conexión:
    • Host: localhost
    • Database: Postgres
    • Username: Postgres
    • Password: mysecretpass
  4. Probar la conexión para asegurarse de que todo está configurado correctamente y luego guardarla.

¿Cómo leemos datos de diferentes fuentes en Pentaho?

Pentaho permite leer datos desde múltiples fuentes, como bases de datos, archivos CSV y JSON, a través de componentes específicos en su interfaz. Aquí te mostramos cómo se realiza cada tipo de extracción:

Extracción de tabla en base de datos:

  1. Navega a la sección de "Design" y selecciona "Table Input".
  2. Configura un query SQL para obtener los datos, por ejemplo:
    SELECT * FROM traits LIMIT 1000;
    

Extracción desde un archivo CSV:

  1. Selecciona el componente "CSV Input" y arrástralo al espacio de trabajo.
  2. Configura el archivo CSV especificando el delimitador de comas y selecciona el número de líneas para prever los datos.
  3. Realiza un "Preview" para asegurarte de que los datos se están cargando correctamente.

Extracción de un archivo JSON:

  1. Selecciona "JSON Input" y configúralo especificando la ruta del archivo.
  2. Define la estructura JSON utilizando patrones de extracción como asterisco.punto.todo para seleccionar los nodos correctos.
  3. Realiza una visualización previa para verificar que los datos están siendo extraídos adecuadamente.

¿Pentaho vs. desarrollo customizado con Python: cuáles son las ventajas?

Ambas herramientas tienen sus pros y contras, y la elección dependerá de las necesidades del proyecto. Aquí algunos puntos claves para tener en cuenta:

  • Pentaho:

    • Ofrece una interfaz amigable que permite realizar procesos complejos de ETL sin necesidad de escribir código.
    • Ideal para usuarios que prefieren una configuración visual.
    • Muy útil para proyectos que necesitan despliegues rápidos sin las complicaciones de un código personalizado.
  • Desarrollo con Python:

    • Proporciona mayor flexibilidad y personalización al poder escribir código específico para tareas complejas o únicas.
    • Requiere conocimientos más avanzados de programación.
    • Es más adecuado para analistas de datos que prefieren tener control detallado sobre el proceso ETL.

La decisión final sobre cuál utilizar dependerá de las necesidades específicas de cada proyecto y del nivel de experiencia del equipo en el manejo de estas herramientas. ¡Anímate a explorar ambas opciones y comparte tus experiencias en los comentarios!

Aportes 7

Preguntas 4

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Recuerden que para ahcer la conexión, toca encender el contenedor de docker donde esta alojada la base de datos 😃

no se que tan poderoso sea pentaho para la parte de hacer un parsing en un json con muchos multi niveles… talvez sea mejor crear una funcion en python ‘raw’ para hacer ese parsing y crear una tabla ‘plana’ como output despues de ese parsing… alli veo python puro con mas poder.

19. Extracción de datos con Pentaho

  1. Conexión con la base de datos
  2. Seleccionar el source utilizando la conexión a la base de datos
  3. Seleccionar todos los sources; tablas, json, csv, etc…
  4. Crear estructura para los JSON
A hoy (1 de diciembre del 2024) parece que Pentaho Data Integration no está disponible. He intentado descargar de la página oficial, pero nada.
Ex open source

Pentaho

ambas herrramientas son interesantes pero me parece mas facil hasta el momento pentaho, por la interface con el usuario