No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

15 Días
4 Hrs
59 Min
11 Seg

Transformación de datos con Pentaho: parte 2

21/25
Recursos

Aportes 3

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Al final del video se ve la importancia del ordenamiento de datos, ya que no modificó al sort a quantity_name, salen valores duplicados al final

21. Transformación de datos con Pentaho: parte 2

  • Se terminan de hacer los filtrados de los datos según la necesidad
En esta segunda parte sobre \*\*transformación de datos con Pentaho\*\*, vamos a profundizar en otros aspectos importantes que puedes aplicar en tus procesos de ETL (Extracción, Transformación y Carga): \### \*\*1. Enriquecimiento de Datos\*\*Pentaho permite enriquecer los datos provenientes de diferentes fuentes, añadiendo información adicional o calculando nuevos campos. Algunas herramientas y pasos útiles: \- \*\*Add Constants\*\*: Agrega columnas con valores constantes a los datos procesados.- \*\*Calculator\*\*: Permite realizar operaciones matemáticas sobre los campos existentes.- \*\*Lookup Fields\*\*: Busca y agrega valores desde otra tabla o flujo de datos. \#### Ejemplo:\*\*Agregar una columna "Región" con valores constantes:\*\*```plaintextID   | Nombre     ->    ID   | Nombre    | Región-----|-------------    ------|-----------|-------001  | Pedro            001  | Pedro     | América002  | María            002  | María     | América``` \### \*\*2. Filtrado y Limpieza de Datos\*\*Es importante filtrar los datos irrelevantes o corregir errores en los datos fuente antes de cargarlos. \- \*\*Filter Rows\*\*: Filtra las filas en base a condiciones lógicas.- \*\*Data Cleanser\*\*: Corrige errores comunes como capitalización, eliminar espacios en blanco, etc.- \*\*Replace Values\*\*: Reemplaza valores específicos en un campo. \#### Ejemplo:\*\*Filtrar registros con edad menor a 18 años:\*\*```plaintextEntrada:ID   | Nombre     | Edad-----|------------|-----001  | Pedro      | 17002  | María      | 21 Salida:ID   | Nombre     | Edad-----|------------|-----002  | María      | 21``` \### \*\*3. Unión y División de Flujos de Datos\*\*Cuando trabajas con múltiples fuentes, puedes necesitar unirlas o dividirlas según condiciones específicas. \- \*\*Merge Join\*\*: Une dos flujos de datos según claves comunes.- \*\*Switch/Case\*\*: Divide un flujo de datos en varios en función de una condición.- \*\*Union Rows\*\*: Combina dos o más flujos de datos. \#### Ejemplo:\*\*División por región usando Switch/Case:\*\*```plaintextEntrada:ID   | Nombre    | Región-----|-----------|-------001  | Pedro     | América002  | María     | Europa Salida:Flujo América:ID   | Nombre    | Región-----|-----------|-------001  | Pedro     | América Flujo Europa:ID   | Nombre    | Región-----|-----------|-------002  | María     | Europa``` \### \*\*4. Generación de Nuevos Datos\*\*Pentaho facilita la generación de nuevos datos, como claves únicas o registros simulados. \- \*\*Generate Row Number\*\*: Genera números consecutivos en los registros.- \*\*Row Generator\*\*: Crea datos simulados útiles para pruebas. \#### Ejemplo:\*\*Generar números únicos:\*\*```plaintextEntrada:Nombre------PedroMaría Salida:ID   | Nombre-----|-------1    | Pedro2    | María``` \### \*\*5. Carga de Datos Transformados\*\*Los datos procesados pueden cargarse en diversas plataformas, como bases de datos, archivos planos, o sistemas en la nube. \- \*\*Table Output\*\*: Carga los datos en una base de datos.- \*\*Text File Output\*\*: Escribe los datos en un archivo de texto (CSV, JSON, etc.).- \*\*S3 File Output\*\*: Guarda los datos transformados directamente en un bucket de Amazon S3. \#### Ejemplo:\*\*Escribir un archivo CSV:\*\*```plaintextEntrada:ID   | Nombre    | Edad-----|-----------|-----001  | Pedro     | 21002  | María     | 25 Salida (CSV):ID,Nombre,Edad001,Pedro,21002,María,25``` \### \*\*Mejoras Adicionales en las Transformaciones\*\*1. \*\*Monitoreo y Logs\*\*:   - Usa el paso \*\*Write to log\*\* para registrar información durante el proceso.2. \*\*Uso de Variables\*\*:   - Las variables pueden hacer que tus transformaciones sean dinámicas, adaptándose a diferentes escenarios.3. \*\*Manejo de Errores\*\*:   - Configura rutas de manejo de errores para procesar registros problemáticos sin interrumpir el flujo.