No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Carga

12/25
Recursos

Aportes 3

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Load

  • Formatos Aceptables

  • Permisos

  • Auditar

    Misma cantidad de datos.

    • Problemas de calidad.
    • Duplicados.
  • Eficiencia

    • ¿Por batch o streaming?
    • ¿En qué momento del día?
    • ¿El orden?
  • Control de errores

    • ¿Revertir todo el proceso o solo corregir los fallos y continuar con el procesos?

12. Carga

  • Formatos de datos aceptables: garantizar que solo se reciban datos relevantes y coherentes en la estructura necesaria por el warehouse o target.
  • Permisos: Se deben tener todos los permisos necesarios para escribir sobre el destino y modificar archivos o datos de ser necesario.
  • Auditar: comparar los datos recibidos con los datos de referencia permite detectar errores, problemas de calidad y duplicados o demás errores en el proceso.
  • Eficiencia: Debes buscar la manera más eficiente de extraer y cargar los datos para evitar retrasos y errores.
  • Control de errores: Es importante establecer un plan de acción en caso de presentarse n error: ¿revertir todo el proceso o solo corregir los fallos y continuar con proceso?
En el contexto de un proceso ETL (Extract, Transform, Load), la \*\*carga (Load)\*\* se refiere al paso final en el que los datos transformados se cargan en el sistema de destino o en el almacén de datos (Data Warehouse). Este paso es crucial porque los datos deben estar disponibles para su análisis o uso en el sistema al que se dirigen. \### Tipos de carga de datos: 1\. \*\*Carga completa (Full Load)\*\*: \- Se cargan todos los datos desde cero. Es útil cuando el dataset es pequeño o cuando se necesita reemplazar completamente los datos existentes en el sistema de destino. 2\. \*\*Carga incremental (Incremental Load)\*\*: \- Solo se cargan los datos nuevos o modificados desde la última carga. Esto es eficiente para datasets grandes, ya que solo se agregan cambios, no todo el conjunto de datos. 3\. \*\*Carga en tiempo real (Real-Time Load)\*\*: \- Los datos se cargan en tiempo real, lo que significa que se actualizan casi inmediatamente después de que los datos son transformados. Es útil en aplicaciones que requieren datos actualizados constantemente. \### Consideraciones en la carga de datos: \- \*\*Consistencia\*\*: Asegurarse de que los datos en el sistema de destino estén completos y sin errores. \- \*\*Performance\*\*: La carga de grandes volúmenes de datos debe realizarse de manera eficiente para evitar bloqueos o cuellos de botella en el sistema de destino. \- \*\*Automatización\*\*: La carga debe ser un proceso automatizado, ejecutado a intervalos regulares o en función de cambios en los datos.