No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

20 Días
0 Hrs
3 Min
35 Seg

Sources

5/25
Recursos

Aportes 4

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Consideraciones en la extracción de datos

  • Formato📄: Es importante asegurarse de que los datos estén en formato compatible con la herramienta ETL que se esta utilizando. (¿json?, ¿SQL?, ¿Estan normalizados?)
  • Calidad de los datos: ☑️ : Es necesario verificar la integridad y la precisión de los datos antes de cargarlos.
  • Frecuencia de actualización 🔄 : Debes determinar la frecuencia con la que los datos deben ser extraídos y actualizados.
  • Accesibilidad➡️ : Debes tener acceso a las fuentes de datos para poder extraerlos y cargarlos en el sistema.
  • Seguridad🛡️ : Sebes asegurarte de que los datos estén protegidos y de que solo las personas autorizadas tengan acceso a ellos.
  • Eficiencia ⚡ : debes buscar la manera mas eficiente de extraer y cargar los datos, para evitar retrasos y errores.
  • Escalibilidad📈 : Debes tener en cuenta si a solución de ETL es escalable y si es posible manejar una cantidad creciente de datos en el futuro

Si alguien trabaja en Mac M1; les comparto esta guía para que puedan abrir y trabajar con Pentaho sin problemas. Deben settear Rossetta y seguir los pasos en la guía: https://stackoverflow.com/questions/67972804/pentaho-data-integration-not-starting-on-new-mac-m1

5. Sources

  • Formato: que estén en un formato compatible
  • Calidad de los datos: verificar integridad
  • Frecuencia de actualización
  • Accesibilidad
  • Seguridad: restringir accesos
  • Eficiencia para evitar retrasos y errores
  • Escalabilidad: saber si puedo manejar una cantidad de datos creciente
El término "sources" en el contexto de ETL y procesamiento de datos se refiere a las \*\*fuentes de datos\*\*. Estas fuentes son los orígenes de la información que se extrae para ser procesada y transformada dentro de los sistemas ETL. Pueden provenir de diferentes tipos de sistemas o bases de datos, tanto estructurados como no estructurados. A continuación, te explico algunos conceptos clave sobre las fuentes de datos en un proceso ETL, en español: \### Fuentes de Datos en un Proceso ETL: 1\. \*\*Bases de Datos Relacionales (RDBMS)\*\*: Las bases de datos como \*\*MySQL\*\*, \*\*PostgreSQL\*\*, \*\*Oracle\*\* o \*\*SQL Server\*\* suelen ser fuentes comunes para los procesos ETL. Los datos extraídos de estas fuentes generalmente están estructurados y organizados en tablas, lo que facilita su extracción. 2\. \*\*Archivos de Texto y CSV\*\*: Archivos planos como \*\*CSV\*\*, \*\*JSON\*\*, \*\*XML\*\* o \*\*TXT\*\* son comunes en muchos procesos ETL. Estos archivos pueden contener datos en formato tabular o jerárquico, pero requieren procesamiento para ser transformados en un formato adecuado para el análisis. 3\. \*\*APIs\*\*: Las \*\*APIs (Interfaces de Programación de Aplicaciones)\*\* permiten acceder a datos de aplicaciones externas, como redes sociales, plataformas de comercio electrónico o sistemas de información. Los datos extraídos a través de una API generalmente están en formato JSON o XML. 4\. \*\*Sistemas de Almacenamiento en la Nube\*\*: Fuentes como \*\*Amazon S3\*\*, \*\*Google Cloud Storage\*\*, o \*\*Azure Blob Storage\*\* son muy utilizadas, ya que permiten almacenar grandes volúmenes de datos no estructurados que se pueden extraer para su procesamiento ETL. 5\. \*\*Sistemas NoSQL\*\*: Bases de datos NoSQL como \*\*MongoDB\*\*, \*\*Cassandra\*\*, o \*\*CouchDB\*\* son comunes cuando los datos no siguen una estructura rígida de tablas y relaciones. Estos sistemas pueden ser fuentes para datos semi-estructurados o no estructurados. 6\. \*\*Flujos de Datos en Tiempo Real\*\*: Los sistemas que generan datos en tiempo real, como los sensores IoT, o las plataformas de streaming como \*\*Apache Kafka\*\*, pueden ser fuentes de datos para procesos ETL de transmisión continua (streaming ETL), donde los datos son procesados en tiempo real en lugar de ser extraídos en lotes. \### Explicación de las Fuentes de Datos en el Contexto ETL: Las \*\*fuentes de datos\*\* son un componente crucial en los procesos ETL (Extract, Transform, Load), ya que son el primer paso para obtener la información necesaria para su análisis o almacenamiento. En este proceso: \- \*\*Extract (Extracción)\*\*: Se extraen los datos de las fuentes. Aquí es donde se encuentran las "sources" que alimentan el proceso. \- \*\*Transform (Transformación)\*\*: Los datos extraídos se limpian, se validan y se estructuran según sea necesario. \- \*\*Load (Carga)\*\*: Finalmente, los datos transformados se cargan en un sistema de destino, como un \*\*Data Warehouse\*\* o un \*\*Data Lake\*\*, donde pueden ser utilizados para análisis y reportes. \### Ejemplos de Fuentes Comunes en la Industria: \- En la \*\*industria financiera\*\*, las fuentes de datos pueden incluir bases de datos de transacciones bancarias, sistemas de tarjetas de crédito, APIs de pagos, etc. \- En la \*\*industria de salud\*\*, las fuentes pueden ser registros médicos electrónicos, dispositivos médicos, o incluso datos de investigación científica. \- En la \*\*industria petrolera\*\*, las fuentes de datos pueden ser sensores en los pozos de petróleo, sistemas de monitoreo de maquinaria, y bases de datos que contienen registros de producción. En resumen, las \*\*sources\*\* en un proceso ETL son todas aquellas plataformas, bases de datos, archivos, APIs o sistemas que proveen los datos que se van a extraer, transformar y cargar en el flujo de trabajo ETL. Estas fuentes son fundamentales porque determinan la calidad, cantidad y tipo de datos que se utilizarán en los análisis posteriores.