No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Siguientes pasos

24/25
Recursos

Nombre del curso: Curso de Fundamentos de ETL con Python y Pentaho
Dean:聽Sebasti谩n Delmont
School Owner: Carlos Alarc贸n
Profesor: Carlos Alarc贸n
Direcci贸n: Miguel Torres
Producci贸n OPS: Lizeth C谩ceres y Roc铆o Mart铆nez
Creaci贸n audiovisual: Camilo Lamilla Tamayo
Edici贸n de video: Pablo Val猫s
Postproducci贸n de audio: Jorge Andres Torres Viveros
Dise帽o gr谩fico: Daniel Ordo帽ez
Coordinaci贸n General: Andr茅s Arizmendy, Daniel Guti茅rrez, Carol Baquero, Carlos C茅spedes y Sura Cede帽o
Revisi贸n: Rub茅n Cuello y Natalia Moreno Espinoza

Aportes 11

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

el curso de Airflow es como un hola mundo, no se ejecutan los trabajos en un servidor aparte, y los trabajos son como print(鈥減ython operator鈥), seria genial una parte II con un proceso de ETL orquestado con Airflow

seria mejor aun si integran mas cursos por ejemplo con fastAPI y supongo docker para la automatizacion del proceso de pandas

y seria un plus muy grande se paralelizen trabajos, vi que hace unos a帽os hicieron un curso de Celery pero debe rehacerse esta algo mal enfocado

POR FAVOR si llegan a hacer algo de esto que no sea como esos laboratorios que hizo Ricardo Alanis, ej Laboratorio de Machine Learning: Puesta en Producci贸n de Modelos

con 3 minutos de video tipo libro de auto ayuda de excelente aporte sin aportar nada 鈥 Eso y nada es lo mismo

Dejo mi repositorio con el c贸digo del curso:
Repositorio 馃槃

Por cierto, estar茅 encantado de compartir mis apuntes con todos los compa帽eros, que lo requieran y de recibir sus aportaciones (positivas). Mi repositorio es:

https://github.com/ddasilva64/ETLPPT23001esp

隆Gracias a todos!

Tambi茅n les comparto mi proyecto

馃敆 My U.S. Departures ETL (2022)

  • Cree un proyecto desde cero inspirado en este curso.

  • Si tienen sugerencias, feedback positivo, de mejora, preguntas o cualquier comentario es todo bienvenido. Pueden hacer fork o clonarlo 馃槂

  • Le agregu茅 algunas cosas como Pandera, una herramienta para validar datos y tipos de datos en data frames de Pandas.

  • Le agregu茅 un Prework para que fuera como este curso (lo mismo que hizo el profe Carlos):

    • En este caso el dataset original son 5 CSV鈥檚
    • Tom茅 dos CSV鈥檚, el principal lo lleve a una base datos Postgres y el otro lo lleve a un JSON. De manera que la fuente de datos sea diversa.

He afrontado este curso con unos fines muy concretos:

  • Obtener herramientas m谩s adecuadas que SQL y procesos batch en JAVA, para obtener datos
  • Conseguir herramientas, con las que montar un almac茅n de datos centralizado para varios sistemas de explotaci贸n de los mismos (varios cuadros de mando en Power BI, sistemas de reporting, etc). Inevitablemente necesito centralizar m茅tricas y medidas para varios sistemas, es decir, necesito centralizar l贸gica de negocio
  • Conseguir herramientas para automatizar procesos de extracci贸n, transformaci贸n y carga de datos
  • Conseguir sistemas para que la maldita BD pase a ser una shit de un bull perteneciente a la megafauna, a un sistema l贸gico y l铆mpio y adem谩s que incorpore toda es legi贸n de insectos (Excels, docs, ficheros, tablas de sitios web, etc), que revolotean por la organizaci贸n.

Todo lo anterior lo comienzo a trabajar en un proyecto con datos p煤blicos, en un sector de negocio alejado de mi realidad (para no herir sensibilidades), pero que resolver谩 los mismos problemas鈥

Gracias Carlos, por la ventanita que t煤 has abierto, veo herramientas para hacerlo. 隆Ahora es cosa m铆a!

test rrrespuestas-- **Resumen**1.驴Qu茅 significa ETL en ingenier铆a de datos?ETL es un acr贸nimo que significa "Extracci贸n, Transformaci贸n y Carga", un proceso utilizado para integrar datos de m煤ltiples fuentes en un solo destino.2. 驴Cu谩l es la importancia de **ETL en ingenier铆a de datos**? ETL es importante en ingenier铆a de datos porque permite a los profesionales de datos integrar y consolidar datos de m煤ltiples fuentes, lo que mejora la calidad y la eficacia de los an谩lisis y toma de decisiones.3. 驴Cu谩l es la **diferencia entre el source y el target en una ETL**? El source se refiere a la fuente de datos donde se extraen los datos para la transformaci贸n y carga en el target, que es el destino final de los datos.4. 驴Cu谩l es la **diferencia entre un data warehouse y un data lake** en t茅rminos de **ETL**? En un data warehouse el proceso de ETL se centra en la integraci贸n y transformaci贸n de datos estructurados y almacenados en diferentes sistemas, para crear un conjunto de datos coherente y consolidado. En un data lake, el proceso de ETL se enfoca en la ingesti贸n y almacenamiento de datos en su forma m谩s cruda, sin aplicar transformaciones significativas hasta que se requieran para un an谩lisis espec铆fico. 5.驴Siempre es mejor que una ETL se realice en streaming y no en procesos batch?Falso, depende de la misma naturaleza y necesidades del proyecto.6. Un ETL netamente **desarrollada desde cero en Python u otro lenguaje**, 驴de qu茅 tipo se puede considerar? Custom7.Es algo a tener en cuenta al momento de usar sources en un proceso de ETL.Considerar la calidad y consistencia de los datos.REPASAR CLASE8. 驴C贸mo afecta la **frecuencia de extracci贸n** de las fuentes en una ETL? Si la frecuencia es muy baja, es posible que se pierdan datos recientes, mientras que una frecuencia demasiado alta puede causar una sobrecarga en el sistema y afectar el rendimiento. 9.La extracci贸n de datos en Python solo la debo manejar con la librer铆a de Pandas. 驴Esto es verdadero o falso?Falso, si bien es una librer铆a perfecta para la manipulaci贸n de datos existen otras librer铆as que podemos usar.10. 驴Cu谩l es la mejor estrategia para **manejar duplicados en una ETL**? La mejor estrategia para manejar duplicados en una ETL es utilizar una combinaci贸n de t茅cnicas como la eliminaci贸n de duplicados, la unificaci贸n de registros y la consolidaci贸n de datos.11. 驴Qu茅 hace esta l铆nea de c贸digo de Pandas? `df_codes[['clean_code','parent_description']] = df_codes.apply(lambda x : clean_code(x['Code']),axis=1, result_type='expand'`) Asigna a dos columnas de un DataFrame (df\_codes) los resultados de aplicar una funci贸n lambda (clean\_code) a la columna "Code" de dicho DataFrame, para cada fila.12. 驴Qu茅 hace esta l铆nea de c贸digo de Pandas en el DataFrame? `df_countries = df_countries[df_countries['alpha-3'`].notnull()] Filtra el DataFrame 'df\_countries' para eliminar todas las filas donde la columna 'alpha-3' tiene un valor nulo.13. 驴Cu谩l es la raz贸n de crear esta **funci贸n en Python para una transformaci贸n de datos**? `defcreate_dimension(data, id_name):` list\_keys = \[] ` value = 1` ` for _ in` data: list\_keys.append(value) ` value = value + 1` ` return pd.DataFrame({id_name:list_keys, 'values'`:data}) Una manera eficiente de crear un DataFrame con valores 煤nicos de posibles dimensiones o valores categ贸ricos.14. 驴Cu谩l es la importancia del **formato de los datos en el proceso de carga** en una ETL? El formato de los datos es esencial en el proceso de carga de una ETL, ya que determina c贸mo se pueden manipular y transformar los datos durante la fase de transformaci贸n.15. 驴Cu谩l es la **librer铆a en Python** para gestionar el uso de **AWS**? boto316.Desde Python 煤nicamente se puede gestionar carga a data warehouses de AWS como Redshift. 驴Esto es verdadero o falso?Verdadero, ya que solo existen librer铆as de Python para comunicarse con AWS.REPASAR CLASE17. 驴Qu茅 **herramienta de Pentaho** debe usarse para leer datos de una **tabla en una base de datos**? Input Table18. 驴Cu谩l es el prop贸sito del paso **Select values** en Pentaho PDI? Se utiliza para seleccionar y renombrar columnas espec铆ficas de un conjunto de datos.19. 驴Cu谩l es el prop贸sito del paso **Filter rows** en Pentaho PDI? Filtrar filas espec铆ficas de un conjunto de datos en funci贸n de una o m谩s condiciones.20.驴En Pentaho solo puedo hacer un cargue de datos a bases de datos relacionales?No, hay m煤ltiples target no relacionales a los que puedo cargar.Ver menos

Gracias Carlos, por este excelente curso. 隆Eres genial!.
Como siempre, personas geniales como t煤, nos abren una ventanita a una luz diferente. Gracias Carlos y gracias Platzi team.

Ha sido un reto muy grande poder terminar el curso. Afortunadamente pude resolver todo excepto la carga de datos hacia Redshift. Me daba un [Err 61] que imped铆a la conexi贸n con los puertos, verificaba que la configuraci贸n fuera la correcta y seg煤n yo estaba bien. Volv铆a a hacer todo de nuevo (tambi茅n para repasar) pero me sali贸 exactamente el mismo error. Despu茅s de varios d铆as termin茅 por cargar los datos a una BD en postgres. Creo que fue alg煤n error que comet铆 a la hora de configurar el cl煤ster en AWS (o quiz谩s el bucket) y no me di cuenta. En fin. Ahora estoy haciendo un curso alternativo en udemy para tener bases m谩s s贸lidas respecto a cuestiones de AWS y cuando las tenga pienso volver a intentar hacer la carga. A pesar de los errores he aprendido bastante.

24. Siguientes pasos

  • Orquestar. Apache airflow

Gracias Carlos por este curso, junto con el de Airflow me permitieron conseguir mi primer trabajo como Data Engineer

Aqui les dejo mi humilde proyecto con lo aprendido en el curso. No es mucho, pero es trabajo honesto 馃槄.