Para cargar los datos a la tabla les recomiendo dividan el archivo SQL en varios archivos más pequeños e ir cargándolos uno a uno, puesto que el script tiene más de 6 millones de filas y esto puede colgar nuestro pc
Ejemplo de un compañero
Introducción a ETL
¿Qué es un ETL en ingeniería de datos?
Conceptos base de ETL
Consideraciones de ETL
Servicios y herramientas para ETL
Quiz: Introducción a ETL
Extracción de datos
Sources
Configuración de base de datos source y entorno para ETL en Python
Extracción de datos con Python y Pandas
Quiz: Extracción de datos
Transformación de datos
Transformación
Transformación de datos con Python y Pandas
Transformación de datos de países
Transformación de datos de transacciones
Quiz: Transformación de datos
Carga de datos
Carga
Configuración de clúster en AWS Redshift
Crear tablas en AWS Redshift
Carga de datos con Python
Estructurar sentence para carga de datos de S3 a Redshift
Carga de datos: subida de archivos a AWS Redshift
Quiz: Carga de datos
ETL con Pentaho
Instalación de Pentaho
Extracción de datos con Pentaho
Transformación de datos con Pentaho
Transformación de datos con Pentaho: parte 2
Transformación de datos con Pentaho: parte 3
Carga de datos con Pentaho
Quiz: ETL con Pentaho
Conclusión
Siguientes pasos
Comparte tu proyecto de ETL y obtén tu certificado
Lectura
¡Hola! En esta clase conocerás cómo configurar una base de datos con SQL, que será una de las 3 fuentes para extraer datos en el proyecto de ETL. Las otras dos fuentes son un archivo JSON y otro CSV que conocerás en clases posteriores.
...
Regístrate o inicia sesión para leer el resto del contenido.
Aportes 7
Preguntas 4
Para cargar los datos a la tabla les recomiendo dividan el archivo SQL en varios archivos más pequeños e ir cargándolos uno a uno, puesto que el script tiene más de 6 millones de filas y esto puede colgar nuestro pc
Ejemplo de un compañero
Buenas, Si desean y deciden utilizar DataSpell existe la licencia libre por 1 año para estudiantes, aqui esta el enlace para mas info.
Comparto esta nota, donde destaca lo bueno y lo malo de DataSpell como herramienta.
No pude configurar la Base de Datos, siempre me pasa que no logro entender este tipo de instrucciones y ahi quedo estancada con la parte practica.
Después de varios intentos de tratar de conectarme a la base de datos con el Notebook y DBeaver me daban errores, lo que me solucionó fue cambiar de
-p 5432:5432
a
-p 5433:5432
(Es lo mismo si tiene un docker-compose)
Imagino que mi instalación local de Postgres sin Docker ya estaba ocupando el puerto 5432, entonces utilicé el 5433.
Buenas tardes, me gustaría se agregaran las versiones especificas que se están usando para maximizar la reproducibilidad del curso
al correr el contenedor con la imagen postgres va a tomar la que se encuentre como latest, PERO con el tiempo puede llegar a ser incompatible el código, seria bueno que le agreguen el tag de la imagen correcta
Postgres usando un archivo docker-compose
version: "3"
services:
postgres:
image: postgres
container_name: postgres
ports:
- "5432:5432"
volumes:
- postgres-volume:/var/lib/postgresql/data
environment:
- POSTGRES_PASSWORD=mysecretpass
volumes:
postgres-volume:
Para ejecutar el script use DBeaver
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.