A quienes les salio el error ModuleNotFoundError: No module named ‘psycopg2’
Puedes instalar el modulo de la siguiente manera:
pip install psycopg2
Luego de ello reinician el Kernell y siguien con la clase!
Introducción a ETL
¿Qué es un ETL en ingeniería de datos?
Conceptos base de ETL
Consideraciones de ETL
Servicios y herramientas para ETL
Quiz: Introducción a ETL
Extracción de datos
Sources
Configuración de base de datos source y entorno para ETL en Python
Extracción de datos con Python y Pandas
Quiz: Extracción de datos
Transformación de datos
Transformación
Transformación de datos con Python y Pandas
Transformación de datos de países
Transformación de datos de transacciones
Quiz: Transformación de datos
Carga de datos
Carga
Configuración de clúster en AWS Redshift
Crear tablas en AWS Redshift
Carga de datos con Python
Estructurar sentence para carga de datos de S3 a Redshift
Carga de datos: subida de archivos a AWS Redshift
Quiz: Carga de datos
ETL con Pentaho
Instalación de Pentaho
Extracción de datos con Pentaho
Transformación de datos con Pentaho
Transformación de datos con Pentaho: parte 2
Transformación de datos con Pentaho: parte 3
Carga de datos con Pentaho
Quiz: ETL con Pentaho
Conclusión
Siguientes pasos
Comparte tu proyecto de ETL y obtén tu certificado
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 5
Preguntas 3
A quienes les salio el error ModuleNotFoundError: No module named ‘psycopg2’
Puedes instalar el modulo de la siguiente manera:
pip install psycopg2
Luego de ello reinician el Kernell y siguien con la clase!
No me cargan los datos, ni siquiera por lotes :C
Les comento que tardaran un poco en leerla. Yo como prueba le puse un LIMIT (no se si afectara en algo) a la secuencia SQL para que leyera mas o menos un 40% de toda la base datos y tarde 22 minutos en leerla desde VScodium.
La carga de datos por lotes puede ser muy útil para aquellas personas que tienen limitaciones de memoria en su equipo y no pueden cargar grandes conjuntos de datos en la memoria de una sola vez. Al cargar los datos en pequeñas porciones, la carga por lotes permite procesar los datos de manera más eficiente y sin agotar los recursos de memoria del equipo. Por lo tanto, si tienes limitaciones de memoria en tu equipo, te recomiendo que consideres la carga por lotes para procesar grandes conjuntos de datos.
# Conexión a la base de datos PostgreSQL
conn = pg.connect(
host="localhost",
database="postgres",
user="postgres",
password="password"
)
# Consulta SQL para seleccionar los datos
query = "SELECT * FROM trades"
# Tamaño del lote para cargar los datos
chunk_size = 1000
# Crear un generador de pandas para leer los datos en lotes
trades_generator = pd.read_sql_query(query, conn, chunksize=chunk_size)
# Concatenar los DataFrames de los lotes en uno solo
trades_df = pd.concat(trades_generator)
# Mostrar las primeras 5 filas del DataFrame completo
trades_df.head()
Si les sale el error: ‘OptionEngine’ object has no attribute 'execute’
Les dejo este tutorial para poder resolverlo: Link
Esto pasa debido a que la nueva versión de SQLAlchemy 2.0.0 eliminó el método Engine.execute que era utilizado por la función read_sql_query de pandas.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.