Manipulación de Datos con Python: De CSV a ETL Completo

Clase 2 de 24 • Curso de ETL e ingesta de datos con Python

Contenido del curso

Fundamentos de ETL con Python

Técnicas Efectivas de Transformación de Datos

Carga de Datos y Proyecto Final

Resumen

¿Cómo puede Python simplificar el manejo de datos desorganizados?

En el dinámico mundo empresarial, los datos llegan de diversas fuentes como hojas de Excel, bases de datos y APIs. Sin embargo, a menudo están desordenados, incompletos y caóticos. Para enfrentar este desafío, Python surge como una herramienta poderosa y versátil que facilita el manejo y organización de estos datos. Con solo unas pocas líneas de código, no solo puedes procesar datos de manera efectiva sino también prepararlos para un análisis más profundo. Vamos a explorar cómo.

¿Cómo empezar con Pandas en Python para gestionar datos?

Para comenzar a trabajar eficazmente con datos en Python, es esencial familiarizarse con la biblioteca Pandas. Esta herramienta es crucial para manipular y estructurar conjuntos de datos de una forma sencilla y directa. La manera más efectiva de ilustrar su uso es mediante Jupyter Notebook, un entorno muy utilizado para el análisis de datos.

En el siguiente ejemplo, veremos el proceso básico para importar un archivo CSV usando Pandas:

import pandas as pd

data = pd.read_csv('ruta/del/archivo/ventas.csv')  
print(data.head())

Importar Pandas: La primera línea de código importa la librería Pandas con el alias pd, permitiendo su uso directo y rápido en nuestro código.
Cargar el archivo CSV: Utilizamos la función read_csv() de Pandas para leer el archivo de ventas. Aquí, data es un objeto que guarda el DataFrame resultante del archivo CSV.
Visualizar los datos: Con data.head(), podemos observar las primeras filas del DataFrame, lo que nos da una representación inicial de cómo están estructurados nuestros datos.

¿Qué habilidades aprenderás en el curso de analítica de datos?

El curso no solo te instruye a trabajar con archivos CSV, sino que también abarca una variedad de otras fuentes de datos. La idea es capacitarte para construir flujos de ETL (Extract, Transform, Load) que conviertan datos desorganizados en información clara y lista para el análisis.

Manejo de diversas fuentes de datos: Aprenderás a integrar y procesar datos de archivos Excel, bases de datos y APIs, añadiendo versatilidad a tus habilidades de gestión de datos.
Construcción de flujos de ETL: Descubrirás cómo desarrollar pipelines de ETL robustos que automatizan la transformación y limpieza de datos, preparándolos para el análisis y almacenamiento eficiente.
Buenas prácticas: Incorporarás principios esenciales de manejo de datos que son demandados en el competitivo mundo profesional, asegurando que estás bien preparado para retos futuros.

¿Por qué Python es la mejor opción para transformar el caos en conocimiento?

Python, con su enfoque en la simplicidad y la claridad del código, es la elección preferida por analistas de datos para transformar datos desordenados en conocimiento valioso. Aquí algunos de los beneficios de usar Python para el manejo de datos:

Flexibilidad: Capaz de trabajar con múltiples tipos de datos y formatos, adaptándose a cualquier necesidad empresarial.
Comunidad activa: La vasta comunidad de usuarios proporciona recursos y bibliotecas adicionales que mejoran continuamente sus capacidades.
Automatización y eficiencia: Permite crear procesos automatizados que ahorran tiempo y minimizan errores humanos, incrementando la productividad.

Con Python y Pandas, tienes a tu disposición herramientas precisas para convertir el desorden en una estructura clara y útil. Si estás listo para transformar el caos de datos en información valiosa, vamos a comenzar este emocionante camino en el análisis de datos.

Comentarios

Edwin Castelblanco Sánchez

student•

Si los datos son el nuevo petróleo, este curso es la refinería. 🤯📊😎

Layla Scheli

teacher•

Gracias Edwin :)

Javier Ladino

student•

Si están trabajando COLAB pueden montar su unidad de Drive para llamar los datos así:

from google.colab import drive
drive.mount('/content/drive')
```Si los arrastran a la carpeta en el menu izquierdo, cuando cierren el notebook se borrarán los datos.

Fernando Jaime Arnold Montaña Rosas

student•

Genial. "Si los datos son el nuevo petróleo, este curso es tu refinería"

Layla Scheli

teacher•

Gracias Fernando, saludos :)

Eduardo Laguna Sánchez

student•

Muy bien! Qué interesante curso y muy agradable introducción, 👌!

Sebastián Reyes

student•

Excelente Inicio, muy emocionado de aprender de esta curso y de esta excelente profe Platzi!

Layla Scheli

teacher•

Gracias Sebastian, un abrazo :)

Yamid Horacio Rodríguez

student•

Buenas, interesante.

Layla Scheli

teacher•

Gracias Yamid, por tus palabras, saludos :)

Diego Mauricio Zuluaga Rodríguez

student•

Para usar Pandas en Python, primero debes instalar la biblioteca y luego importarla en tu código. Aquí tienes un ejemplo simple:

import pandas as pd

# Crear un DataFrame a partir de un diccionario
data = {
    'Producto': ['A', 'B', 'C'],
    'Precio': [100, 200, 300]
}
df = pd.DataFrame(data)

# Mostrar el contenido del DataFrame
print(df)

Pandas es crucial para el análisis de datos porque facilita la manipulación y el análisis de estructuras de datos complejas, permitiendo limpiar, transformar y visualizar datos de forma eficiente. Aprender Python te da herramientas poderosas para trabajar con datos, algo esencial en la analítica moderna.

William Alberto Paternina Romo

student•

Hice el ejercicio en pycharm.

# importamos pandas como biblioteca encargada de manipular datos
import pandas as pd

# leemos el archivo csv
data = pd.read_csv("datos/ventas.csv")

pd.set_option("display.max_rows", None) # muestra todas las filas

pd.set_option("display.max_columns", None) # muestra todas las columnas

pd.set_option("display.width", None) # evita el salto de línea automático

pd.set_option("display.max_colwidth", None) # muestra el contenido completo de cada celda

# mostramos por consola el archivo csv
print(data)

Javier González Domínguez

student•

Hay alguna diferencia de usar jupyter y g colab?

Enrique Alexis Lopez Araujo

student•

Jupyter Notebook y Google Colab son herramientas para ejecutar código en Python, pero tienen diferencias clave:

Acceso y almacenamiento: Jupyter se ejecuta localmente en tu máquina, mientras que Colab es una herramienta en línea que guarda tus proyectos en Google Drive.
Recursos computacionales: Colab ofrece acceso a GPUs y TPUs de forma gratuita, ideal para tareas de aprendizaje profundo, mientras que Jupyter depende de los recursos de tu computadora.
Colaboración: Colab permite compartir fácilmente tus notebooks y colaborar en tiempo real, mientras que Jupyter requiere configuración adicional para compartir.

Ambas son útiles, elige según tus necesidades.

Cristian Omar Rubio Ceja

student•

depende de tu situacion, en mi ya que cuento con una buena pc y no quiero tannto almacenamiento lo que suelo usar es docker para crear los enntorno y vscode con la extension de jupyter, dependeria ya de tu situacion como lo menciona Enrique ya sea de tus recursos de hardware y del caso del proyecto

Juan Sebastián Parrado Gutiérrez

student•

Si planean trabajar en VS Code, estos son los pasos que yo seguí para configurar el entorno

1. Creando entorno virtual con el comando Un entorno virtual es una carpeta que contiene una instalación aislada de Python junto con sus propias dependencias y paquetes. Sirve para evitar conflictos entre proyectos que usan diferentes versiones de librerías.

NOTA 1: Crear una carpeta con nombre sin espacios, si se desean espacios, usar raya al piso ( _ )

NOTA Crear entorno virtual y descargar librerías en la terminal "Powershell" para evitar problemas

python -m venv .venv
```Dentro de esa carpeta (.venv) podrán instalar paquetes con pip sin afectar el Python global de tu sistema.



1.1. Activar o desactivar el entorno virtual


\- Activar entorno virtual

Coloco ambas opciones. En mi caso, ambos comandos funcionan

Opción 1:

Tipo: archivo por lotes (.bat).

Usado por: la terminal Command Prompt (cmd.exe)

```txt
.\.venv\Scripts\activate
```Opción 2:

Tipo: script de PowerShell (.ps1).

Usado por: la terminal PowerShell

```txt
.\.venv\Scripts\Activate.ps1
```- Desactivar entorno virtual (cuando lo requieran)

```js
deactivate
````deactivate`

1.2. Descargando librerias en el entorno virtual

```txt
pip install numpy pandas matplotlib --no-cache-dir
```- Descargando librerías numpy, pandas y matplotlib

\- Se especifica que no guarde los paquetes descargados localmente. En su lugar, los paquetes se descargan directamente de internet y no se guardan en disco



1.2.1. ¿Qué significa guardar paquetes localmente?

Por defecto, pip guarda una copia de los archivos .whl o .tar.gz descargados en una carpeta de caché, para que si vuelves a instalar el mismo paquete, no tenga que descargarlo de nuevo. Sin embargo, esto puede llevar a tener paquetes desactualizados.

1.2.2. Actualizar pip

Después de descargar las librerías o paquetes, nos puede salir un anuncio para actualizar pip usando el siguiente comando:`python.exe -m pip install --`upgrade pip

```txt
python.exe -m pip install --upgrade pip
```1.2.3. Verificar librerias en entorno virtual

Revisamos que se hayan instalado pandas

```txt
pip list
```where python2. Configura el intérprete correcto en VS Code

Haz esto:

1\) Presiona Ctrl + Shift + P para abrir la paleta de comandos.

2\) Escribe en el buscador: Python: Select Interpreter.

3\) Elige el que apunta a:

.venv\Scripts\python.exe



3\. Verifica en tu terminal integrada de VS Code

```txt
where python
```Debe apuntar a tu .venv.

Por ejemplo:

\C:\Users\\\[Nombre\_de\_usuario]\Documents\Curso\_Platzi\\.venv\Scripts\python.exe

Juan Sebastián Parrado Gutiérrez

student•

Si planean trabajar en VS Code, estos son los pasos que yo seguí para configurar el entorno

NOTA 1: Crear una carpeta con nombre sin espacios, si se desean espacios, usar raya al piso ( _ )

NOTA Crear entorno virtual y descargar librerías en la terminal "Powershell" para evitar problemas

python -m venv .venv
```Dentro de esa carpeta (.venv) podrán instalar paquetes con pip sin afectar el Python global de tu sistema.



1.1. Activar o desactivar el entorno virtual


\- Activar entorno virtual

Coloco ambas opciones. En mi caso, ambos comandos funcionan

Opción 1:

Tipo: archivo por lotes (.bat).

Usado por: la terminal Command Prompt (cmd.exe)

```txt
.\.venv\Scripts\activate
```Opción 2:

Tipo: script de PowerShell (.ps1).

Usado por: la terminal PowerShell

```txt
.\.venv\Scripts\Activate.ps1
```- Desactivar entorno virtual (cuando lo requieran)

```js
deactivate
````deactivate`

1.2. Descargando librerias en el entorno virtual

```txt
pip install numpy pandas matplotlib --no-cache-dir
```- Descargando librerías numpy, pandas y matplotlib

\- Se especifica que no guarde los paquetes descargados localmente. En su lugar, los paquetes se descargan directamente de internet y no se guardan en disco



1.2.1. ¿Qué significa guardar paquetes localmente?

Por defecto, pip guarda una copia de los archivos .whl o .tar.gz descargados en una carpeta de caché, para que si vuelves a instalar el mismo paquete, no tenga que descargarlo de nuevo. Sin embargo, esto puede llevar a tener paquetes desactualizados.

1.2.2. Actualizar pip

Después de descargar las librerías o paquetes, nos puede salir un anuncio para actualizar pip usando el siguiente comando:`python.exe -m pip install --`upgrade pip

```txt
python.exe -m pip install --upgrade pip
```1.2.3. Verificar librerias en entorno virtual

Revisamos que se hayan instalado pandas

```txt
pip list
```where python2. Configura el intérprete correcto en VS Code

Haz esto:

1\) Presiona Ctrl + Shift + P para abrir la paleta de comandos.

2\) Escribe en el buscador: Python: Select Interpreter.

3\) Elige el que apunta a:

.venv\Scripts\python.exe



3\. Verifica en tu terminal integrada de VS Code

```txt
where python
```Debe apuntar a tu .venv.

Por ejemplo:

\C:\Users\\\[Nombre\_de\_usuario]\Documents\Curso\_Platzi\\.venv\Scripts\python.exe

Félix Alberto Gómez Fernández

student•

Buenas noches, estoy empezando en este mundo y quisiera saber si ¿este curso me sirve para arrancar

Layla Scheli

teacher•

No, es intermedio :)

Percy Tejada

student•

Siempre quise ser petrolero.... de datos! Excelente curso!

Layla Scheli

teacher•

Gracias Percy :)

Alex Puentes

student•

Un Jupyter Notebook es una aplicación web que permite crear y compartir documentos que contienen código en vivo, ecuaciones, visualizaciones y texto narrativo. Funciona como un entorno interactivo donde puedes escribir código en varios lenguajes, como Python, y ejecutarlo en tiempo real.

Cada celda puede contener diferentes tipos de contenido: código, texto en Markdown o visualizaciones. Los notebooks son útiles para el análisis de datos, la visualización y la presentación de resultados, facilitando la documentación y el flujo de trabajo en proyectos de ciencia de datos.

Layla Scheli

teacher•

Gracias Alex, por tu aportacion :)

Orlando Castellanos

student•

Estaba esperando este curso hasta que vi que es con lo misma metodologia del de java ,ese curso no gusto, aplaudo el experimento pero era aburrido y ver al profe escribir y/o explicar el codigo tiena algo que un curso narrado no transmite

Luis Tapia

student•

Al menos las últimas clases sí son grabadas 🤔

Layla Scheli

teacher•

Hola Orlando, gracias por tu feedback, son pruebas que se estan haciendo. Hay clases con IA y con profesor. Te invito a que las explores, saludos :)

import pandas as pd

# Crear un DataFrame a partir de un diccionario
data = {
    'Producto': ['A', 'B', 'C'],
    'Precio': [100, 200, 300]
}
df = pd.DataFrame(data)

# Mostrar el contenido del DataFrame
print(df)

# importamos pandas como biblioteca encargada de manipular datos
import pandas as pd

# leemos el archivo csv
data = pd.read_csv("datos/ventas.csv")

pd.set_option("display.max_rows", None) # muestra todas las filas

pd.set_option("display.max_columns", None) # muestra todas las columnas

pd.set_option("display.width", None) # evita el salto de línea automático

pd.set_option("display.max_colwidth", None) # muestra el contenido completo de cada celda

# mostramos por consola el archivo csv
print(data)

python -m venv .venv
```Dentro de esa carpeta (.venv) podrán instalar paquetes con pip sin afectar el Python global de tu sistema.

1.1. Activar o desactivar el entorno virtual

\- Activar entorno virtual

Coloco ambas opciones. En mi caso, ambos comandos funcionan

Opción 1:

Tipo: archivo por lotes (.bat).

Usado por: la terminal Command Prompt (cmd.exe)

```txt
.\.venv\Scripts\activate
```Opción 2:

Tipo: script de PowerShell (.ps1).

Usado por: la terminal PowerShell

```txt
.\.venv\Scripts\Activate.ps1
```- Desactivar entorno virtual (cuando lo requieran)

```js
deactivate
````deactivate`

1.2. Descargando librerias en el entorno virtual

```txt
pip install numpy pandas matplotlib --no-cache-dir
```- Descargando librerías numpy, pandas y matplotlib

\- Se especifica que no guarde los paquetes descargados localmente. En su lugar, los paquetes se descargan directamente de internet y no se guardan en disco

1.2.1. ¿Qué significa guardar paquetes localmente?

Por defecto, pip guarda una copia de los archivos .whl o .tar.gz descargados en una carpeta de caché, para que si vuelves a instalar el mismo paquete, no tenga que descargarlo de nuevo. Sin embargo, esto puede llevar a tener paquetes desactualizados.

1.2.2. Actualizar pip

Después de descargar las librerías o paquetes, nos puede salir un anuncio para actualizar pip usando el siguiente comando:`python.exe -m pip install --`upgrade pip

```txt
python.exe -m pip install --upgrade pip
```1.2.3. Verificar librerias en entorno virtual

Revisamos que se hayan instalado pandas

```txt
pip list
```where python2. Configura el intérprete correcto en VS Code

Haz esto:

1\) Presiona Ctrl + Shift + P para abrir la paleta de comandos.

2\) Escribe en el buscador: Python: Select Interpreter.

3\) Elige el que apunta a:

.venv\Scripts\python.exe

3\. Verifica en tu terminal integrada de VS Code

```txt
where python
```Debe apuntar a tu .venv.

Por ejemplo:

\C:\Users\\\[Nombre\_de\_usuario]\Documents\Curso\_Platzi\\.venv\Scripts\python.exe

python -m venv .venv
```Dentro de esa carpeta (.venv) podrán instalar paquetes con pip sin afectar el Python global de tu sistema.

1.1. Activar o desactivar el entorno virtual

\- Activar entorno virtual

Coloco ambas opciones. En mi caso, ambos comandos funcionan

Opción 1:

Tipo: archivo por lotes (.bat).

Usado por: la terminal Command Prompt (cmd.exe)

```txt
.\.venv\Scripts\activate
```Opción 2:

Tipo: script de PowerShell (.ps1).

Usado por: la terminal PowerShell

```txt
.\.venv\Scripts\Activate.ps1
```- Desactivar entorno virtual (cuando lo requieran)

```js
deactivate
````deactivate`

1.2. Descargando librerias en el entorno virtual

```txt
pip install numpy pandas matplotlib --no-cache-dir
```- Descargando librerías numpy, pandas y matplotlib

\- Se especifica que no guarde los paquetes descargados localmente. En su lugar, los paquetes se descargan directamente de internet y no se guardan en disco

1.2.1. ¿Qué significa guardar paquetes localmente?

Por defecto, pip guarda una copia de los archivos .whl o .tar.gz descargados en una carpeta de caché, para que si vuelves a instalar el mismo paquete, no tenga que descargarlo de nuevo. Sin embargo, esto puede llevar a tener paquetes desactualizados.

1.2.2. Actualizar pip

Después de descargar las librerías o paquetes, nos puede salir un anuncio para actualizar pip usando el siguiente comando:`python.exe -m pip install --`upgrade pip

```txt
python.exe -m pip install --upgrade pip
```1.2.3. Verificar librerias en entorno virtual

Revisamos que se hayan instalado pandas

```txt
pip list
```where python2. Configura el intérprete correcto en VS Code

Haz esto:

1\) Presiona Ctrl + Shift + P para abrir la paleta de comandos.

2\) Escribe en el buscador: Python: Select Interpreter.

3\) Elige el que apunta a:

.venv\Scripts\python.exe

3\. Verifica en tu terminal integrada de VS Code

```txt
where python
```Debe apuntar a tu .venv.

Por ejemplo:

\C:\Users\\\[Nombre\_de\_usuario]\Documents\Curso\_Platzi\\.venv\Scripts\python.exe

Manipulación de Datos con Python: De CSV a ETL Completo

Fundamentos de ETL con Python

Procesos ETL: Extracción, Transformación y Carga de Datos