Manipulación Avanzada de Datos con Python y Pandas

Clase 14 de 24 • Curso de ETL e ingesta de datos con Python

Contenido del curso

Fundamentos de ETL con Python

Técnicas Efectivas de Transformación de Datos

Carga de Datos y Proyecto Final

Resumen

¿Cómo aplicar técnicas avanzadas de manipulación de datos en Python?

La manipulación de datos es una habilidad fundamental para cualquier profesional que trabaje con grandes volúmenes de información. Con Python y sus bibliotecas potentes como Pandas, puedes llevar estas técnicas al siguiente nivel. En esta clase, descubrirás cómo aplicar transformaciones avanzadas utilizando funciones personalizadas, pivot tables, y diferentes métodos de 'join'. ¡Sumérgete en este fascinante mundo y descubre el poder de los datos!

¿Cómo leer y analizar múltiples archivos CSV?

Comencemos con una tarea básica pero crucial: leer archivos CSV. Para este ejemplo, trabajaremos con dos archivos CSV: uno con información de empleados y otro con datos de bonificaciones.

La estructura de ambos data frames puede visualizarse de la siguiente manera:

Empleados:
ID empleado
Nombre
Departamento
Salario
Fecha de ingreso
Bonificaciones:
ID empleado
Bonificación

Es esencial recordar que ambos archivos tienen una columna en común: el ID del empleado. Esta columna nos servirá para futuras operaciones de 'join' entre data frames.

import pandas as pd

empleados_df = pd.read_csv('empleados.csv')
bonificaciones_df = pd.read_csv('bonificaciones.csv')

print(empleados_df.head())
print(bonificaciones_df.head())

¿Cómo usar funciones personalizadas con el método apply?

El método apply te permite aplicar funciones personalizadas a las columnas de un data frame. Empezaremos creando una función sencilla para calcular el salario anual multiplicando el salario mensual por doce.

def salario_anual(salario):
    return salario * 12

empleados_df['Salario Anual'] = empleados_df['Salario'].apply(salario_anual)

Un ejemplo más avanzado es calcular la antigüedad de un empleado basándose en la fecha de ingreso. Creamos una función para verificar si un empleado tiene más de cinco años de antigüedad.

from datetime import datetime

def antiguedad_cinco_anos(fecha_ingreso):
    hoy = pd.to_datetime('today')
    antiguedad = (hoy - pd.to_datetime(fecha_ingreso)).days / 365
    return antiguedad > 5

empleados_df['Antigüedad > 5 Años'] = empleados_df['Fecha de ingreso'].apply(antiguedad_cinco_anos)

¿Qué son y cómo usar las tablas pivote (Pivot Tables)?

Las tablas pivote te permiten reorganizar los datos para obtener información agregada. En este contexto, generaremos una tabla que muestre el salario promedio por departamento.

tabla_pivote = empleados_df.pivot_table(values='Salario', index='Departamento', aggfunc='mean')
print(tabla_pivote)

¿Cómo integrar data frames usando Merge y Join?

Finalmente, exploraremos cómo combinar información de múltiples fuentes. Utilizaremos merge para combinar los archivos de empleados y bonificaciones usando el ID de empleado y el método 'left'.

df_merged = pd.merge(empleados_df, bonificaciones_df, on='ID empleado', how='left')

Podemos también configurar índices y realizar 'joins' adicionales usando la columna Departamento para integrar información de ubicaciones.

departamentos = {'Departamento': ['Ventas', 'IT', 'Recursos Humanos'],
                 'Ubicación': ['Madrid', 'Barcelona', 'Valencia']}
df_departamentos = pd.DataFrame(departamentos).set_index('Departamento')

df_combined = empleados_df.set_index('Departamento').join(df_departamentos)

Desafío práctico: ¿Cómo aplicar lo aprendido a un contexto real?

Ahora que entiendes cómo manipular data frames con técnicas avanzadas en Python, te lanzo un desafío. Supón que tienes datos de productos en una tienda. Crea una función que calcule el total de ventas multiplicando cantidad por precio, y otra que clasifique productos como baratos, medios o caros. Aplica el método apply para poner en práctica lo aprendido y comparte tus soluciones.

La manipulación de datos es un mundo con infinitas posibilidades y desafíos. ¡Sigue así, promoviendo y perfeccionando tus habilidades en este viaje extraordinario a través de los datos!

Comentarios

Andres Badillo

student•

Definir una función personalizada para calcular el total de ventas:

def total_ventas(row):

return row['precio'] * row['cantidad']

# Aplicar la función personalizada

df['Total_Ventas'] = df.apply(total_ventas, axis=1)

print("\nDataset con total ventas:")

print(df)

Definir la función de clasificación:

def clasificar_precio(precio):

if precio < 25:

return 'Barato'

elif 25 <= precio <= 50:

return 'Medio'

else:

return 'Caro'

# Aplicar la función a la columna 'precio'

df['Clasificación'] = df['precio'].apply(clasificar_precio)

print("\nDataset con clasificación de precios:")

print(df)

Layla Scheli

teacher•

Gracias Andres, buen trabajo :)

Enrique Alexis Lopez Araujo

student•

En el contexto de la clase sobre transformaciones avanzadas en Python, las funciones principales utilizadas son:

apply(): Permite aplicar una función a cada elemento de una columna en un DataFrame.
- Ejemplo:
```
df['salario_anual'] = df['salario'].apply(salario_anual)
```

merge(): Para combinar DataFrames basándose en columnas comunes.

Ejemplo:

df_combinado = empleados.merge(bonificaciones, on='ID_empleado', how='left')

pivot_table(): Para crear tablas dinámicas resumidas.

Ejemplo:

tabla_pivote = df.pivot_table(values='salario', index='departamento', aggfunc='mean')

Estas funciones son esenciales para manipular y transformar datos de manera efectiva en Python.

Javier Ladino

student•

# ---------------------------------------------
# 1. Crea una función que calcule el total de ventas multiplicando cantidad por precio, y otra que clasifique productos como baratos, 
# medios o caros. Aplica el método apply
# ---------------------------------------------

# Definir una función personalizada para calcular el total de ventas
def total_ventas(row):
    return row["precio"] * row["cantidad"]

# Aplicar la función personalizada a la columna 'precio' de df
df['Total_Ventas'] = df.apply(total_ventas, axis=1)

print("\nDataset con Total de ventas:")
print(df)

Dataset con Total de ventas:
   producto  precio  cantidad  Total_Ventas
0    Camisa    20.0         2          40.0
1  Pantalón    40.0         3         120.0
2   Zapatos    50.0         1          50.0
3  Sudadera    60.0         2         120.0
4  Sombrero    15.0         5          75.0

# ---------------------------------------------
# 2. Clasifique productos como baratos, medios o caros
# ---------------------------------------------
def clasificacion_precio(precio):
    if precio < 20:
        return "Barato"
    elif 30 >= precio < 50:
        return "Medio"
    else: 
        return "Caro"

# Aplicar la función personalizada a la columna 'precio' de df
df['Clasificación_Precio'] = df['precio'].apply(clasificacion_precio)

print("\nDataset con Clasificación de precio:")
print(df)

Dataset con Clasificación de precio:
   producto  precio  cantidad  Total_Ventas Clasificación_Precio
0    Camisa    20.0         2          40.0                Medio
1  Pantalón    40.0         3         120.0                 Caro
2   Zapatos    50.0         1          50.0                 Caro
3  Sudadera    60.0         2         120.0                 Caro
4  Sombrero    15.0         5          75.0               Barato

Karla Verónica Álvarez Vázquez

student•

Las "Transformaciones Avanzadas" se refieren a técnicas de manipulación de datos que permiten realizar operaciones complejas en conjuntos de datos. En el contexto de Python y bibliotecas como Pandas, puedes crear funciones personalizadas para aplicar transformaciones específicas, como calcular salarios anuales multiplicando el salario mensual por 12, o determinar la antigüedad de un empleado en función de su fecha de ingreso. También se utilizan tablas pivote para resumir datos, y funciones de merge o join para combinar diferentes data frames. Estas habilidades son cruciales en ingeniería de datos y ETL.

Aymer Ivan Obando Valois

student•

Las tablas PIVOTE son herramientas de análisis de datos que permiten resumir y reorganizar grandes conjuntos de datos. Su objetivo principal es facilitar la visualización y análisis de la información, permitiendo a los usuarios obtener insights rápidamente.

Se utilizan para calcular agregados, como promedios o sumas, y para desglosar datos a través de categorías, como mostrar el salario promedio por departamento. En esencia, ayudan a transformar datos complejos en representaciones más claras y comprensibles, optimizando la toma de decisiones.

Layla Scheli

teacher•

Gracias Aymer, por el resumen :)

BALFRE VAZQUEZ CASTREJON

student•

Los resultados de la practica mas otros calculos sencillos

# Calcular el subtotal

df['subtotal'] = df['cantidad'] * df['precio']

Descuento por precio del articulo

# Funcion para identificar el posible descuento

def descuento_x_precio(precio):

descuento = 0

if precio > 50:

descuento = 0.15

elif precio > 30:

descuento = 0.10

else:

descuento = 0.05

return descuento

df['Descuento'] = df['precio'].apply(descuento_x_precio)

Descuento por si adicional por si aplica mayoreo

df['Mayoreo'] = df['cantidad'] >= 5

# Funcion que puede user multiples columnas

def descuento_multiple(row):

descuento = 0

if row['precio'] > 50:

descuento = 0.15

elif row['precio'] > 30:

descuento = 0.10

else:

descuento = 0.05

if row['Mayoreo']:

descuento = descuento * 1.1

return descuento

df['Descuento_Acumulado'] = df.apply(descuento_multiple, axis=1)

Precio total del ticket

df['total'] = ( 1 - df['Descuento_Acumulado'] ) * df['subtotal']

Izyalyth Alvarez

student•

Practicando un poco lo visto en la clase:

#Ejercicio - Challenge x2
import pandas as pd

# Crear el DataFrame de ejemplo
data_articulos = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'precio': [20.0, 40.0, 50.0, 60.0, 15.0],
    'cantidad': [2, 3, 1, 2, 5]
}

print(pd.DataFrame(data_articulos, columns=['producto', 'precio', 'cantidad']))

data_promocion = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'promo': ['Si', 'No', 'Si', 'No', 'Si'],
    '%descuento': [20, 0, 30, 0, 15]
}

df_articulos_con_promocion = pd.merge(pd.DataFrame(data_articulos), pd.DataFrame(data_promocion), on='producto', how='left')

#df = pd.DataFrame(data)
print('\nProductos con promoción')
print(df_articulos_con_promocion)

data_cupones = {
	'producto': ['Camisa', 'Zapatos', 'Sombrero'],
    'cupón': [20, 10,  8]
}


df_productos_cupones = pd.DataFrame(data_cupones)

#Establecer index
df_productos_cupones.set_index('producto', inplace=True)

print('\nProductos que generan cupón')
print(df_productos_cupones)

df_join = df_articulos_con_promocion.set_index('producto').join(df_productos_cupones)

print('\nCompras con promoción que generan un cupón')
print(pd.DataFrame(df_join))

```![](https://static.platzi.com/media/user_upload/image-485f5cd1-c57b-4723-a914-5c11795fa1ba.jpg)

Izyalyth Alvarez

student•

Layla Scheli

teacher•

Gracias :)

Matias Kostiak

student•

Karen Yulieth Plazas Ramírez

student•

Este es el resultado del ejercicio; decidí añadir una función adicional para saber cuál es el producto más vendido:

data= {

"producto":["Camisa","Chaqueta","Pantalón","Zapatos","Medias"],

"precio":[45000,75000,65000,50000,7000],

"cantidad":[6,4,5,7,15]

}

df_tienda= pd.DataFrame(data)

def total_ventas(row):

return row["precio"]*row["cantidad"]

def producto_mas_vendido(cantidad):

return cantidad==df_tienda["cantidad"].max()

def clasificar_producto(precio):

cuartiles=df_tienda["precio"].quantile([0.33,0.66])

if precio<=cuartiles[0.33]:

return "Barato"

else:

if precio<=cuartiles[0.66]:

return "Medio"

else:

return "Caro"

#Definir el total de ventas

df_tienda["Total Ventas"]=df_tienda.apply(total_ventas, axis=1)

#Definir el producto más vendido

df_tienda["Producto Más Vendido"]=df_tienda["cantidad"].apply(producto_mas_vendido)

#Definir la clasificación del producto

df_tienda["Clasificacion Producto"]=df_tienda["precio"].apply(clasificar_producto)

#Mostrar dataframe final

print(df_tienda)

Haroldo Marroquin

student•

# función para calcular el total de ventas

def ventotal(df, columna_precio ='precio' , columna_cantidad ='cantidad'):
    total_ventas = (df[columna_precio] * df[columna_cantidad]).sum()
    return total_ventas

resultado = ventotal(df)
print(resultado)


# función para clacular si es barato, medio o caro 

def clasificacion(precio):
    if precio <16:
        return 'barato'
    elif  16 < precio <=40:
        return 'medio'
    else:
        return 'caro'
    
df['clasificacion'] = df['precio'].apply(clasificacion)
df

Carlos Orejuela

student•

Challenge:

# Calcular el total de ventas -> Cantidad * Precio
df["Total"] = df.apply(lambda x: x["precio"] * x["cantidad"], axis = 1)

# Clasificar el precio en [Barato, Medio, Caro]
def classify(price: float) -> str:
    """
    Clasificar un precio en barato, medio o caro.

    Args:
        price: float
            Precio del producto
    Returns:
        str
            Categoría.
    """
    if price <= 10:
        return "Barato"
    elif 10 < price <= 40:
        return "Medio"
    else:
        return "Caro"

df["Categoria"] = df["precio"].apply(classify)

Luis Leonardo Limon Santiago

student•

Mi soloucion es:

import pandas as pd
 
# Crear el DataFrame de ejemplo
data = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'precio': [20.0, 40.0, 50.0, 60.0, 15.0],
    'cantidad': [2, 3, 1, 2, 5]
}
 
df = pd.DataFrame(data)
print(df)

#Definir una función personalizada para calcular el total de ventas:

def total_ventas(precio, cantidad) -> float :
    return precio * cantidad

#Definir la función de clasificación barato medio y caro:
#realice una revision para tener un rango de precios en 3 segmentos
print(df["precio"].quantile([0.25, 0.75]))
def clasificacion_precios(precio) -> str:
    if precio <= 20:
        return "barato"
    elif precio > 20 and precio < 50 :
        return "medio"
    elif precio >= 50 :
        return"caro"
    return "no-manejado"


df["total_ventas"] = df.apply(lambda row: total_ventas(row["precio"], row["cantidad"]), axis=1)

df["clasificacion"] = df["precio"].apply(clasificacion_precios)

print("\nMostrando los campos nuevos calculados con funciones y apply:")
print(df)

Angélica Santamaría

student•

Definitivamente los join son poderosos al momento de unir df para realizar funciones que integre datos de diferentes df para obtener información valiosa.

Antonio Ramón Molina Simancas

student•

A continuación mi propuesta:

import pandas as pd
 
# Crear el DataFrame de ejemplo
data = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'precio': [20.0, 40.0, 50.0, 60.0, 15.0],
    'cantidad': [2, 3, 1, 2, 5]
}
 
df = pd.DataFrame(data)
print(df)

def total_ventas(cantidad, precio):
	return cantidad * precio

def clasificador(precio):
	if precio < 20:
		return 'Barato'
	elif precio < 50:
		return 'Medio'
	else:
		return 'Caro'

df['clasificación'] = df['precio'].apply(clasificador)

df['total_ventas'] = total_ventas(df['cantidad'], df['precio'])

print(df)
```import pandas as pd # Crear el DataFrame de ejemplodata = {    'producto': \['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],    'precio': \[20.0, 40.0, 50.0, 60.0, 15.0],    'cantidad': \[2, 3, 1, 2, 5]} df = pd.DataFrame(data)print(df)
def total\_ventas(cantidad, precio):    return cantidad \* precio
def clasificador(precio):    if precio < 20:        return 'Barato'    elif precio < 50:        return 'Medio'    else:        return 'Caro'
df\['clasificación'] = df\['precio'].apply(clasificador)
df\['total\_ventas'] = total\_ventas(df\['cantidad'], df\['precio'])
print(df)

juan camilo briceño arevalo

student•

def total_venta(row):
    return row["precio"] * row["cantidad"]

# Aplicar la función personalizada a la columna 'precio' de df
df['Total_Venta'] = df.apply(total_venta, axis=1)

print("\nDataset con Total de ventas:")
print(df)

Carlos Arteaga

student•

#Funcion para calcular el total
def calcular_total(precio, cantidad):
    return precio * cantidad

#Aplicar la funcion al DataFrame
df['total'] = df.apply(lambda x: calcular_total(x['precio'], x['cantidad']), axis=1)

#Mostrar el DataFrame con la nueva columna 'total'
print("\nDataFrame con la columna 'total' añadida:")
print(df)
```#Funcion para calcular el totaldef calcular\_total(precio, cantidad):    return precio \* cantidad
\#Aplicar la funcion al DataFramedf\['total'] = df.apply(lambda x: calcular\_total(x\['precio'], x\['cantidad']), axis=1)
\#Mostrar el DataFrame con la nueva columna 'total'print("\nDataFrame con la columna 'total' añadida:")print(df)

Carlos Arteaga

student•

# funcion que calcule si el precio es bataro, medio o caro
def precio_categoria(precio):
    if precio < 30:
        return 'Barato'
    elif precio < 50:
        return 'Medio'
    else:
        return 'Caro'
    
# Aplicar la función al DataFrame
df['categoria'] = df['precio'].apply(precio_categoria)

# Mostrar el DataFrame con la nueva columna 'categoria'
print("\nDataFrame con la columna 'categoria' añadida:")
print(df)
```# funcion que calcule si el precio es bataro, medio o carodef precio\_categoria(precio):    if precio < 30:        return 'Barato'    elif precio < 50:        return 'Medio'    else:        return 'Caro'    # Aplicar la función al DataFramedf\['categoria'] = df\['precio'].apply(precio\_categoria)
\# Mostrar el DataFrame con la nueva columna 'categoria'print("\nDataFrame con la columna 'categoria' añadida:")print(df)

Enrique Alexis Lopez Araujo

student•

Para el desafío de crear una función que calcule el total de ventas multiplicando el campo cantidad por precio, y otra que clasifique el producto como barato, medio o caro según el precio, puedes usar el siguiente código de Python:

import pandas as pd

# Supongamos que tienes un DataFrame llamado df con columnas 'cantidad' y 'precio'
df['total_ventas'] = df['cantidad'] * df['precio']

def clasificar_precio(precio):
    if precio < 20:
        return 'barato'
    elif 20 <= precio < 50:
        return 'medio'
    else:
        return 'caro'

df['clasificacion_precio'] = df['precio'].apply(clasificar_precio)

Este código crea dos nuevas columnas: total_ventas y clasificacion_precio en tu DataFrame.

Layla Scheli

teacher•

Gracias Enrique :) enhorabuena!

Mario Alexander Vargas Celis

student•

Las transformaciones avanzadas en Pandas te permiten modificar, transformar y limpiar los datos de una manera más compleja. Esto puede incluir el manejo de datos faltantes, combinaciones, segmentaciones, recodificaciones, o la creación de nuevas variables basadas en cálculos.

A continuación, te muestro algunas transformaciones avanzadas que puedes realizar con Pandas:

1. Manejo de Valores Faltantes

import pandas as pd import numpy as np

# Crear DataFrame de ejemplo con NaN valores data = { 'producto': ['A', 'B', 'C', 'A', 'B', None, 'A', 'B'], 'ventas': [100, 200, 300, 150, 250, None, 400, 300], } df = pd.DataFrame(data)

# Rellenar los valores faltantes con la media de la columna df['ventas'].fillna(df['ventas'].mean(), inplace=True) print("Valores faltantes rellenados:\n", df)

# Eliminar filas con valores faltantes df_sin_nan = df.dropna() print("\nFilas sin valores faltantes:\n", df_sin_nan)

2. Filtrar Datos por Condiciones

# Filtrar productos con ventas mayores a 200 productos_filtrados = df[df['ventas'] > 200] print("\nProductos con ventas mayores a 200:\n", productos_filtrados)

3. Recodificación de Variables

# Recodear una columna de texto df['producto_categoria'] = df['producto'].replace({'A': 'Electrónica', 'B': 'Muebles'}) print("\nRecodificación de categoría:\n", df)

4. Aplicar Funciones a Datos

# Aplicar una función personalizada para calcular el precio por cantidad df['precio_por_cantidad'] = df.apply(lambda x: x['ventas'] / 2 if pd.notnull(x['ventas']) else 0, axis=1) print("\nPrecio por cantidad:\n", df)

5. Crear Nuevas Variables Basadas en Condiciones

# Crear una nueva columna basada en condiciones df['ventas_categorias'] = np.where(df['ventas'] > 250, 'Alto', 'Bajo') print("\nVentas categorizadas:\n", df)

6. Agrupaciones y Transformaciones Combinadas

# Agrupar por producto y calcular la suma de ventas por producto grupo_suma = df.groupby('producto')['ventas'].sum() print("\nSuma de ventas por producto:\n", grupo_suma)

# Crear una nueva columna con el porcentaje de ventas por cada producto df['porcentaje_ventas'] = df['ventas'] / df['ventas'].sum() * 100 print("\nPorcentaje de ventas:\n", df)

7. Redefinir Índices

# Cambiar el índice del DataFrame a la columna 'producto' df.set_index('producto', inplace=True) print("\nÍndice cambiado:\n", df)

8. Ordenar Datos

# Ordenar el DataFrame por la columna de ventas en orden descendente df_ordenado = df.sort_values(by='ventas', ascending=False) print("\nDataFrame ordenado:\n", df_ordenado)

9. Combinación de Datos

# Crear un DataFrame adicional para la combinación data_extra = { 'producto': ['A', 'B', 'C', 'D'], 'precio_unitario': [10, 20, 15, 25] } df_extra = pd.DataFrame(data_extra)

# Fusionar ambos DataFrames por la columna 'producto' df_combinado = df.merge(df_extra, on='producto', how='left') print("\nDataFrame combinado:\n", df_combinado)

10. Transformación de Fechas

# Crear un DataFrame con fechas data_fecha = { 'fecha': ['2025-01-01', '2025-02-15', '2025-03-10'], 'ventas': [100, 200, 300] } df_fecha = pd.DataFrame(data_fecha)

# Convertir la columna 'fecha' a tipo datetime df_fecha['fecha'] = pd.to_datetime(df_fecha['fecha']) print("\nFechas transformadas:\n", df_fecha)

11. Normalización de Datos

from sklearn.preprocessing import MinMaxScaler

# Normalizar la columna de ventas scaler = MinMaxScaler() df['ventas_normalizadas'] = scaler.fit_transform(df[['ventas']]) print("\nDatos normalizados:\n", df)

12. Resampling y Agregaciones por Fechas

# Crear un DataFrame adicional con fechas data_fecha = { 'fecha': pd.date_range(start='2025-01-01', periods=6, freq='M'), 'ventas': [100, 200, 300, 150, 250, 350] } df_fecha = pd.DataFrame(data_fecha)

# Resamplear para calcular la suma mensual de ventas df_resampleado = df_fecha.set_index('fecha').resample('M').sum() print("\nResampleado mensual:\n", df_resampleado)

Estas transformaciones avanzadas son clave para trabajar con datos de manera eficiente y extraer información valiosa para los análisis.

Hernán Pizarro

student•

Hola, cual es la diferencia entre Merge y Join?

Platzi

student•

Merge y Join son dos maneras de trabajar con conjuntos de datos. Se diferencian por la forma en que se pueden establecer las cláusulas y métodos para combinar los datos, como left, inner, right o outer join.

# ---------------------------------------------
# 1. Crea una función que calcule el total de ventas multiplicando cantidad por precio, y otra que clasifique productos como baratos, 
# medios o caros. Aplica el método apply
# ---------------------------------------------

# Definir una función personalizada para calcular el total de ventas
def total_ventas(row):
    return row["precio"] * row["cantidad"]

# Aplicar la función personalizada a la columna 'precio' de df
df['Total_Ventas'] = df.apply(total_ventas, axis=1)

print("\nDataset con Total de ventas:")
print(df)

Dataset con Total de ventas:
   producto  precio  cantidad  Total_Ventas
0    Camisa    20.0         2          40.0
1  Pantalón    40.0         3         120.0
2   Zapatos    50.0         1          50.0
3  Sudadera    60.0         2         120.0
4  Sombrero    15.0         5          75.0

# ---------------------------------------------
# 2. Clasifique productos como baratos, medios o caros
# ---------------------------------------------
def clasificacion_precio(precio):
    if precio < 20:
        return "Barato"
    elif 30 >= precio < 50:
        return "Medio"
    else: 
        return "Caro"

# Aplicar la función personalizada a la columna 'precio' de df
df['Clasificación_Precio'] = df['precio'].apply(clasificacion_precio)

print("\nDataset con Clasificación de precio:")
print(df)

Dataset con Clasificación de precio:
   producto  precio  cantidad  Total_Ventas Clasificación_Precio
0    Camisa    20.0         2          40.0                Medio
1  Pantalón    40.0         3         120.0                 Caro
2   Zapatos    50.0         1          50.0                 Caro
3  Sudadera    60.0         2         120.0                 Caro
4  Sombrero    15.0         5          75.0               Barato

#Ejercicio - Challenge x2
import pandas as pd

# Crear el DataFrame de ejemplo
data_articulos = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'precio': [20.0, 40.0, 50.0, 60.0, 15.0],
    'cantidad': [2, 3, 1, 2, 5]
}

print(pd.DataFrame(data_articulos, columns=['producto', 'precio', 'cantidad']))

data_promocion = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'promo': ['Si', 'No', 'Si', 'No', 'Si'],
    '%descuento': [20, 0, 30, 0, 15]
}

df_articulos_con_promocion = pd.merge(pd.DataFrame(data_articulos), pd.DataFrame(data_promocion), on='producto', how='left')

#df = pd.DataFrame(data)
print('\nProductos con promoción')
print(df_articulos_con_promocion)

data_cupones = {
	'producto': ['Camisa', 'Zapatos', 'Sombrero'],
    'cupón': [20, 10,  8]
}


df_productos_cupones = pd.DataFrame(data_cupones)

#Establecer index
df_productos_cupones.set_index('producto', inplace=True)

print('\nProductos que generan cupón')
print(df_productos_cupones)

df_join = df_articulos_con_promocion.set_index('producto').join(df_productos_cupones)

print('\nCompras con promoción que generan un cupón')
print(pd.DataFrame(df_join))

```![](https://static.platzi.com/media/user_upload/image-485f5cd1-c57b-4723-a914-5c11795fa1ba.jpg)

# función para calcular el total de ventas

def ventotal(df, columna_precio ='precio' , columna_cantidad ='cantidad'):
    total_ventas = (df[columna_precio] * df[columna_cantidad]).sum()
    return total_ventas

resultado = ventotal(df)
print(resultado)


# función para clacular si es barato, medio o caro 

def clasificacion(precio):
    if precio <16:
        return 'barato'
    elif  16 < precio <=40:
        return 'medio'
    else:
        return 'caro'
    
df['clasificacion'] = df['precio'].apply(clasificacion)
df

# Calcular el total de ventas -> Cantidad * Precio
df["Total"] = df.apply(lambda x: x["precio"] * x["cantidad"], axis = 1)

# Clasificar el precio en [Barato, Medio, Caro]
def classify(price: float) -> str:
    """
    Clasificar un precio en barato, medio o caro.

    Args:
        price: float
            Precio del producto
    Returns:
        str
            Categoría.
    """
    if price <= 10:
        return "Barato"
    elif 10 < price <= 40:
        return "Medio"
    else:
        return "Caro"

df["Categoria"] = df["precio"].apply(classify)

import pandas as pd
 
# Crear el DataFrame de ejemplo
data = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'precio': [20.0, 40.0, 50.0, 60.0, 15.0],
    'cantidad': [2, 3, 1, 2, 5]
}
 
df = pd.DataFrame(data)
print(df)

#Definir una función personalizada para calcular el total de ventas:

def total_ventas(precio, cantidad) -> float :
    return precio * cantidad

#Definir la función de clasificación barato medio y caro:
#realice una revision para tener un rango de precios en 3 segmentos
print(df["precio"].quantile([0.25, 0.75]))
def clasificacion_precios(precio) -> str:
    if precio <= 20:
        return "barato"
    elif precio > 20 and precio < 50 :
        return "medio"
    elif precio >= 50 :
        return"caro"
    return "no-manejado"


df["total_ventas"] = df.apply(lambda row: total_ventas(row["precio"], row["cantidad"]), axis=1)

df["clasificacion"] = df["precio"].apply(clasificacion_precios)

print("\nMostrando los campos nuevos calculados con funciones y apply:")
print(df)

import pandas as pd
 
# Crear el DataFrame de ejemplo
data = {
	'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],
	'precio': [20.0, 40.0, 50.0, 60.0, 15.0],
    'cantidad': [2, 3, 1, 2, 5]
}
 
df = pd.DataFrame(data)
print(df)

def total_ventas(cantidad, precio):
	return cantidad * precio

def clasificador(precio):
	if precio < 20:
		return 'Barato'
	elif precio < 50:
		return 'Medio'
	else:
		return 'Caro'

df['clasificación'] = df['precio'].apply(clasificador)

df['total_ventas'] = total_ventas(df['cantidad'], df['precio'])

print(df)
```import pandas as pd # Crear el DataFrame de ejemplodata = {    'producto': \['Camisa', 'Pantalón', 'Zapatos', 'Sudadera', 'Sombrero'],    'precio': \[20.0, 40.0, 50.0, 60.0, 15.0],    'cantidad': \[2, 3, 1, 2, 5]} df = pd.DataFrame(data)print(df)
def total\_ventas(cantidad, precio):    return cantidad \* precio
def clasificador(precio):    if precio < 20:        return 'Barato'    elif precio < 50:        return 'Medio'    else:        return 'Caro'
df\['clasificación'] = df\['precio'].apply(clasificador)
df\['total\_ventas'] = total\_ventas(df\['cantidad'], df\['precio'])
print(df)

def total_venta(row):
    return row["precio"] * row["cantidad"]

# Aplicar la función personalizada a la columna 'precio' de df
df['Total_Venta'] = df.apply(total_venta, axis=1)

print("\nDataset con Total de ventas:")
print(df)

#Funcion para calcular el total
def calcular_total(precio, cantidad):
    return precio * cantidad

#Aplicar la funcion al DataFrame
df['total'] = df.apply(lambda x: calcular_total(x['precio'], x['cantidad']), axis=1)

#Mostrar el DataFrame con la nueva columna 'total'
print("\nDataFrame con la columna 'total' añadida:")
print(df)
```#Funcion para calcular el totaldef calcular\_total(precio, cantidad):    return precio \* cantidad
\#Aplicar la funcion al DataFramedf\['total'] = df.apply(lambda x: calcular\_total(x\['precio'], x\['cantidad']), axis=1)
\#Mostrar el DataFrame con la nueva columna 'total'print("\nDataFrame con la columna 'total' añadida:")print(df)

# funcion que calcule si el precio es bataro, medio o caro
def precio_categoria(precio):
    if precio < 30:
        return 'Barato'
    elif precio < 50:
        return 'Medio'
    else:
        return 'Caro'
    
# Aplicar la función al DataFrame
df['categoria'] = df['precio'].apply(precio_categoria)

# Mostrar el DataFrame con la nueva columna 'categoria'
print("\nDataFrame con la columna 'categoria' añadida:")
print(df)
```# funcion que calcule si el precio es bataro, medio o carodef precio\_categoria(precio):    if precio < 30:        return 'Barato'    elif precio < 50:        return 'Medio'    else:        return 'Caro'    # Aplicar la función al DataFramedf\['categoria'] = df\['precio'].apply(precio\_categoria)
\# Mostrar el DataFrame con la nueva columna 'categoria'print("\nDataFrame con la columna 'categoria' añadida:")print(df)

import pandas as pd

# Supongamos que tienes un DataFrame llamado df con columnas 'cantidad' y 'precio'
df['total_ventas'] = df['cantidad'] * df['precio']

def clasificar_precio(precio):
    if precio < 20:
        return 'barato'
    elif 20 <= precio < 50:
        return 'medio'
    else:
        return 'caro'

df['clasificacion_precio'] = df['precio'].apply(clasificar_precio)

Manipulación Avanzada de Datos con Python y Pandas

Fundamentos de ETL con Python

Procesos ETL: Extracción, Transformación y Carga de Datos

Manipulación de Datos con Python: De CSV a ETL Completo

Fuentes de Datos: Archivos, Bases de Datos y APIs en Análisis de Ventas

Instalación de Anaconda y Jupyter para Procesamiento de Datos

Técnicas Efectivas de Transformación de Datos

Lectura y Exploración de Archivos CSV con Pandas en Python

Manejo de Archivos Excel con Pandas para Procesos ETL

Ingesta de Datos desde APIs con Python

Conexión y consulta de bases de datos en Python con SQLite3 y SQLAlchemy

Series y DataFrames en Pandas: Diferencias y Usos Prácticos

Métricas Clave en el Perfilado de Datos para Análisis de Calidad

Limpieza de Datos en Python con Pandas

Filtrado, Selección y Transformación de Datos con Pandas

Agrupación y Resumen de Datos con Pandas

Manipulación Avanzada de Datos con Python y Pandas

Carga de Datos y Proyecto Final

Exportación de DataFrames a CSV con Pandas paso a paso

Gestión de Datos: Carga Completa vs. Carga Incremental en Python

Partición de Datos en Archivos CSV con Pandas

Carga Incremental de Datos en Archivos Excel con Python

Importación de la Base de Datos Sakila en MySQL Workbench

Transformaciones de Datos ETL con Python y MySQL

Transformaciones de Datos con Python y SQL

Buenas prácticas y errores comunes en procesos ETL

Carga y Validación de Datos en Sakila ETL con Python y SQL

Fundamentos de ETL con Python: Extracción, Transformación y Carga de Datos