Transformaciones y Manipulación de Datos con Pandas en Python

Cursos Empresas Blog Live Conf Precios

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Transformaciones y Manipulación de Datos con Pandas en Python

Resumen

¿Cómo transformar datos para análisis más avanzado en Pandas?

Transformar y analizar datos es fundamental en cualquier proyecto de ciencia de datos. Poder crear nuevas columnas, realizar transformaciones básicas y avanzadas, y aplicar funciones como Lambda y Apply, permite un manejo más preciso y eficiente de la información. En este artículo, exploraremos cómo manipular un DataFrame utilizando Pandas para preparar datos para análisis avanzados.

¿Cómo crear una nueva columna combinando datos existentes?

Un método efectivo para extraer información valiosa es la creación de nuevas columnas a partir de las ya existentes. En este caso, usaremos un archivo CSV como fuente de datos. Al importar Pandas y el CSV, se puede manipular el DataFrame para crear la columna TotalPrice multiplicando la cantidad por el UnitPrice.

import pandas as pd

df = pd.read_csv('data.csv')  # Cambia 'data.csv' al nombre de tu archivo
df['TotalPrice'] = df['cantidad'] * df['UnitPrice']
print(df.head())

Este proceso genera una nueva columna TotalPrice que contiene el resultado de multiplicar las cantidades por el precio unitario.

¿Cómo aplicar condiciones para crear nuevas columnas?

Las condiciones pueden usarse para crear columnas con valores booleanos. Supongamos que queremos determinar si el TotalPrice es mayor de 100. Esto puede ser fácilmente realizado con una comparación dentro del DataFrame.

df['HighValue'] = df['TotalPrice'] > 100
print(df[['HighValue']].head(10))

Aquí, HighValue será True para filas donde el total supera los 100, permitiendo rápidamente identificar valores altos.

¿Qué tipo de dato tiene cada columna y cómo cambiarlo?

Pandas asigna automáticamente un tipo a cada columna, pero a veces necesitamos cambiarlo para un manejo más eficiente. Supongamos que InvoiceDate está etiquetado como un objeto, pero queremos convertirlo en un tipo de tiempo.

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
print(df.info())

Esto convierte InvoiceDate a un tipo DateTime, mejorando la manipulación de datos temporales.

¿Cómo usar lambdas para transformaciones de datos?

La función Lambda es ideal para transformaciones rápidas y personalizadas. Por ejemplo, si deseamos aplicar un descuento del 10% al precio unitario, podemos usar Lambda de la siguiente manera:

df['DiscountedPrice'] = df['UnitPrice'].apply(lambda x: x * 0.9)
print(df[['UnitPrice', 'DiscountedPrice']].head())

DiscountedPrice muestra el precio después de aplicar el descuento.

¿Cómo categorizar precios con funciones personalizadas?

No solo los datos numéricos pueden ser transformados, también es posible categorizar datos con funciones personalizadas. Aquí crearemos una función para asignar categorías de precio:

def categorize_price(price):
    if price > 50:
        return 'High'
    elif price < 20:
        return 'Low'
    return 'Medium'

df['PriceCategory'] = df['UnitPrice'].apply(categorize_price)
print(df[['UnitPrice', 'PriceCategory']].head(10))

Con esta función, el UnitPrice se categoriza en 'High', 'Medium' o 'Low' basado en su valor. Esto ayuda a segmentar fácilmente los datos para análisis más detallados.

Transformar y manipular datos con Pandas no solo mejora el análisis, sino que también facilita la comprensión del contenido. Experimenta y prueba nuevas formas de enriquecer el dataset. ¿Qué otras columnas podrían agregar valor a tu proyecto? ¡La exploración sigue abierta!

Gabriel Obregón

student

1. Lectura de Datos y Cálculo del Precio Total

df = pd.read_csv('online_retail.csv')

df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

print(df.head())

Descripción:

La función read_csv lee el conjunto de datos desde el archivo online_retail.csv y lo almacena en un DataFrame df.
Se agrega una nueva columna TotalPrice, calculada como el producto de las columnas Quantity y UnitPrice.
La función head() muestra las primeras cinco filas del DataFrame actualizado.

Resultado Esperado: Las primeras cinco filas del conjunto de datos, incluyendo la nueva columna TotalPrice, que contiene los valores calculados.

2. Creación de una Columna High-Value

df['HighValue'] = df['TotalPrice'] > 16

print(df['HighValue'].head(10))

Descripción:

Se agrega una nueva columna HighValue al DataFrame, donde cada valor es True si TotalPrice es mayor a 16, y False en caso contrario.
Las primeras 10 filas de la columna HighValue se muestran con el método head().

Resultado: Las primeras 10 filas de la columna HighValue, que contienen valores booleanos (True o False) basados en el umbral de TotalPrice.

3. Visualización de Información del DataFrame

print(df.info())

Descripción:

El método info() se utiliza para mostrar un resumen del DataFrame, que incluye el número de valores no nulos, tipos de datos por columna y uso de memoria.

Resultado: Un resumen que muestra:

Número de entradas (RangeIndex).
Nombres de columnas, conteo de valores no nulos y tipos de datos.
Uso de memoria del DataFrame.

4. Conversión de InvoiceDate a Formato Datetime

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

print(df.info())

Descripción:

Convierte la columna InvoiceDate a formato datetime utilizando pd.to_datetime.
El tipo de datos actualizado se refleja en el resultado del método info().

Resultado: El tipo de datos de la columna InvoiceDate cambia a datetime64[ns], como se muestra en el resumen del DataFrame.

5. Creación de una Columna de Precio con Descuento

df['DiscountedPrice'] = df['UnitPrice'].apply(lambda x: x * 0.9)

print(df.head(3))

Descripción:

Se crea una nueva columna DiscountedPrice, donde cada valor es el 90% del UnitPrice (aplicando un descuento del 10%). Esto se logra usando la función apply con una expresión lambda.
Se muestran las primeras tres filas del DataFrame actualizado.

Resultado Esperado: Las primeras tres filas del DataFrame, incluyendo la nueva columna DiscountedPrice con los precios descontados.

6. Categorización de Precios en Categorías

def categorize_price(price):

if price > 50:

return 'High'

elif price < 20:

return 'Medium'

else:

return 'Low'

df['PriceCategory'] = df['UnitPrice'].apply(categorize_price)

print(df.head(3))

Descripción:

Se define una función personalizada categorize_price para clasificar precios en categorías:
- 'High' para precios mayores a 50.
- 'Medium' para precios menores a 20.
- 'Low' para todos los demás precios.
La función se aplica a la columna UnitPrice utilizando apply, y los resultados se almacenan en una nueva columna PriceCategory.
Se muestran las primeras tres filas del DataFrame actualizado.

Resultado Esperado: Las primeras tres filas del DataFrame, incluyendo la nueva columna PriceCategory con clasificaciones de precios (High, Medium o Low).

Daniel Moreno

Fidel Ortega Guzman

Wilmer Fernando Sanabria

Ana Belén Pérez

Esteban Diaz Diez

Juan Diego

Andrés González Gil

Cristian Mateo Velez Duran

Javier Ladino

Brayan Raziel Cedillo González

Cristian Camilo Quinche Vélez

Claudia Moreno

Jhon Freddy Tavera Blandon

Raul Lloreda

JUAN SILVA

•

Elias Echeverri

Cristian Alexander Vallejos De la rosa

Santiago Romero Estrada

Diego Ernesto Cuaycal Tirira

Illari Zárate Manchay

Bastian Maurico Landskron Silva

Armando Jose Arismendi Navarro

Javier Villarreal

Ignacio Robles

Juan David Lozada Calderon

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Manipulación de Arrays NumPy para Análisis de Datos en Python

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Operaciones con Arrays en NumPy: Broadcasting, Concatenación y Más

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Operaciones de Álgebra Lineal con NumPy en Python

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

Selección de Datos en Pandas: Uso de iLoc y loc

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento