Transformaciones y Manipulación de Datos con Pandas en Python

Clase 17 de 32 • Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Resumen

¿Cómo transformar datos para análisis más avanzado en Pandas?

Transformar y analizar datos es fundamental en cualquier proyecto de ciencia de datos. Poder crear nuevas columnas, realizar transformaciones básicas y avanzadas, y aplicar funciones como Lambda y Apply, permite un manejo más preciso y eficiente de la información. En este artículo, exploraremos cómo manipular un DataFrame utilizando Pandas para preparar datos para análisis avanzados.

¿Cómo crear una nueva columna combinando datos existentes?

Un método efectivo para extraer información valiosa es la creación de nuevas columnas a partir de las ya existentes. En este caso, usaremos un archivo CSV como fuente de datos. Al importar Pandas y el CSV, se puede manipular el DataFrame para crear la columna TotalPrice multiplicando la cantidad por el UnitPrice.

import pandas as pd

df = pd.read_csv('data.csv')  # Cambia 'data.csv' al nombre de tu archivo
df['TotalPrice'] = df['cantidad'] * df['UnitPrice']
print(df.head())

Este proceso genera una nueva columna TotalPrice que contiene el resultado de multiplicar las cantidades por el precio unitario.

¿Cómo aplicar condiciones para crear nuevas columnas?

Las condiciones pueden usarse para crear columnas con valores booleanos. Supongamos que queremos determinar si el TotalPrice es mayor de 100. Esto puede ser fácilmente realizado con una comparación dentro del DataFrame.

df['HighValue'] = df['TotalPrice'] > 100
print(df[['HighValue']].head(10))

Aquí, HighValue será True para filas donde el total supera los 100, permitiendo rápidamente identificar valores altos.

¿Qué tipo de dato tiene cada columna y cómo cambiarlo?

Pandas asigna automáticamente un tipo a cada columna, pero a veces necesitamos cambiarlo para un manejo más eficiente. Supongamos que InvoiceDate está etiquetado como un objeto, pero queremos convertirlo en un tipo de tiempo.

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
print(df.info())

Esto convierte InvoiceDate a un tipo DateTime, mejorando la manipulación de datos temporales.

¿Cómo usar lambdas para transformaciones de datos?

La función Lambda es ideal para transformaciones rápidas y personalizadas. Por ejemplo, si deseamos aplicar un descuento del 10% al precio unitario, podemos usar Lambda de la siguiente manera:

df['DiscountedPrice'] = df['UnitPrice'].apply(lambda x: x * 0.9)
print(df[['UnitPrice', 'DiscountedPrice']].head())

DiscountedPrice muestra el precio después de aplicar el descuento.

¿Cómo categorizar precios con funciones personalizadas?

No solo los datos numéricos pueden ser transformados, también es posible categorizar datos con funciones personalizadas. Aquí crearemos una función para asignar categorías de precio:

def categorize_price(price):
    if price > 50:
        return 'High'
    elif price < 20:
        return 'Low'
    return 'Medium'

df['PriceCategory'] = df['UnitPrice'].apply(categorize_price)
print(df[['UnitPrice', 'PriceCategory']].head(10))

Con esta función, el UnitPrice se categoriza en 'High', 'Medium' o 'Low' basado en su valor. Esto ayuda a segmentar fácilmente los datos para análisis más detallados.

Transformar y manipular datos con Pandas no solo mejora el análisis, sino que también facilita la comprensión del contenido. Experimenta y prueba nuevas formas de enriquecer el dataset. ¿Qué otras columnas podrían agregar valor a tu proyecto? ¡La exploración sigue abierta!

Comentarios

Daniel Moreno

student•

El error se debe a que la función original categoriza incorrectamente los precios. La condición price < 20 asigna todos los valores menores a 20 a la categoría 'Medium', lo que deja sin posibilidad de asignar ningún valor a la categoría 'Low'.

La función correcta debería ser la siguiente:

def categorize_price(price):
    if price > 50:
        return 'High'
    elif price >= 20:
        return 'Medium'
    else:
        return 'Low'

Fidel Ortega Guzman

student•

excelente aporte

Wilmer Fernando Sanabria

student•

La categoria LOW toma los valores >20 y <50, no tiene sentido logico, pero si recibe esos valores.

Ana Belén Pérez

student•

Una de las columnas que pueden aportar al proyecto es identificar si la transacción es una venta o una devolución, ya que en la columna "Quantity" hay valores en negativo:

def categorize_quantity(quantity):

if quantity > 0:

return 'Sale'

else:

return 'Return' data['TransactionType'] = data['Quantity']. apply(categorize_quantity)print(data.head(5))

Esteban Diaz Diez

student•

Aqui es donde yo con mucho respeto digo que en ocasiones a Platzi se le van las luces con los ejemplos, ya que son poco orientados a casos reales de negocio.

Aplicar lambdas a columnas es muy usado en ETLs cuando se hace ingeniería de datos, pero para un simple descuento con poner:

df['precio_after_descuento'] = df['UnitPrice'] * 0.9

Se obtiene el mismo resultado. Me parece que esto enseña prácticas poco óptimas, a pesar de esto, el curso hasta el momento está genial.

Juan Diego

student•

En la línea df['PriceCategory'] = df['UnitPrice'].apply(categorize_price), no se envían argumentos directamente a la función categorize_price porque el método apply de un DataFrame de Pandas itera automáticamente sobre cada elemento de la serie que se le pasa (en este caso, df['UnitPrice']). Esto significa que apply pasa cada valor de UnitPrice a la función categorize_price uno por uno, permitiendo que la función opere sobre cada elemento sin necesidad de especificar argumentos adicionales.

Andrés González Gil

student•

Tenía esa duda, muchas gracias!

Cristian Mateo Velez Duran

student•

Separar por contenientes:

Lo hice en base al código de otro compañero. Créditos a él.

Javier Ladino

student•

Obteniendo la lista de los países creé una columna según su continente:

Obtener países:

countries = retail_data['Country'].value_counts()
countries
``````js
Country	
United Kingdom	22281
Germany	309
France	287
EIRE	177
Norway	147
Portugal	80
Spain	45
Lithuania	35
Iceland	31
Italy	25
Australia	22
Denmark	20
Japan	17
Channel Islands	17
Belgium	12
Poland	8
Switzerland	6
Netherlands	2
dtype: int64

Crear columna "getContinent":

def getContinent(Country):
    if Country == 'Japan':
        return 'Asia'
    elif Country == 'Australia':
        return 'Oceania'
    else:
        return 'Europe'

df['Continent'] = df['Country'].apply(getContinent)

Brayan Raziel Cedillo González

student•

Me parece que en tu código omites paises y se clasificarian como europeas ciudades que no lo son:countries = data['Country'].unique()print(countries)

countries = data['Country'].unique()
print(countries)

def continent(country):
  if country in ['Japan', 'Bahrain', 'Hong Kong', 'Singapore', 'Lebanon', 'United Arab Emirates',
                 'Saudi Arabia', 'Israel']:
    return 'Asia'
  elif country == 'Australia':
    return 'Oceania'
  elif country in ['Brazil','Canada', 'USA']:
    return 'America'
  elif country == 'RSA':
    return 'Africa'
  elif country == 'Unspecified':
    return 'Unspecified'
  else:
    return 'Europe'

data['Continent'] = data['Country'].apply(continent)
data

Cristian Camilo Quinche Vélez

student•

def categorize_price(price):
  if price >= 50:
    return 'High'
  elif price < 20:
    return 'Low'
  else:
    return 'Medium'

df['PriceCategory'] = df['TotalPrice'].apply(categorize_price)
print(df.head(20))
```Para el ejemplo de la parte final, para que la función de categorizar a los precios funcione correctamente, una opción seria enviarle la columna de 'TotalPrice' y no la de 'UnitPrice' debido a que en nuestras condiciones no estamos usando las escalas adecuadas, y además también es necesario corregir el segundo elif,  ya que en el ejemplo tenemos como high a los valores >50, pero al poner la segunda condicion  medium a los precios <20, los valores que oscilen entre 20 y 49 se clasificaran como low.&#x20;

Claudia Moreno

student•

Creo que podría incluirse una nueva columna de Taxes. Y con esto sabemos otro valor que es la utilidad real.

Jhon Freddy Tavera Blandon

student•


df['ProductInfo'] = df['StockCode'].astype(str) + " - " + df['Description']

print(df[['StockCode', 'Description', 'ProductInfo']].head())

# salidad 
StockCode                          Description  \
0    85123A   WHITE HANGING HEART T-LIGHT HOLDER   
1     71053                  WHITE METAL LANTERN   
2    84406B       CREAM CUPID HEARTS COAT HANGER   
3    84029G  KNITTED UNION FLAG HOT WATER BOTTLE   
4    84029E       RED WOOLLY HOTTIE WHITE HEART.   

                                    ProductInfo  
0   85123A - WHITE HANGING HEART T-LIGHT HOLDER  
1                   71053 - WHITE METAL LANTERN  
2       84406B - CREAM CUPID HEARTS COAT HANGER  
3  84029G - KNITTED UNION FLAG HOT WATER BOTTLE  
4       84029E - RED WOOLLY HOTTIE WHITE HEART.  
```columna combinando 'StockCode' y 'Description'

Cristian Vallejos

student•

print("df Original:\n", df)

print("Columnas df:", df.columns)

df['Total Factura'] = df['DiscountedPrice'] * df['Quantity']

print("Total Factura:\n", df['Total Factura'])

print("df Modificado:\n", df)

###

InvoiceDate UnitPrice CustomerID Country TotalPrice \ 0 2010-12-01 08:26:00 2.55 17850.0 United Kingdom 15.30 1 2010-12-01 08:26:00 3.39 17850.0 United Kingdom 20.34 2 2010-12-01 08:26:00 2.75 17850.0 United Kingdom 22.00 3 2010-12-01 08:26:00 3.39 17850.0 United Kingdom 20.34 4 2010-12-01 08:26:00 3.39 17850.0 United Kingdom 20.34

HighValue DiscountedPrice PriceCategory Total Factura 0 False 2.295 Medium 13.770 1 True 3.051 Medium 18.306 2 True 2.475 Medium 19.800 3 True 3.051 Medium 18.306 4 True 3.051 Medium 18.306

Santiago Romero Estrada

student•

De esta manera manejamos quantiles para darle categorías mas aterrizadas al DF

Juan Diego

student•

DateTime en Pandas se utiliza para manejar y manipular datos de fecha y hora. Permite realizar operaciones como la conversión de cadenas a fechas, la extracción de componentes (día, mes, año), y realizar cálculos sobre estos datos, como sumar o restar períodos de tiempo. En el contexto de la clase, se vio cómo transformar una columna de fechas en un DataFrame a tipo DateTime para facilitar análisis posteriores. Esto es crucial para trabajar con datos temporales y hacer análisis que dependen de la dimensión temporal, como tendencias o series de tiempo.

Diego Ernesto Cuaycal Tirira

student•

De donde saca el archivo online_retail.csv

Illari Zárate Manchay

student•

Lo descarga desde Kaggle, en las primeras clases del curso menciona como descargarlo

Bastian Maurico Landskron Silva

student•

Lo mejor

Gabriel Obregón

student•

1. Lectura de Datos y Cálculo del Precio Total

df = pd.read_csv('online_retail.csv')

df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

print(df.head())

Descripción:

La función read_csv lee el conjunto de datos desde el archivo online_retail.csv y lo almacena en un DataFrame df.
Se agrega una nueva columna TotalPrice, calculada como el producto de las columnas Quantity y UnitPrice.
La función head() muestra las primeras cinco filas del DataFrame actualizado.

Resultado Esperado: Las primeras cinco filas del conjunto de datos, incluyendo la nueva columna TotalPrice, que contiene los valores calculados.

2. Creación de una Columna High-Value

df['HighValue'] = df['TotalPrice'] > 16

print(df['HighValue'].head(10))

Descripción:

Se agrega una nueva columna HighValue al DataFrame, donde cada valor es True si TotalPrice es mayor a 16, y False en caso contrario.
Las primeras 10 filas de la columna HighValue se muestran con el método head().

Resultado: Las primeras 10 filas de la columna HighValue, que contienen valores booleanos (True o False) basados en el umbral de TotalPrice.

3. Visualización de Información del DataFrame

print(df.info())

Descripción:

El método info() se utiliza para mostrar un resumen del DataFrame, que incluye el número de valores no nulos, tipos de datos por columna y uso de memoria.

Resultado: Un resumen que muestra:

Número de entradas (RangeIndex).
Nombres de columnas, conteo de valores no nulos y tipos de datos.
Uso de memoria del DataFrame.

4. Conversión de InvoiceDate a Formato Datetime

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

print(df.info())

Descripción:

Convierte la columna InvoiceDate a formato datetime utilizando pd.to_datetime.
El tipo de datos actualizado se refleja en el resultado del método info().

Resultado: El tipo de datos de la columna InvoiceDate cambia a datetime64[ns], como se muestra en el resumen del DataFrame.

5. Creación de una Columna de Precio con Descuento

df['DiscountedPrice'] = df['UnitPrice'].apply(lambda x: x * 0.9)

print(df.head(3))

Descripción:

Se crea una nueva columna DiscountedPrice, donde cada valor es el 90% del UnitPrice (aplicando un descuento del 10%). Esto se logra usando la función apply con una expresión lambda.
Se muestran las primeras tres filas del DataFrame actualizado.

Resultado Esperado: Las primeras tres filas del DataFrame, incluyendo la nueva columna DiscountedPrice con los precios descontados.

6. Categorización de Precios en Categorías

def categorize_price(price):

if price > 50:

return 'High'

elif price < 20:

return 'Medium'

else:

return 'Low'

df['PriceCategory'] = df['UnitPrice'].apply(categorize_price)

print(df.head(3))

Descripción:

Se define una función personalizada categorize_price para clasificar precios en categorías:
- 'High' para precios mayores a 50.
- 'Medium' para precios menores a 20.
- 'Low' para todos los demás precios.
La función se aplica a la columna UnitPrice utilizando apply, y los resultados se almacenan en una nueva columna PriceCategory.
Se muestran las primeras tres filas del DataFrame actualizado.

Resultado Esperado: Las primeras tres filas del DataFrame, incluyendo la nueva columna PriceCategory con clasificaciones de precios (High, Medium o Low).

Armando Jose Arismendi Navarro

student•

Muchas clases de Python, pandas, de esto y de aquello... y aun no veo una utilidad que el mismo excel no de, por si mismo

Javier Villarreal

student•

La diferencia con excel es que si tuviera un archivo con millones de filas nisiquiera abriria o se demoraria demasiado en caso de que sea un archivo grande y pueda abrirlo. Mientras que desde python se demora segundos haciendo procesasiemto de todos estos datos, filtrando, graficando, etc.

Ignacio Robles

student•

ufff, si has usado Excel para manejar grandes cantidades de datos o simplemente obtener insights de tus datos, creo que te enamoras de todo lo que Python puede ofrecer.

Juan David Lozada Calderon

student•

def categorize_price(price):
    if price > 50:
        return "High"
    elif price <20:
        return "Medium"
    else:
        return "Low" 
    
retail["PriceCategory"]= retail["TotalPrice"].apply(categorize_price)

Preferí aplicar la función con Totalprice, da una linda variedad de resultados en el nivel de los precios.

jesus manuel vergara arias

student•

Yo apliqué la función:

def categorize_price(price):
    if pd.isna(price):
        return 'Unknown'
    elif price < 100:
        return 'Very Cheap'
    elif 100 <= price < 200:
        return 'Cheap'
    elif 200 <= price < 1000:
        return 'Average'
    elif 1000 <= price < 2000:
        return 'High'
    elif 2000 <= price < 5000:
        return 'Expensive'
    else:
        return 'Very Expensive'


df['Category'] = df['UnitPrice'].apply(categorize_price)

print(df.loc[15014:15019, ['UnitPrice', 'Category']])

resultado:
       UnitPrice        Category
15014       9.95      Very Cheap
15015       1.45      Very Cheap
15016   13541.33  Very Expensive
15017   13541.33  Very Expensive
15018       4.95      Very Cheap
15019       8.50      Very Cheap
```def categorize\_price(price):    if pd.isna(price):        return 'Unknown'    elif price < 100:        return 'Very Cheap'    elif 100 <= price < 200:        return 'Cheap'    elif 200 <= price < 1000:        return 'Average'    elif 1000 <= price < 2000:        return 'High'    elif 2000 <= price < 5000:        return 'Expensive'    else:        return 'Very Expensive'

df\['Category'] = df\['UnitPrice'].apply(categorize\_price)
print(df.loc\[15014:15019, \['UnitPrice', 'Category']])

jesus manuel vergara arias

student•

Se dieron cuenta que la la columna "UnitPrice" tiene valores negativos muy grandes y positivos también - ¿Qué hacemos con esos datos?

price_column = df['UnitPrice']
neg_values = price_column[price_column < 0]
print(neg_values) 
299983   -11062.06
299984   -11062.06
Name: UnitPrice, dtype: float64
############
print(price_column.max()) = 38970.0
print(price_column.min()) =  -11062.06
```price\_column = df\['UnitPrice']neg\_values = price\_column\[price\_column < 0]print(neg\_values)print(price\_column.max())print(price\_column.min())

jesus manuel vergara arias

student•

Hay productos con valores de más de 10000 euros o dolares:

mean_unit_price = df['UnitPrice'].mean()

df['UnitPrice'] = df['UnitPrice'].apply(lambda x: mean_unit_price if x < 0 else x)
```mean\_unit\_price = df\['UnitPrice'].mean()
df\['UnitPrice'] = df\['UnitPrice'].apply(lambda x: mean\_unit\_price if x < 0 else x)

Mario Alexander Vargas Celis

student•

En **Pandas**, crear y manipular columnas es una tarea fundamental cuando se trabaja con **DataFrames**. A continuación te explico cómo puedes hacerlo mediante ejemplos:

### 1. **Crear nuevas columnas**

Puedes crear una nueva columna asignando un valor o una expresión a una nueva etiqueta de columna.

#### 1.1 Asignar un valor constante


import pandas as pd



\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro'],

&#x20;   'edad': \[25, 30, 22]

})



\# Crear una nueva columna con un valor constante

df\['ciudad'] = 'Madrid'

print(df)

#### 1.2 Crear una columna con valores calculados

Puedes basar los valores de una nueva columna en las existentes.


\# Crear una nueva columna basada en operaciones con otras columnas

df\['edad\_en\_10\_anos'] = df\['edad'] + 10

print(df)

### 2. **Modificar columnas existentes**

Puedes modificar los valores de las columnas ya existentes realizando operaciones sobre ellas.


\# Modificar los valores de una columna existente

df\['edad'] = df\['edad'] \* 2

print(df)

### 3. **Eliminar columnas**

Para eliminar columnas, puedes usar drop().

#### 3.1 Eliminar una columna


\# Eliminar una columna

df = df.drop('edad\_en\_10\_anos', axis=1)  # axis=1 indica que es una columna

print(df)

#### 3.2 Eliminar múltiples columnas


\# Eliminar varias columnas

df = df.drop(\['edad', 'ciudad'], axis=1)

print(df)

### 4. **Renombrar columnas**

Para cambiar el nombre de las columnas puedes usar el método rename().


\# Renombrar columnas

df = df.rename(columns={'nombre': 'Nombre Completo'})

print(df)

### 5. **Usar apply para crear una columna compleja**

Puedes usar apply() para aplicar una función personalizada y crear una nueva columna.


\# Crear una columna basada en una función personalizada

df\['categoria\_edad'] = df\['edad'].apply(lambda x: 'Joven' if x < 30 else 'Adulto')

print(df)

### 6. **Asignar múltiples columnas a la vez**

Puedes asignar varias columnas nuevas en una sola operación.


\# Asignar múltiples columnas a la vez

df\[\['altura', 'peso']] = \[\[165, 70], \[175, 85], \[180, 90]]

print(df)

### 7. **Reordenar las columnas**

Si quieres cambiar el orden de las columnas, puedes hacerlo reindexando las columnas.


\# Reordenar las columnas

df = df\[\['Nombre Completo', 'edad', 'altura', 'peso']]

print(df)

Estos son algunos ejemplos clave para la creación y manipulación de columnas en **Pandas**. Si necesitas algo más específico, ¡avísame!

countries = retail_data['Country'].value_counts()
countries
``````js
Country	
United Kingdom	22281
Germany	309
France	287
EIRE	177
Norway	147
Portugal	80
Spain	45
Lithuania	35
Iceland	31
Italy	25
Australia	22
Denmark	20
Japan	17
Channel Islands	17
Belgium	12
Poland	8
Switzerland	6
Netherlands	2
dtype: int64

def getContinent(Country):
    if Country == 'Japan':
        return 'Asia'
    elif Country == 'Australia':
        return 'Oceania'
    else:
        return 'Europe'

df['Continent'] = df['Country'].apply(getContinent)

countries = data['Country'].unique()
print(countries)

def continent(country):
  if country in ['Japan', 'Bahrain', 'Hong Kong', 'Singapore', 'Lebanon', 'United Arab Emirates',
                 'Saudi Arabia', 'Israel']:
    return 'Asia'
  elif country == 'Australia':
    return 'Oceania'
  elif country in ['Brazil','Canada', 'USA']:
    return 'America'
  elif country == 'RSA':
    return 'Africa'
  elif country == 'Unspecified':
    return 'Unspecified'
  else:
    return 'Europe'

data['Continent'] = data['Country'].apply(continent)
data

def categorize_price(price):
  if price >= 50:
    return 'High'
  elif price < 20:
    return 'Low'
  else:
    return 'Medium'

df['PriceCategory'] = df['TotalPrice'].apply(categorize_price)
print(df.head(20))
```Para el ejemplo de la parte final, para que la función de categorizar a los precios funcione correctamente, una opción seria enviarle la columna de 'TotalPrice' y no la de 'UnitPrice' debido a que en nuestras condiciones no estamos usando las escalas adecuadas, y además también es necesario corregir el segundo elif,  ya que en el ejemplo tenemos como high a los valores >50, pero al poner la segunda condicion  medium a los precios <20, los valores que oscilen entre 20 y 49 se clasificaran como low.&#x20;

# salidad 
StockCode                          Description  \
  85123A   WHITE HANGING HEART T-LIGHT HOLDER   
   71053                  WHITE METAL LANTERN   
  84406B       CREAM CUPID HEARTS COAT HANGER   
  84029G  KNITTED UNION FLAG HOT WATER BOTTLE   
  84029E       RED WOOLLY HOTTIE WHITE HEART.   

                                    ProductInfo  
 85123A - WHITE HANGING HEART T-LIGHT HOLDER  
                 71053 - WHITE METAL LANTERN  
     84406B - CREAM CUPID HEARTS COAT HANGER  
84029G - KNITTED UNION FLAG HOT WATER BOTTLE  
     84029E - RED WOOLLY HOTTIE WHITE HEART.  
```columna combinando 'StockCode' y 'Description'

def categorize_price(price):
    if price > 50:
        return "High"
    elif price <20:
        return "Medium"
    else:
        return "Low" 
    
retail["PriceCategory"]= retail["TotalPrice"].apply(categorize_price) 

def categorize_price(price):
    if pd.isna(price):
        return 'Unknown'
    elif price < 100:
        return 'Very Cheap'
    elif 100 <= price < 200:
        return 'Cheap'
    elif 200 <= price < 1000:
        return 'Average'
    elif 1000 <= price < 2000:
        return 'High'
    elif 2000 <= price < 5000:
        return 'Expensive'
    else:
        return 'Very Expensive'


df['Category'] = df['UnitPrice'].apply(categorize_price)

print(df.loc[15014:15019, ['UnitPrice', 'Category']])

resultado:
       UnitPrice        Category
15014       9.95      Very Cheap
15015       1.45      Very Cheap
15016   13541.33  Very Expensive
15017   13541.33  Very Expensive
15018       4.95      Very Cheap
15019       8.50      Very Cheap
```def categorize\_price(price):    if pd.isna(price):        return 'Unknown'    elif price < 100:        return 'Very Cheap'    elif 100 <= price < 200:        return 'Cheap'    elif 200 <= price < 1000:        return 'Average'    elif 1000 <= price < 2000:        return 'High'    elif 2000 <= price < 5000:        return 'Expensive'    else:        return 'Very Expensive'

df\['Category'] = df\['UnitPrice'].apply(categorize\_price)
print(df.loc\[15014:15019, \['UnitPrice', 'Category']])

price_column = df['UnitPrice']
neg_values = price_column[price_column < 0]
print(neg_values) 
299983   -11062.06
299984   -11062.06
Name: UnitPrice, dtype: float64
############
print(price_column.max()) = 38970.0
print(price_column.min()) =  -11062.06
```price\_column = df\['UnitPrice']neg\_values = price\_column\[price\_column < 0]print(neg\_values)print(price\_column.max())print(price\_column.min())

mean_unit_price = df['UnitPrice'].mean()

df['UnitPrice'] = df['UnitPrice'].apply(lambda x: mean_unit_price if x < 0 else x)
```mean\_unit\_price = df\['UnitPrice'].mean()
df\['UnitPrice'] = df\['UnitPrice'].apply(lambda x: mean\_unit\_price if x < 0 else x)

import pandas as pd

\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro'],

&#x20;   'edad': \[25, 30, 22]

})

\# Crear una nueva columna con un valor constante

df\['ciudad'] = 'Madrid'

print(df)

Transformaciones y Manipulación de Datos con Pandas en Python

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Manipulación de Arrays NumPy para Análisis de Datos en Python

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Operaciones con Arrays en NumPy: Broadcasting, Concatenación y Más

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Operaciones de Álgebra Lineal con NumPy en Python

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

Selección de Datos en Pandas: Uso de iLoc y loc

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento