Filtrado de Datos en Pandas para Análisis Efectivo

Clase 19 de 32 • Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Resumen

¿Cómo aplicar el filtrado de datos en Pandas?

El filtrado de datos es una técnica esencial en el análisis de datos que nos permite concentrarnos en subconjuntos relevantes basándose en condiciones específicas. Imagina que puedes centrarte únicamente en las ventas de un país determinado, evaluar productos que superen un umbral de ventas, o analizar transacciones dentro de un período de tiempo concreto. Todo esto es posible con el filtrado de datos en Pandas, una poderosa librería de Python.

¿Cómo extraer un subconjunto de datos según un criterio específico?

Para realizar filtrado de datos, primero debemos importar la librería Pandas y tener un DataFrame ya cargado. Supongamos que queremos filtrar las ventas realizadas en el Reino Unido. El proceso es el siguiente:

# Filtrar ventas en Reino Unido
uk_sales = sales_data[sales_data['Country'] == 'United Kingdom']
print(uk_sales)

Es crucial asegurarse de que no hay espacios en el nombre del país al aplicar estos filtros, ya que podría devolver un DataFrame vacío por un error tipográfico.

¿Cómo implementar operaciones de comparación en columnas?

Pandas nos ofrece la posibilidad de aplicar operadores de comparación para filtrar datos, por ejemplo, seleccionar ventas donde la cantidad sea superior a un determinado número:

# Filtrar ventas donde la cantidad sea mayor a 10
high_quantity_sales = sales_data[sales_data['Quantity'] > 10]
print(high_quantity_sales)

Podemos cambiar el número de comparación para ajustar el filtrado según nuestras necesidades.

¿Cómo combinar condiciones de filtrado?

A menudo, es necesario aplicar múltiples filtros para obtener un conjunto de datos aún más específico. A continuación se muestra cómo podemos filtrar las ventas que cumplan dos condiciones: ventas en el Reino Unido y con cantidades superiores a 40:

# Filtrar ventas altas en Reino Unido
high_uk_sales = sales_data[
    (sales_data['Country'] == 'United Kingdom') & 
    (sales_data['Quantity'] > 40)
]
print(high_uk_sales)

Al combinar condiciones, utilizamos el operador & para asegurarnos de que ambas condiciones se cumplan simultáneamente.

¿Cómo manejar series de tiempo en filtrado de datos?

Pandas nos permite trabajar con series de tiempo, lo que facilita el filtrado por años, meses o días específicos. Por ejemplo, si deseamos solo las ventas del año 2011:

# Filtrar ventas del año 2011
sales_2011 = sales_data[sales_data['InvoiceDate'].dt.year == 2011]
print(sales_2011)

Al acceder a las propiedades de una serie de tiempo, podemos utilizar dt para especificar atributos como el año, mes o día.

¿Cómo aplicar filtrado con condiciones de año y mes?

Para filtrar por un año y un mes específicos, el siguiente código muestra cómo obtener las ventas de diciembre de 2010:

# Filtrar ventas de diciembre de 2010
december_2010_sales = sales_data[
    (sales_data['InvoiceDate'].dt.year == 2010) & 
    (sales_data['InvoiceDate'].dt.month == 12)
]
print(december_2010_sales)

Este método es útil para análisis temporales detallados donde los patrones estacionales pueden ser importantes.

Recomendaciones finales para el análisis de datos

Con el filtrado de datos, podemos obtener insights valiosos de grandes conjuntos de datos, ayudándonos a ofrecer análisis precisos a nuestros clientes o stakeholders. Es imprescindible aplicar estos conceptos paralelamente con datasets propios, ya que esto enriquece nuestro portafolio y amplía nuestras habilidades analíticas. Siempre intenta experimentar y ajustar los filtros según las características de tu conjunto de datos para obtener información más profunda y valiosa.

Comentarios

René Vergara

student•

En mi opinión una sintaxis más clara y legible de la que se muestra acá es usar la función query, además otro punto a destacar es que al usar print() para mostrar el dataset sale en un formato tampoco muy legible, una mejor opcion sería simplemente escribir el nombre del dataset y se imprime con un formato estilo tabla, adjunto imagen de como lo he estado trabajando.

Esteban Diaz Diez

student•

Concuerdo, en todo el curso he tratado de evitar el print a la hora de imprimir el dataset.

Pável Hernández Reza

student•

El método query es limitado, lo más poderoso para consultas complejas es pasar la serie booleana como índice así como lo hace la profesora, más que nada cuando ya se comienzan a hacer consultas más complejas.

Javier Villarreal

student•

Si les sale un error al intentar filtrar por fecha es porque no hicieron el paso de convertir la columna de InvoiceDate a fecha, puesto que en el dataframe original esta columna viene de tipo Objeto. Para convertirla solo debe escribir:

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

Manuel Gomez

student•

no se quien lee esto ahora pero el DataFrame en la columna 'Quantity' contiene valores negativos, he trabajado en facturacion y esto es un error grandisimo de ventas puesto que evidentemente en una situacion real esto no puede ser cierto ni en un inventario ni se pudo hacer una venta de un producto que no se encuentra en existencias. por tanto si la intencion es enseñar herramientas para analizar estos datos pero todos los analisis de cantidad de cantidad de ventas totales son falsos para una situacion real porque esta restanto en la suma valores que no deberian estar ahi

Nahuel Caero

student••

No tengo experiencia analizando estos datos, pero haciendo la limpieza de los datos vi que los datos negativos, tanto en Quantity como en Unitprice, se deben a que son cancelaciones o devoluciones de compra.

Los InvoiceNo que estan involucrados es estas operaciones tienen la letra "C" delante lo que indica que es una cancelacion o devolucion. Como dije antes, no tengo experiencia practica en el analisis de datos comerciales pero a mi me interesaria saber si realicé devoluciones de compras para conocer el dato correcto de mi stock y de mi caja.

Saludos.

Jhon Freddy Tavera Blandon

student•

transacciones realizadas en el país 'Germany' durante Diciembre de 2010, con una cantidad mayor a 5

Gabriel Obregón

student•

1. Lectura y Limpieza del Conjunto de Datos

file_path = '/content/online_retail.csv'

sales_data = pd.read_csv(file_path)

sales_data['InvoiceDate'] = pd.to_datetime(sales_data['InvoiceDate'])

sales_data.dropna(subset=['CustomerID', 'InvoiceDate'], inplace=True)

sales_data['TotalPrice'] = sales_data['Quantity'] * sales_data['UnitPrice']

print(sales_data.head())

Descripción:

Lee el archivo online_retail.csv en un DataFrame de Pandas llamado sales_data.
Convierte la columna InvoiceDate a formato datetime utilizando pd.to_datetime.
Elimina filas con valores faltantes en las columnas críticas (CustomerID y InvoiceDate) usando dropna.
Crea una nueva columna TotalPrice como el producto de las columnas Quantity y UnitPrice.
Muestra las primeras cinco filas del DataFrame limpio utilizando head().

Resultado: Las primeras cinco filas del conjunto de datos, mostrando las columnas InvoiceNo, StockCode, Description, Quantity, InvoiceDate, UnitPrice, CustomerID, Country y el nuevo TotalPrice.

2. Filtrar Ventas en el Reino Unido

uk_sales = sales_data[sales_data['Country'] == 'United Kingdom']

print(uk_sales)

Descripción: Filtra el conjunto de datos para incluir solo las filas donde la columna Country sea 'United Kingdom'.

Resultado: Un DataFrame filtrado que contiene solo las ventas realizadas en el Reino Unido, con todas las columnas incluidas.

3. Filtrar Ventas con Cantidades Altas

high_quantity_sales = sales_data[sales_data['Quantity'] > 40]

print(high_quantity_sales)

Descripción: Filtra el conjunto de datos para incluir solo las filas donde la columna Quantity sea mayor a 40.

Resultado: Un DataFrame con filas donde Quantity supera los 40. Esto incluye todas las columnas originales.

4. Filtrar Ventas con Cantidades Altas en el Reino Unido

uk_high_quantity_sales = sales_data[(sales_data['Country'] == 'United Kingdom') & (sales_data['Quantity'] > 40)]

print(uk_high_quantity_sales)

Descripción: Filtra el conjunto de datos para incluir solo las filas donde:

La columna Country sea 'United Kingdom'.
La columna Quantity sea mayor a 40. El filtrado se realiza utilizando un operador lógico AND (&).

Resultado: Un DataFrame que muestra las ventas en el Reino Unido con cantidades mayores a 40.

5. Filtrar Ventas del Año 2010

sales_2010 = sales_data[sales_data['InvoiceDate'].dt.year == 2010]

print(sales_2010)

Descripción: Filtra el conjunto de datos para incluir solo las filas donde el año en la columna InvoiceDate sea 2010. Esto se logra utilizando .dt.year.

Resultado: Un DataFrame que contiene todas las ventas ocurridas en 2010.

6. Filtrar Ventas de Diciembre de 2010

sales_dec_2010 = sales_data[(sales_data['InvoiceDate'].dt.year == 2010) & (sales_data['InvoiceDate'].dt.month == 12)]

print(sales_dec_2010)

Descripción: Filtra el conjunto de datos para incluir solo las filas donde:

El año en la columna InvoiceDate sea 2010.
El mes en la columna InvoiceDate sea diciembre (12). El filtrado se realiza utilizando un operador lógico AND (&).

Resultado: Un DataFrame que contiene todas las ventas ocurridas en diciembre de 2010.

Marina Barraza

student•

¿Qué es el fitrado de datos en Pandas?

El filtrado de datos con condiciones en pandas se refiere a seleccionar filas de un DataFrame o Series que cumplen con ciertos criterios. Esto se hace utilizando expresiones booleanas para definir las condiciones, y luego aplicándolas para obtener solo los datos que satisfacen esas condiciones.

Marina Barraza

student•

¿Para qué filtrar la información?

Filtrar la información nos permite prestar atención en aspectos específicos de nuestro set de datos.
Ejemplo: determinar las ventas por países o por series de tiempo.

Diego Andrés Lopez Rodriguez

student•

Cristian Vallejos

student•

sales_2010_12_10 = df_sales_data[(df_sales_data['InvoiceDate'].dt.year == 2010) &

(df_sales_data['InvoiceDate'].dt.month == 12) &

(df_sales_data['InvoiceDate'].dt.day == 10)]

print("Ventas 2010-12-10:\n", sales_2010_12_10)

Saul Antonio Cerén Gálvez

student•

import pandas as pd

# 1. Cargar el archivo original desde el Escritorio

ruta_excel = r'C:\Users\cliente\Desktop\Online Retail.xlsx'

df = pd.read_excel(ruta_excel)

# 2. Limpiar nombres de columnas por si acaso tienen espacios

df.columns = df.columns.str.strip()

# 3. Convertir la columna de fecha

# En este archivo la columna suele llamarse 'InvoiceDate'

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

# 4. Obtener el año de los datos y filtrar el primer semestre (Enero a Junio)

# Usamos el año mínimo que encuentre en el archivo

anio = df['InvoiceDate'].dt.year.min()

inicio = f'{anio}-01-01'

fin = f'{anio}-06-30'

semestre_1 = df[(df['InvoiceDate'] >= inicio) & (df['InvoiceDate'] <= fin)]

# 5. Agrupar por producto ('Description') y sumar la cantidad ('Quantity')

# Filtramos cantidades mayores a 0 para evitar devoluciones

top_productos = semestre_1[semestre_1['Quantity'] > 0].groupby('Description')['Quantity'].sum().sort_values(ascending=False)

print(f"--- ANÁLISIS DEL 1er SEMESTRE DE {anio} ---")

print(f"Rango: {inicio} al {fin}")

print("\nLos 10 productos más vendidos:")

print(top_productos.head(10))

--- ANÁLISIS DEL 1er SEMESTRE DE 2010 ---

Rango: 2010-01-01 al 2010-06-30

Los 10 productos más vendidos:

Series([], Name: Quantity, dtype: int64)

Francisco Diez

student•

En mi caso probé con el método que mustra la profe, pero me devolvía un empty dataframe.

Probé con el método query que vi en los comentarios y me funcionó. ¿Alguien tiene una idea de a qué puede deberse?

Francisco Diez

student•

Tampoco pude usar el método ".dt.year", cuando intento ejecutar me sale un error de atributo:

Mi código es el siguiente:

sales_2011 = df[df['InvoiceDate'].dt.year == 2011]
sales_2011
```sales\_2011 = df\[df\['InvoiceDate'].dt.year == 2011]sales\_2011

Jaime Lopez Hidalgo

student•

Porque en la primer forma esta mal escrito el nombre del país (Kindom), en la segunda forma si esta bien escrito (Kingdom)

FABIAN PEREZ

student•

¿Qué cambia si se usan los parentesis?

Rigoberto Acosta González

student•

El join izquierdo incluye todas las filas del DataFrame de la izquierda, y solo las filas coincidentes del DataFrame de la derecha. Si no hay coincidencia, se llenan con NaN.

El join derecho incluye todas las filas del DataFrame de la derecha y solamente las filas coincidentes del DataFrame de la izquierda. Al igual que en el join izquierdo, las filas sin coincidencia se llenan con NaN.

Ambos métodos permiten combinar información de diferentes fuentes, pero cada uno tiene un enfoque distinto en cuanto a qué filas se mantienen.

Rigoberto Acosta González

student•

La clase se centra en la reestructuración de datos usando Pivot Tables en Pandas. Se enseñó cómo crear tablas dinámicas para resumir y reorganizar datos crudos en un DataFrame, permitiendo realizar cálculos estadísticos como sumas y promedios. También se explicó cómo modificar índices usando columnas y cómo apilar y desapilar datos para una mejor visualización. Se enfatizó el uso de estas herramientas para descubrir patrones y obtener insights valiosos en el análisis de datos.

Rigoberto Acosta González

student•

El filtrado de datos es una técnica utilizada en el análisis de datos para extraer subconjuntos específicos de información de un conjunto de datos más grande. Permite enfocarse en registros que cumplen ciertas condiciones, como analizar ventas de un país específico o transacciones en un periodo concreto. En Pandas, esto se logra utilizando condiciones lógicas sobre las columnas del DataFrame, permitiendo así una mejor comprensión y visualización de los datos relevantes para el análisis.

Cesar Augusto Vega Lizarazo

student•

El código no se encuentra en recursos

Christopher Andrés Guano Valencia

student•

Está en la siguiente clase. Ya se lo arreglará en esta. Gracias por reportarlo 😓🙌🙌

Paola Alapizco

student•

📝 Mis apuntes de la clase

El filtrado de datos en pandas es:

Técnica que permite extraer subconjuntos específicos del Data set.
Se basa en condiciones lógicas.
También aplica dentro de la funcionalidad .loc

Permite:

Prestar atención más detallada en aspectos específicos de los datos
- 💡 Datos de un periodo de tiempo especifico.
- 💡 Información de una región o regiones en concreto.
- 💡Datos según una categoría.

Sintaxis:

Obtendremos un nuevo DataFrame con los datos que cumplan con la condición dada:

# Una condición
df[df["columna"] == "un valor"]

# Dos condiciones 
df[(df["columna"] >= "un valor") & (df["columna"] <= "un valor")] # operador and
df[(df["columna"] <= "un valor") | (df["columna"] >= "un valor")] # operatos or

# Con .loc
df.loc[df["columna"] == "un valor"]
df.locdf[(df["columna"] <= "un valor") | (df["columna"] >= "un valor")]

Pero también podemos obtener un DataFrame solo con las columnas que necesitamos para el análisis.

📢 Si solo queremos una sola columna entonces como resultado tendremos una Serie.

# Una condición
df[df["columna"] == "un valor"]["columna"] # Serie 

# Dos condiciones 
df[(df["columna"] >= "un valor") & (df["columna"] <= "un valor")][["columna uno", "columna 2"]] # DataFrame
df[(df["columna"] <= "un valor") | (df["columna"] >= "un valor")][["columna uno", "columna 2", "columna 2"]] # DataFrame

# Con .loc
df.loc[df["columna"] == "un valor", ["columna uno", "columna 2"]] # DataFrame
df.loc[(df["columna"] <= "un valor") | (df["columna"] >= "un valor"), "columna"] # Serie

Utilizar .loc con filtros es una herramienta potente para actualizar datos dada una condición.

Ejemplos:

# Ventas realizadas en Reino Unido, solo necesitamos Descripción y Cantidad:
uk_sales = retail_df[retail_df["Country"] == "United Kingdom"][["Description", "Quantity"]]

print("Ventas en Reino Unido")
display(uk_sales.head())

# Ventas realizadas en semana santa del 2011
# 17/abirl/2011 al 23/abril/2011
ss_2011 = retail_df[(retail_df["InvoiceDate"] >= pd.Timestamp(2011,4,17)) & (retail_df["InvoiceDate"] <= pd.Timestamp(2011,4,23))]

print("Semana Sanda 2011")
display(ss_2011.head())

# Solo las ventas de diciembre:
december_sales = retail_df.loc[
    (retail_df["InvoiceDate"].dt.year == 2011) & (retail_df["InvoiceDate"].dt.month == 12),
    ["Description", "Quantity", "UnitPrice", "TotalPrice"]    
  ]

print("Ventas de Diciembre de 2011")
display(december_sales.head())

Neicer Vásquez

student•

¿Cuál es el producto con la cantidad de ventas más alta de cada vez para el año 2011?

def highest_sales_each_month(data):
    resultados = []
    for i in range(1, 13):
        results = data[
            (data['InvoiceDate'].dt.year == 2011) &
            (df['InvoiceDate'].dt.month == i)
        ]
        
        resultados.append(results[results['Quantity'] == results['Quantity'].max()])
    return resultados

print(highest_sales_each_month(df)[11])

Mario Alexander Vargas Celis

student•

En **Pandas**, el filtrado de datos basado en condiciones es una operación clave para seleccionar filas de un **DataFrame** que cumplan ciertos criterios. Aquí te muestro varias formas de hacerlo con ejemplos.

### 1. **Filtrado básico con una condición**

Puedes filtrar filas de un DataFrame usando operadores lógicos como ==, >, <, etc.

#### Ejemplo:


import pandas as pd



\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro', 'Lucía'],

&#x20;   'edad': \[25, 30, 22, 28],

&#x20;   'ciudad': \['Madrid', 'Barcelona', 'Sevilla', 'Madrid']

})



\# Filtrar filas donde la edad sea mayor a 25

filtro = df\[df\['edad'] > 25]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan    30  Barcelona

3  Lucía    28     Madrid

### 2. **Filtrado con múltiples condiciones**

Puedes combinar múltiples condiciones usando operadores lógicos:

- & para "y" lógico (AND).

- | para "o" lógico (OR).

- ~ para "no" lógico (NOT).

Recuerda siempre encerrar cada condición entre paréntesis cuando combines varias.

#### Ejemplo con & (AND):


\# Filtrar filas donde la edad sea mayor a 25 y la ciudad sea Madrid

filtro = df\[(df\['edad'] > 25) & (df\['ciudad'] == 'Madrid')]

print(filtro)

**Resultado:**


&#x20; nombre  edad  ciudad

3  Lucía    28  Madrid

#### Ejemplo con | (OR):


\# Filtrar filas donde la edad sea mayor a 25 o la ciudad sea Sevilla

filtro = df\[(df\['edad'] > 25) | (df\['ciudad'] == 'Sevilla')]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan    30  Barcelona

2  Pedro    22     Sevilla

3  Lucía    28     Madrid

### 3. **Filtrar con la función isin()**

La función isin() es útil para filtrar filas que coincidan con una lista de valores específicos en una columna.

#### Ejemplo:


\# Filtrar filas donde la ciudad sea Madrid o Sevilla

filtro = df\[df\['ciudad'].isin(\['Madrid', 'Sevilla'])]

print(filtro)

**Resultado:**


&#x20; nombre  edad   ciudad

0    Ana    25   Madrid

2  Pedro    22  Sevilla

3  Lucía    28   Madrid

### 4. **Filtrar filas con valores nulos (isnull() y notnull())**

Puedes filtrar filas que contengan valores nulos (NaN) usando isnull() o notnull().

#### Ejemplo:


\# Crear un DataFrame con valores nulos

df2 = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro', 'Lucía'],

&#x20;   'edad': \[25, None, 22, 28],

&#x20;   'ciudad': \['Madrid', 'Barcelona', None, 'Madrid']

})



\# Filtrar filas donde haya valores nulos en la columna 'edad'

filtro = df2\[df2\['edad'].isnull()]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan   NaN  Barcelona

#### Filtrar filas donde no haya valores nulos en la columna 'edad':


filtro = df2\[df2\['edad'].notnull()]

print(filtro)

**Resultado:**


&#x20; nombre  edad   ciudad

0    Ana  25.0   Madrid

2  Pedro  22.0     None

3  Lucía  28.0   Madrid

### 5. **Filtrar con condiciones complejas (query() method)**

Pandas también proporciona el método query() para hacer filtrados con condiciones usando una sintaxis similar a SQL.

#### Ejemplo:


\# Filtrar filas donde la edad sea mayor a 25 y la ciudad sea Madrid usando query()

filtro = df.query('edad > 25 and ciudad == "Madrid"')

print(filtro)

**Resultado:**


&#x20; nombre  edad  ciudad

3  Lucía    28  Madrid

### 6. **Filtrar con texto (str.contains())**

Si necesitas filtrar datos basados en cadenas de texto, puedes usar str.contains() para buscar patrones en columnas de tipo string.

#### Ejemplo:


\# Filtrar filas donde la ciudad contenga la letra 'M'

filtro = df\[df\['ciudad'].str.contains('M')]

print(filtro)

**Resultado:**


&#x20; nombre  edad  ciudad

0    Ana    25  Madrid

3  Lucía    28  Madrid

### 7. **Filtrar usando índices**

También puedes filtrar filas basándote en el índice de las filas usando .loc\[] o .iloc\[].

#### Ejemplo con .loc\[]:


\# Filtrar filas con índices específicos

filtro = df.loc\[\[0, 2]]

print(filtro)

**Resultado:**


&#x20; nombre  edad   ciudad

0    Ana    25   Madrid

2  Pedro    22  Sevilla

#### Ejemplo con .iloc\[] (por posición):


\# Filtrar las primeras dos filas

filtro = df.iloc\[:2]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

0    Ana    25      Madrid

1   Juan    30  Barcelona

### 8. **Filtrar filas únicas (drop\_duplicates())**

Si quieres eliminar filas duplicadas, puedes usar drop\_duplicates().

#### Ejemplo:


\# Eliminar filas duplicadas en todas las columnas

filtro = df.drop\_duplicates()

print(filtro)

#### Ejemplo eliminando duplicados basados en una sola columna:


\# Eliminar filas duplicadas basadas solo en la columna 'nombre'

filtro = df.drop\_duplicates(subset='nombre')

print(filtro)

### 9. **Filtrar filas por rango de valores (between())**

El método between() permite filtrar filas dentro de un rango.

#### Ejemplo:


\# Filtrar filas donde la edad esté entre 23 y 30

filtro = df\[df\['edad'].between(23, 30)]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan    30  Barcelona

3  Lucía    28     Madrid

Estos son algunos ejemplos básicos y avanzados para filtrar datos en **Pandas** utilizando diversas condiciones. Si tienes algún caso específico o necesitas más detalles, ¡hazme saber!

# Una condición
df[df["columna"] == "un valor"]

# Dos condiciones 
df[(df["columna"] >= "un valor") & (df["columna"] <= "un valor")] # operador and
df[(df["columna"] <= "un valor") | (df["columna"] >= "un valor")] # operatos or

# Con .loc
df.loc[df["columna"] == "un valor"]
df.locdf[(df["columna"] <= "un valor") | (df["columna"] >= "un valor")] 

# Una condición
df[df["columna"] == "un valor"]["columna"] # Serie 

# Dos condiciones 
df[(df["columna"] >= "un valor") & (df["columna"] <= "un valor")][["columna uno", "columna 2"]] # DataFrame
df[(df["columna"] <= "un valor") | (df["columna"] >= "un valor")][["columna uno", "columna 2", "columna 2"]] # DataFrame

# Con .loc
df.loc[df["columna"] == "un valor", ["columna uno", "columna 2"]] # DataFrame
df.loc[(df["columna"] <= "un valor") | (df["columna"] >= "un valor"), "columna"] # Serie

# Ventas realizadas en Reino Unido, solo necesitamos Descripción y Cantidad:
uk_sales = retail_df[retail_df["Country"] == "United Kingdom"][["Description", "Quantity"]]

print("Ventas en Reino Unido")
display(uk_sales.head())

# Ventas realizadas en semana santa del 2011
# 17/abirl/2011 al 23/abril/2011
ss_2011 = retail_df[(retail_df["InvoiceDate"] >= pd.Timestamp(2011,4,17)) & (retail_df["InvoiceDate"] <= pd.Timestamp(2011,4,23))]

print("Semana Sanda 2011")
display(ss_2011.head())

# Solo las ventas de diciembre:
december_sales = retail_df.loc[
    (retail_df["InvoiceDate"].dt.year == 2011) & (retail_df["InvoiceDate"].dt.month == 12),
    ["Description", "Quantity", "UnitPrice", "TotalPrice"]    
  ]

print("Ventas de Diciembre de 2011")
display(december_sales.head())

def highest_sales_each_month(data):
    resultados = []
    for i in range(1, 13):
        results = data[
            (data['InvoiceDate'].dt.year == 2011) &
            (df['InvoiceDate'].dt.month == i)
        ]
        
        resultados.append(results[results['Quantity'] == results['Quantity'].max()])
    return resultados

print(highest_sales_each_month(df)[11])

import pandas as pd

\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro', 'Lucía'],

&#x20;   'edad': \[25, 30, 22, 28],

&#x20;   'ciudad': \['Madrid', 'Barcelona', 'Sevilla', 'Madrid']

})

\# Filtrar filas donde la edad sea mayor a 25

filtro = df\[df\['edad'] > 25]

print(filtro)

\# Crear un DataFrame con valores nulos

df2 = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro', 'Lucía'],

&#x20;   'edad': \[25, None, 22, 28],

&#x20;   'ciudad': \['Madrid', 'Barcelona', None, 'Madrid']

})

\# Filtrar filas donde haya valores nulos en la columna 'edad'

filtro = df2\[df2\['edad'].isnull()]

print(filtro)

Filtrado de Datos en Pandas para Análisis Efectivo

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Manipulación de Arrays NumPy para Análisis de Datos en Python

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Operaciones con Arrays en NumPy: Broadcasting, Concatenación y Más

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Operaciones de Álgebra Lineal con NumPy en Python

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

Selección de Datos en Pandas: Uso de iLoc y loc

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Transformaciones y Manipulación de Datos con Pandas en Python

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas