Filtrado de Datos en Pandas para Análisis Efectivo

Cursos Empresas Blog Live Conf Precios

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Filtrado de Datos en Pandas para Análisis Efectivo

Resumen

¿Cómo aplicar el filtrado de datos en Pandas?

El filtrado de datos es una técnica esencial en el análisis de datos que nos permite concentrarnos en subconjuntos relevantes basándose en condiciones específicas. Imagina que puedes centrarte únicamente en las ventas de un país determinado, evaluar productos que superen un umbral de ventas, o analizar transacciones dentro de un período de tiempo concreto. Todo esto es posible con el filtrado de datos en Pandas, una poderosa librería de Python.

¿Cómo extraer un subconjunto de datos según un criterio específico?

Para realizar filtrado de datos, primero debemos importar la librería Pandas y tener un DataFrame ya cargado. Supongamos que queremos filtrar las ventas realizadas en el Reino Unido. El proceso es el siguiente:

# Filtrar ventas en Reino Unido
uk_sales = sales_data[sales_data['Country'] == 'United Kingdom']
print(uk_sales)

Es crucial asegurarse de que no hay espacios en el nombre del país al aplicar estos filtros, ya que podría devolver un DataFrame vacío por un error tipográfico.

¿Cómo implementar operaciones de comparación en columnas?

Pandas nos ofrece la posibilidad de aplicar operadores de comparación para filtrar datos, por ejemplo, seleccionar ventas donde la cantidad sea superior a un determinado número:

# Filtrar ventas donde la cantidad sea mayor a 10
high_quantity_sales = sales_data[sales_data['Quantity'] > 10]
print(high_quantity_sales)

Podemos cambiar el número de comparación para ajustar el filtrado según nuestras necesidades.

¿Cómo combinar condiciones de filtrado?

A menudo, es necesario aplicar múltiples filtros para obtener un conjunto de datos aún más específico. A continuación se muestra cómo podemos filtrar las ventas que cumplan dos condiciones: ventas en el Reino Unido y con cantidades superiores a 40:

# Filtrar ventas altas en Reino Unido
high_uk_sales = sales_data[
    (sales_data['Country'] == 'United Kingdom') & 
    (sales_data['Quantity'] > 40)
]
print(high_uk_sales)

Al combinar condiciones, utilizamos el operador & para asegurarnos de que ambas condiciones se cumplan simultáneamente.

¿Cómo manejar series de tiempo en filtrado de datos?

Pandas nos permite trabajar con series de tiempo, lo que facilita el filtrado por años, meses o días específicos. Por ejemplo, si deseamos solo las ventas del año 2011:

# Filtrar ventas del año 2011
sales_2011 = sales_data[sales_data['InvoiceDate'].dt.year == 2011]
print(sales_2011)

Al acceder a las propiedades de una serie de tiempo, podemos utilizar dt para especificar atributos como el año, mes o día.

¿Cómo aplicar filtrado con condiciones de año y mes?

Para filtrar por un año y un mes específicos, el siguiente código muestra cómo obtener las ventas de diciembre de 2010:

# Filtrar ventas de diciembre de 2010
december_2010_sales = sales_data[
    (sales_data['InvoiceDate'].dt.year == 2010) & 
    (sales_data['InvoiceDate'].dt.month == 12)
]
print(december_2010_sales)

Este método es útil para análisis temporales detallados donde los patrones estacionales pueden ser importantes.

Recomendaciones finales para el análisis de datos

Con el filtrado de datos, podemos obtener insights valiosos de grandes conjuntos de datos, ayudándonos a ofrecer análisis precisos a nuestros clientes o stakeholders. Es imprescindible aplicar estos conceptos paralelamente con datasets propios, ya que esto enriquece nuestro portafolio y amplía nuestras habilidades analíticas. Siempre intenta experimentar y ajustar los filtros según las características de tu conjunto de datos para obtener información más profunda y valiosa.

Mario Alexander Vargas Celis

student

En **Pandas**, el filtrado de datos basado en condiciones es una operación clave para seleccionar filas de un **DataFrame** que cumplan ciertos criterios. Aquí te muestro varias formas de hacerlo con ejemplos.

### 1. **Filtrado básico con una condición**

Puedes filtrar filas de un DataFrame usando operadores lógicos como ==, >, <, etc.

#### Ejemplo:


import pandas as pd



\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro', 'Lucía'],

&#x20;   'edad': \[25, 30, 22, 28],

&#x20;   'ciudad': \['Madrid', 'Barcelona', 'Sevilla', 'Madrid']

})



\# Filtrar filas donde la edad sea mayor a 25

filtro = df\[df\['edad'] > 25]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan    30  Barcelona

3  Lucía    28     Madrid

### 2. **Filtrado con múltiples condiciones**

Puedes combinar múltiples condiciones usando operadores lógicos:

- & para "y" lógico (AND).

- | para "o" lógico (OR).

- ~ para "no" lógico (NOT).

Recuerda siempre encerrar cada condición entre paréntesis cuando combines varias.

#### Ejemplo con & (AND):


\# Filtrar filas donde la edad sea mayor a 25 y la ciudad sea Madrid

filtro = df\[(df\['edad'] > 25) & (df\['ciudad'] == 'Madrid')]

print(filtro)

**Resultado:**


&#x20; nombre  edad  ciudad

3  Lucía    28  Madrid

#### Ejemplo con | (OR):


\# Filtrar filas donde la edad sea mayor a 25 o la ciudad sea Sevilla

filtro = df\[(df\['edad'] > 25) | (df\['ciudad'] == 'Sevilla')]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan    30  Barcelona

2  Pedro    22     Sevilla

3  Lucía    28     Madrid

### 3. **Filtrar con la función isin()**

La función isin() es útil para filtrar filas que coincidan con una lista de valores específicos en una columna.

#### Ejemplo:


\# Filtrar filas donde la ciudad sea Madrid o Sevilla

filtro = df\[df\['ciudad'].isin(\['Madrid', 'Sevilla'])]

print(filtro)

**Resultado:**


&#x20; nombre  edad   ciudad

0    Ana    25   Madrid

2  Pedro    22  Sevilla

3  Lucía    28   Madrid

### 4. **Filtrar filas con valores nulos (isnull() y notnull())**

Puedes filtrar filas que contengan valores nulos (NaN) usando isnull() o notnull().

#### Ejemplo:


\# Crear un DataFrame con valores nulos

df2 = pd.DataFrame({

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro', 'Lucía'],

&#x20;   'edad': \[25, None, 22, 28],

&#x20;   'ciudad': \['Madrid', 'Barcelona', None, 'Madrid']

})



\# Filtrar filas donde haya valores nulos en la columna 'edad'

filtro = df2\[df2\['edad'].isnull()]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan   NaN  Barcelona

#### Filtrar filas donde no haya valores nulos en la columna 'edad':


filtro = df2\[df2\['edad'].notnull()]

print(filtro)

**Resultado:**


&#x20; nombre  edad   ciudad

0    Ana  25.0   Madrid

2  Pedro  22.0     None

3  Lucía  28.0   Madrid

### 5. **Filtrar con condiciones complejas (query() method)**

Pandas también proporciona el método query() para hacer filtrados con condiciones usando una sintaxis similar a SQL.

#### Ejemplo:


\# Filtrar filas donde la edad sea mayor a 25 y la ciudad sea Madrid usando query()

filtro = df.query('edad > 25 and ciudad == "Madrid"')

print(filtro)

**Resultado:**


&#x20; nombre  edad  ciudad

3  Lucía    28  Madrid

### 6. **Filtrar con texto (str.contains())**

Si necesitas filtrar datos basados en cadenas de texto, puedes usar str.contains() para buscar patrones en columnas de tipo string.

#### Ejemplo:


\# Filtrar filas donde la ciudad contenga la letra 'M'

filtro = df\[df\['ciudad'].str.contains('M')]

print(filtro)

**Resultado:**


&#x20; nombre  edad  ciudad

0    Ana    25  Madrid

3  Lucía    28  Madrid

### 7. **Filtrar usando índices**

También puedes filtrar filas basándote en el índice de las filas usando .loc\[] o .iloc\[].

#### Ejemplo con .loc\[]:


\# Filtrar filas con índices específicos

filtro = df.loc\[\[0, 2]]

print(filtro)

**Resultado:**


&#x20; nombre  edad   ciudad

0    Ana    25   Madrid

2  Pedro    22  Sevilla

#### Ejemplo con .iloc\[] (por posición):


\# Filtrar las primeras dos filas

filtro = df.iloc\[:2]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

0    Ana    25      Madrid

1   Juan    30  Barcelona

### 8. **Filtrar filas únicas (drop\_duplicates())**

Si quieres eliminar filas duplicadas, puedes usar drop\_duplicates().

#### Ejemplo:


\# Eliminar filas duplicadas en todas las columnas

filtro = df.drop\_duplicates()

print(filtro)

#### Ejemplo eliminando duplicados basados en una sola columna:


\# Eliminar filas duplicadas basadas solo en la columna 'nombre'

filtro = df.drop\_duplicates(subset='nombre')

print(filtro)

### 9. **Filtrar filas por rango de valores (between())**

El método between() permite filtrar filas dentro de un rango.

#### Ejemplo:


\# Filtrar filas donde la edad esté entre 23 y 30

filtro = df\[df\['edad'].between(23, 30)]

print(filtro)

**Resultado:**


&#x20; nombre  edad      ciudad

1   Juan    30  Barcelona

3  Lucía    28     Madrid

Estos son algunos ejemplos básicos y avanzados para filtrar datos en **Pandas** utilizando diversas condiciones. Si tienes algún caso específico o necesitas más detalles, ¡hazme saber!

René Vergara

Esteban Diaz Diez

Pável Hernández Reza

Javier Villarreal

Manuel Gomez

Nahuel Caero

•

Jhon Freddy Tavera Blandon

Gabriel Obregón

Marina Barraza

Diego Andrés Lopez Rodriguez

Cristian Alexander Vallejos De la rosa

Saul Antonio Cerén Gálvez

Francisco Diez

Jaime Lopez Hidalgo

FABIAN PEREZ

Rigoberto Acosta González

Cesar Augusto Vega Lizarazo

Christopher Andrés Guano Valencia

Paola Alapizco

Neicer Vásquez

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Manipulación de Arrays NumPy para Análisis de Datos en Python

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Operaciones con Arrays en NumPy: Broadcasting, Concatenación y Más

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Operaciones de Álgebra Lineal con NumPy en Python

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

Selección de Datos en Pandas: Uso de iLoc y loc

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Transformaciones y Manipulación de Datos con Pandas en Python

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas