Fechas en Pandas: datetime, índice y filtros

Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Fechas en Pandas: datetime, índice y filtros

Resumen

Trabajar con datos temporales es una de las tareas más frecuentes en el análisis de datos, y Pandas ofrece herramientas poderosas para hacerlo de forma eficiente. Cuando las fechas llegan como cadenas de texto desde archivos CSV u otras fuentes, es indispensable convertirlas al tipo datetime para habilitar operaciones como filtrado por rangos, resampling y análisis de tendencias.

¿Por qué convertir columnas al tipo datetime?

Al cargar un dataset, es común que columnas como Invoice Date aparezcan con tipo de dato object o string [0:40]. Esto limita cualquier operación temporal. Para solucionarlo, se utiliza la función pd.to_datetime(), que transforma la columna completa al formato adecuado.

python df['Invoice Date'] = pd.to_datetime(df['Invoice Date'])

Después de ejecutar esta conversión, al consultar df.info() se confirma que la columna ahora tiene tipo datetime64 [1:22]. Este paso es fundamental antes de cualquier análisis temporal.

También es recomendable eliminar valores nulos en la columna de fechas utilizando dropna() con el parámetro subset para especificar la columna y el parámetro inplace=True para modificar el DataFrame directamente sin generar una copia [1:40].

python df.dropna(subset=['Invoice Date'], inplace=True)

¿Cómo establecer fechas como índice y extraer componentes?

Una práctica muy útil es asignar la columna de fechas como índice del DataFrame mediante set_index() [2:20]. Esto permite acceder a los datos por fecha de forma directa.

python df.set_index('Invoice Date', inplace=True)

Una vez que el índice es de tipo datetime, se pueden descomponer sus componentes en columnas independientes [3:00]:

df['año'] = df.index.year extrae el año.
df['mes'] = df.index.month extrae el mes.
df['dia'] = df.index.day extrae el día.
df['dia_semana'] = df.index.dayofweek devuelve un número del 0 al 6, donde 0 es lunes.
df['hora'] = df.index.hour extrae la hora.

El formato que se respeta en el índice es año-mes-día hora:minutos:segundos [2:50]. Es importante verificar siempre el resultado imprimiendo el DataFrame completo después de cada modificación para asegurar que todo esté correcto [4:20].

¿Qué hacer si se comete un error al crear una columna?

Si una columna se crea con un nombre incorrecto, la mejor estrategia es eliminarla con drop() y volver a crearla correctamente [4:50]. Al crear la nueva columna sin especificar posición, esta se agrega al final del DataFrame.

python df = df.drop(columns=['nombre_incorrecto'])

¿Cómo filtrar datos por fechas y crear rangos temporales?

Cuando el índice es de tipo datetime, el método loc permite filtrar directamente por año o por combinación de año y mes [5:50]:

python df_2011 = df.loc['2011'] df_dic_2011 = df.loc['2011-12']

También se pueden extraer rangos de fechas haciendo un slice dentro de loc [7:00]:

python df_rango = df.loc['2010-12-01':'2010-12-15']

Esto devuelve todas las filas comprendidas entre ambas fechas, incluyendo los extremos.

¿Cómo generar rangos de fechas desde cero?

Pandas incluye la función pd.date_range() para crear secuencias de fechas personalizadas [7:50]. Se especifica una fecha de inicio, una de fin y la frecuencia deseada.

python rango = pd.date_range(start='2024-01-01', end='2024-12-31', freq='D') df_fechas = pd.DataFrame(rango, columns=['date'])

El parámetro freq='D' indica frecuencia diaria, generando cada día dentro del rango especificado [8:10]. Esta funcionalidad es muy útil para crear DataFrames temporales desde cero.

Dominar el tipo datetime en Pandas abre la puerta a análisis temporales robustos. Con los datos transformados y organizados, el siguiente paso natural es pensar en cómo visualizar esta información para comunicarla de forma efectiva al stakeholder. ¿Qué tipo de visualización consideras más adecuada para datos temporales? Comparte tu opinión en los comentarios.

Mario Alexander Vargas Celis

Estudiante

El manejo de **series temporales** es fundamental cuando trabajamos con datos que incluyen fechas y tiempos. **Pandas** proporciona herramientas poderosas para manipular, analizar y visualizar series temporales de manera eficiente. Aquí te explico las operaciones clave que puedes realizar con **Pandas** para trabajar con datos de tipo temporal.

### 1. **Creación de Series Temporales**

#### Crear una serie de fechas:

Puedes crear una serie de fechas usando pd.date\_range().


import pandas as pd



\# Crear una serie de fechas desde el 1 de enero de 2023, con 10 días de frecuencia

fechas = pd.date\_range(start='2023-01-01', periods=10, freq='D')

print(fechas)

#### Crear un DataFrame con una columna de fechas:


\# Crear un DataFrame con fechas y datos

data = pd.DataFrame({

&#x20;   'fecha': pd.date\_range('2023-01-01', periods=10, freq='D'),

&#x20;   'valor': range(10)

})

print(data)

### 2. **Conversión de Fechas (Datetime)**

Si tienes una columna de fechas como texto, puedes convertirla a formato **datetime** usando pd.to\_datetime().


\# Crear un DataFrame con fechas como cadenas

data = pd.DataFrame({

&#x20;   'fecha': \['2023-01-01', '2023-01-02', '2023-01-03'],

&#x20;   'valor': \[10, 20, 30]

})



\# Convertir la columna 'fecha' a formato datetime

data\['fecha'] = pd.to\_datetime(data\['fecha'])

print(data.dtypes)

### 3. **Indexación y Selección por Fechas**

Cuando trabajas con series temporales, a menudo querrás usar las fechas como índice. Esto facilita la selección de datos basados en intervalos de tiempo.

#### Establecer una columna de fechas como índice:


data.set\_index('fecha', inplace=True)

print(data)

#### Selección de datos por fecha:


\# Seleccionar datos de una fecha específica

print(data.loc\['2023-01-02'])



\# Seleccionar datos por rango de fechas

print(data.loc\['2023-01-01':'2023-01-03'])

### 4. **Resampling (Re-Muestreo)**

El **resampling** permite agrupar datos por diferentes frecuencias de tiempo (como días, meses, o años). Es útil para agregar, promediar o tomar la suma de datos en diferentes intervalos de tiempo.

#### Ejemplo de re-muestreo a frecuencia mensual:


\# Crear un DataFrame con datos diarios

data = pd.DataFrame({

&#x20;   'fecha': pd.date\_range(start='2023-01-01', periods=100, freq='D'),

&#x20;   'valor': range(100)

})

data.set\_index('fecha', inplace=True)



\# Re-muestrear a frecuencia mensual y sumar los valores

data\_mensual = data.resample('M').sum()

print(data\_mensual)

#### Frecuencias comunes para resampling:

- D: Día.

- M: Mes.

- Y: Año.

- H: Hora.

- T: Minuto.

### 5. **Shifting y Lagging**

El desplazamiento (shift()) se utiliza para mover datos hacia adelante o hacia atrás en el tiempo. Esto es útil para calcular diferencias entre períodos consecutivos.

#### Ejemplo de shift():


\# Desplazar los valores hacia abajo

data\['valor\_shift'] = data\['valor'].shift(1)

print(data)

#### Calcular la diferencia entre períodos:


\# Calcular la diferencia entre un valor y el anterior

data\['diferencia'] = data\['valor'] - data\['valor'].shift(1)

print(data)

### 6. **Ventanas Móviles (Rolling Windows)**

Las ventanas móviles permiten aplicar funciones (como media, suma, etc.) sobre ventanas deslizantes de datos temporales.

#### Ejemplo de media móvil:


\# Calcular la media móvil de 3 días

data\['media\_movil'] = data\['valor'].rolling(window=3).mean()

print(data)

### 7. **Frecuencias de Fechas Personalizadas**

Pandas permite trabajar con diferentes frecuencias de tiempo, no solo días o meses. Puedes crear series de tiempo con frecuencias personalizadas, como días laborables (B), horas (H), semanas (W), etc.

#### Ejemplo de días laborables:


\# Crear una serie temporal solo con días laborables

fechas\_laborables = pd.date\_range(start='2023-01-01', periods=10, freq='B')

print(fechas\_laborables)

#### Frecuencias comunes:

- B: Días laborables.

- W: Semanas.

- H: Horas.

- T o min: Minutos.

- S: Segundos.

### 8. **Visualización de Series Temporales**

Podemos usar **Matplotlib** para visualizar datos de series temporales.

#### Ejemplo de gráfico de línea para una serie temporal:


import matplotlib.pyplot as plt



\# Crear una serie temporal con datos aleatorios

data = pd.DataFrame({

&#x20;   'fecha': pd.date\_range(start='2023-01-01', periods=100, freq='D'),

&#x20;   'valor': np.random.randn(100).cumsum()

})

data.set\_index('fecha', inplace=True)



\# Graficar la serie temporal

data\['valor'].plot(title='Serie Temporal')

plt.xlabel('Fecha')

plt.ylabel('Valor')

plt.show()

### 9. **Resampling con Agregaciones Personalizadas**

Además de sumar o promediar, puedes aplicar cualquier función personalizada al re-muestrear los datos.

#### Ejemplo de re-muestreo con agregación personalizada:


\# Re-muestrear por mes y aplicar diferentes agregaciones

data\_resample = data.resample('M').agg({

&#x20;   'valor': \['sum', 'mean', 'max']

})

print(data\_resample)

### 10. **Manipulación Avanzada de Series Temporales**

#### Descomposición estacional:

Puedes descomponer una serie temporal en sus componentes estacionales, tendencia y residuales usando statsmodels.


from statsmodels.tsa.seasonal import seasonal\_decompose



\# Descomponer la serie temporal

resultado = seasonal\_decompose(data\['valor'], model='additive', period=30)



\# Graficar los resultados de la descomposición

resultado.plot()

plt.show()

#### Ajuste de zonas horarias (time zones):

Pandas permite ajustar y convertir zonas horarias de manera eficiente.


\# Convertir a zona horaria UTC

data = data.tz\_localize('UTC')



\# Convertir a una nueva zona horaria

data = data.tz\_convert('America/New\_York')

print(data)

### Resumen de Operaciones Clave:

- **pd.date\_range()**: Para crear series de fechas.

- **pd.to\_datetime()**: Para convertir columnas de fechas.

- **set\_index()**: Para establecer fechas como índice.

- **resample()**: Para cambiar la frecuencia temporal.

- **shift()**: Para desplazar datos en el tiempo.

- **rolling()**: Para aplicar funciones sobre ventanas móviles.

- **tz\_localize() y tz\_convert()**: Para ajustar zonas horarias.

Con estas herramientas puedes manejar series temporales de manera eficiente en Pandas. Si tienes alguna duda o quieres profundizar en un tema específico, ¡avísame!

Federico Arias

Javier Villarreal

Juan Sebastián Parrado Gutiérrez

Andres Buelvas Diago

Paola Alapizco

Karla Verónica Álvarez Vázquez

Roberto Arriaga

Winston Andrés Licona Briceño

Christopher Flores

Christopher Andrés Guano Valencia

Marina Barraza

Jhon Freddy Tavera Blandon

Víctor Alexis Matos Ramírez

Gabriela Parada Puig

Sura Naileth Cedeño Lopez

Team Platzi

Diego Jurado

Carlos Eduardo Urribarri Nava

Luigi Castro Alvis

Gabriel Obregón

Andrés Sotelo Durán

Fechas en Pandas: datetime, índice y filtros

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Atributos, dtypes y estadística en arrays NumPy

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Broadcasting y operaciones entre arrays en NumPy

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Álgebra lineal con NumPy y linalg

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

iloc vs loc en Pandas para filtrar datos

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Cómo crear columnas nuevas en Pandas

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

Filtrado de datos en pandas con condiciones

Creación y manejo de Pivot Tables en pandas

Fusión de DataFrames con Pandas: merge, concat y join