Análisis de Datos con Pandas: Series y DataFrames en RetailData

Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Análisis de Datos con Pandas: Series y DataFrames en RetailData

Resumen

Funciones de Resumen y Estadísticas en Pandas

Vamos a explorar algunas funciones de resumen y estadísticas que podemos utilizar con nuestro DataFrame.

Uso de describe() para obtener un resumen estadístico.

`# Resumen estadístico
summary = retail_data.describe()
print("Resumen estadístico:\\n", summary)`

Cálculo de la media y mediana.

Media:

mean_value = retail_data['Quantity'].mean()
print("Media de Quantity:", mean_value)

Mediana:

median_value = retail_data['Quantity'].median()
print("Mediana de Quantity:", median_value)

Suma y conteo de valores.

Suma:

total_sum = retail_data['Quantity'].sum()
print("Suma de Quantity:", total_sum)

Conteo de valores:


count_values = retail_data['Quantity'].count()
print("Conteo de Quantity:", count_values)

Desviación estándar y varianza.

Desviación estándar:


std_dev = retail_data['Quantity'].std()
print("Desviación estándar de Quantity:", std_dev)

Varianza

variance = retail_data['Quantity'].var()
print("Varianza de Quantity:", variance)

Mínimo, Máximo y Producto.

Mínimo:

min_value = retail_data['Quantity'].min()
print("Mínimo de Quantity:", min_value)

Máximo:

max_value = retail_data['Quantity'].max()
print("Máximo de Quantity:", max_value)

Producto:

prod_value = retail_data['Quantity'].prod()
print("Producto de Quantity:", prod_value)

Mario Alexander Vargas Celis

Estudiante

### Estructuras de Datos en Pandas y Funciones

Pandas proporciona dos estructuras de datos principales: **Series** y **DataFrame**, que permiten el análisis y manipulación de datos de una manera muy eficiente.

---

### 1. **Series**

Una **Series** es una estructura unidimensional similar a un array, lista o columna de una tabla. Cada elemento en una Series tiene una **etiqueta** o **índice**, lo que la convierte en una estructura de datos similar a un diccionario, con pares clave-valor.

#### Creación de una Serie:


import pandas as pd



\# Crear una Serie desde una lista

serie = pd.Series(\[10, 20, 30, 40])



\# Crear una Serie con índices personalizados

serie\_personalizada = pd.Series(\[100, 200, 300], index=\['a', 'b', 'c'])



print(serie)

print(serie\_personalizada)

**Funciones importantes en Series:**

- **.head()**: Devuelve los primeros elementos de la Serie.

- **.tail()**: Devuelve los últimos elementos de la Serie.

- **.sum()**: Suma de todos los elementos.

- **.mean()**: Media de los elementos.

- **.max(), .min()**: Máximo y mínimo valor de la Serie.

- **.describe()**: Proporciona un resumen estadístico.

- **.value_counts()**: Cuenta los valores únicos en la Serie.

---

### 2. **DataFrame**

Un **DataFrame** es una estructura de datos bidimensional con columnas etiquetadas, que puede contener datos de diferentes tipos (números, cadenas, booleanos). Es la estructura más utilizada en Pandas y se puede entender como una tabla de datos similar a una hoja de cálculo o una tabla SQL.

#### Creación de un DataFrame:


\# Crear un DataFrame desde un diccionario

data = {

&#x20;   'Nombre': \['Ana', 'Luis', 'Carlos'],

&#x20;   'Edad': \[23, 45, 36],

&#x20;   'Ciudad': \['Madrid', 'Barcelona', 'Valencia']

}



df = pd.DataFrame(data)



print(df)

#### Funciones comunes en DataFrame:

- **.shape**: Muestra las dimensiones (filas, columnas) del DataFrame.

- **.info()**: Proporciona información sobre el DataFrame (tipo de datos, valores nulos, etc.).

- **.describe()**: Devuelve estadísticas descriptivas de las columnas numéricas.

- **.head(n)**: Muestra las primeras n filas del DataFrame.

- **.tail(n)**: Muestra las últimas n filas.

- **.columns**: Devuelve los nombres de las columnas.

- **.dtypes**: Devuelve los tipos de datos de las columnas.

#### Indexación en DataFrames:

Puedes acceder a columnas, filas o subconjuntos de datos mediante diferentes métodos.

- **Acceder a columnas**:


\# Acceder a una columna específica

df\['Nombre']



\# Acceder a varias columnas

df\[\['Nombre', 'Edad']]

- **Acceder a filas** (con .loc\[] o .iloc\[]):


\# Acceder a una fila por etiqueta (índice)

df.loc\[0]



\# Acceder a una fila por posición

df.iloc\[0]

---

### 3. **Funciones para Manipulación de Datos**

#### A) **Seleccionar Datos**

Puedes seleccionar datos de un DataFrame utilizando **condiciones**:


\# Filtrar filas donde la edad sea mayor que 30

df\_filtrado = df\[df\['Edad'] > 30]

print(df\_filtrado)

#### B) **Añadir, Modificar y Eliminar Columnas**

- **Añadir columnas**:


df\['Salario'] = \[3000, 4000, 5000]  # Añadir una nueva columna

- **Modificar columnas**:


df\['Edad'] = df\['Edad'] + 5  # Incrementar la edad en 5 años

- **Eliminar columnas**:


df = df.drop(columns=\['Salario'])  # Eliminar la columna 'Salario'

#### C) **Agrupación y Agregación de Datos**

- **groupby()**: Agrupa los datos según una columna y aplica funciones agregadas como sum, mean, count, etc.


df\_agrupado = df.groupby('Ciudad')\['Edad'].mean()

print(df\_agrupado)

#### D) **Operaciones de Fusión y Unión**

- **concat()**: Para unir DataFrames vertical u horizontalmente.


df1 = pd.DataFrame({'A': \[1, 2], 'B': \[3, 4]})

df2 = pd.DataFrame({'A': \[5, 6], 'B': \[7, 8]})



df\_concatenado = pd.concat(\[df1, df2], axis=0)  # Unión vertical

- **merge()**: Para combinar DataFrames sobre la base de columnas o índices comunes.


df\_left = pd.DataFrame({'key': \['A', 'B', 'C'], 'left\_value': \[1, 2, 3]})

df\_right = pd.DataFrame({'key': \['B', 'C', 'D'], 'right\_value': \[4, 5, 6]})



df\_merge = pd.merge(df\_left, df\_right, on='key', how='inner')  # Unión por 'key'

print(df\_merge)

#### E) **Manejo de Datos Faltantes**

- **isnull()**: Devuelve un DataFrame con valores True donde hay valores nulos.

- **dropna()**: Elimina filas o columnas con valores nulos.

- **fillna()**: Rellena los valores nulos con un valor específico.


df = pd.DataFrame({'A': \[1, None, 3], 'B': \[4, 5, None]})



\# Rellenar valores nulos

df\_relleno = df.fillna(0)



\# Eliminar filas con valores nulos

df\_sin\_na = df.dropna()

#### F) **Ordenar Datos**

- **sort_values()**: Ordena los datos por valores de una columna.


df\_ordenado = df.sort\_values(by='Edad', ascending=False)

print(df\_ordenado)

---

### 4. **Funciones Estadísticas en Pandas**

Pandas tiene una variedad de funciones estadísticas útiles para análisis de datos:

- **.sum()**: Suma de los valores.

- **.mean()**: Media de los valores.

- **.median()**: Mediana de los valores.

- **.std()**: Desviación estándar.

- **.corr()**: Correlación entre columnas.

- **.count()**: Número de valores no nulos.


\# Ejemplo de uso de funciones estadísticas

df\['Edad'].mean()   # Media de la columna 'Edad'

df\['Edad'].std()    # Desviación estándar

df.corr()           # Correlación entre las columnas numéricas

---

### Conclusión

Pandas es una herramienta muy poderosa para la manipulación y análisis de datos. Con sus estructuras de datos principales (Series y DataFrame) y una amplia gama de funciones y métodos, es posible realizar operaciones complejas de manera eficiente. Esencial para la ciencia de datos, análisis financiero, procesamiento de archivos grandes y más.

Antonio Demarco Bonino

iecgerman .

Fidel Ortega Guzman

Neicer Vásquez

Alejandro Gonzalez

Paola Alapizco

Alberto Duque Villegas

Roberto Arriaga

Bernardo Jimenez Sanchez

Esteban Diaz Diez

Gabriel Obregón

Jesús Alberto Romero Hernández

Elias Echeverri

Cristian Alexander Vallejos De la rosa

Saul Antonio Cerén Gálvez

Fernando Alvarado

Johann Camilo Soracá Zea

Pamela Natalie Reintsch Ortiz

Tino Ponce

Ignacio Robles

Marina Barraza

Análisis de Datos con Pandas: Series y DataFrames en RetailData

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Atributos, dtypes y estadística en arrays NumPy

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Broadcasting y operaciones entre arrays en NumPy

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Álgebra lineal con NumPy y linalg

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python