No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Pandas para Manipulación de Datos

12/32
Recursos

Online retail.csv
Datos obtenidos de Daqing Chen, Sai Liang Sain, and Kun Guo, Data mining for the online retail industry: A case study of RFM model-based customer segmentation using data mining, Journal of Database Marketing and Customer Strategy Management, Vol. 19, No. 3, pp. 197–208, 2012 (Published online before print: 27 August 2012. doi: 10.1057/dbm.2012.17).

Aportes 17

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Tenia este error al importar el CSV ![](https://static.platzi.com/media/user_upload/image-86be3658-eb3d-40e3-b8a4-f759331790e9.jpg) Que se soluciona agregando un econding='windows-1252' o enconding='latin1' ![](https://static.platzi.com/media/user_upload/image-cd612bf8-f49a-4a55-bce7-34d643a693d0.jpg)
\### Pandas para Manipulación de Datos \*\*Pandas\*\* es una librería poderosa y flexible de Python que se utiliza principalmente para manipulación, análisis y limpieza de datos. Proporciona dos estructuras de datos principales: \*\*Series\*\* (para datos unidimensionales) y \*\*DataFrames\*\* (para datos bidimensionales), que permiten trabajar con conjuntos de datos de manera eficiente. A continuación, te explico las principales funcionalidades de Pandas para la manipulación de datos: \--- \### 1. \*\*Creación de DataFrames\*\* Un \*\*DataFrame\*\* es la estructura principal en Pandas. Es una tabla bidimensional con columnas etiquetadas de diferentes tipos (numéricas, de texto, etc.). Puedes crear DataFrames de varias maneras. \#### A) A partir de un diccionario: ```python import pandas as pd \# Crear un DataFrame desde un diccionario data = { 'Nombre': \['Ana', 'Luis', 'Carlos'], 'Edad': \[23, 45, 36], 'Ciudad': \['Madrid', 'Barcelona', 'Valencia'] } df = pd.DataFrame(data) print(df) ``` \#### B) A partir de un archivo CSV: ```python df = pd.read\_csv('archivo.csv') ``` \--- \### 2. \*\*Indexación y Selección de Datos\*\* Pandas ofrece diversas formas para seleccionar y filtrar datos en un DataFrame. \#### A) Selección de columnas: ```python \# Seleccionar una columna edades = df\['Edad'] \# Seleccionar múltiples columnas df\_subset = df\[\['Nombre', 'Edad']] ``` \#### B) Selección de filas por etiqueta o posición: ```python \# Seleccionar por posición (iloc) primera\_fila = df.iloc\[0] \# Seleccionar por etiqueta (loc) fila\_ana = df.loc\[df\['Nombre'] == 'Ana'] ``` \#### C) Filtrado de datos: Puedes aplicar condiciones para filtrar filas. ```python \# Filtrar filas donde la edad es mayor de 30 mayores\_de\_30 = df\[df\['Edad'] > 30] ``` \--- \### 3. \*\*Operaciones Básicas\*\* \#### A) Descripción rápida de los datos: Puedes obtener un resumen rápido de tu conjunto de datos con `describe()` o con métodos como `mean()`, `sum()`, etc. ```python df.describe() # Resumen estadístico de las columnas numéricas ``` \#### B) Renombrar columnas: ```python df.rename(columns={'Nombre': 'Nombre\_Completo'}, inplace=True) ``` \#### C) Ordenar los datos: ```python df.sort\_values(by='Edad', ascending=False, inplace=True) # Ordenar por edad descendente ``` \--- \### 4. \*\*Manejo de Valores Nulos\*\* Los valores faltantes o nulos son comunes en los conjuntos de datos y es importante gestionarlos correctamente. \#### A) Identificar valores nulos: ```python df.isnull().sum() # Contar valores nulos por columna ``` \#### B) Eliminar filas o columnas con valores nulos: ```python df.dropna(inplace=True) # Eliminar filas con valores nulos ``` \#### C) Rellenar valores nulos: ```python df.fillna(value=0, inplace=True) # Rellenar valores nulos con 0 ``` \--- \### 5. \*\*Transformación de Datos\*\* Pandas permite aplicar funciones a las columnas o filas para transformar los datos. \#### A) Aplicar funciones a columnas: ```python \# Calcular 10% de descuento en una columna de precios df\['Precio\_Descuento'] = df\['Precio'].apply(lambda x: x \* 0.9) ``` \#### B) Agrupar datos: Puedes agrupar datos y realizar agregaciones. ```python \# Agrupar por la columna 'Ciudad' y calcular la edad media df\_grouped = df.groupby('Ciudad')\['Edad'].mean() ``` \#### C) Pivotar datos: ```python df\_pivot = df.pivot\_table(values='Edad', index='Ciudad', columns='Sexo', aggfunc='mean') ``` \--- \### 6. \*\*Fusión y Unión de DataFrames\*\* Pandas ofrece diversas formas de combinar y fusionar DataFrames. \#### A) Concatenar DataFrames: ```python df\_concatenado = pd.concat(\[df1, df2]) ``` \#### B) Fusión (Join) de DataFrames: ```python df\_merged = pd.merge(df1, df2, on='clave\_común', how='inner') # Tipos: 'inner', 'left', 'right', 'outer' ``` \--- \### 7. \*\*Visualización de Datos con Pandas\*\* Aunque Pandas no es una librería de visualización por sí sola, se integra fácilmente con \*\*Matplotlib\*\* para generar gráficos rápidos. \#### A) Gráficos rápidos: ```python df\['Edad'].plot(kind='hist') # Histograma de la columna 'Edad' ``` \#### B) Gráficos avanzados con Matplotlib: ```python import matplotlib.pyplot as plt df\['Edad'].plot(kind='bar') plt.show() ``` \--- \### 8. \*\*Exportar Datos\*\* Después de manipular los datos, puedes exportarlos a diversos formatos. \#### A) Exportar a CSV: ```python df.to\_csv('archivo\_modificado.csv', index=False) ``` \#### B) Exportar a Excel: ```python df.to\_excel('archivo\_modificado.xlsx', index=False) ``` \--- \### 9. \*\*Optimización en Pandas\*\* \#### A) Tipos de datos adecuados: Usar los tipos de datos correctos en Pandas puede reducir el uso de memoria y mejorar el rendimiento. Por ejemplo, puedes convertir columnas de enteros a enteros de menor tamaño (`int8`, `int16`), o columnas categóricas a `category`. ```python df\['Categoría'] = df\['Categoría'].astype('category') ``` \#### B) Uso eficiente de `apply` y `vectorización`: Evita el uso excesivo de `apply` en funciones que pueden vectorizarse, ya que `apply` es más lento en comparación con las operaciones vectorizadas. \--- \### Conclusión Pandas proporciona una amplia gama de herramientas para manipular y analizar datos de manera eficiente y flexible. Desde la selección y filtrado de datos hasta la limpieza, transformación y visualización, Pandas es una herramienta esencial para cualquier científico de datos o analista. Con la optimización adecuada y un buen conocimiento de las técnicas avanzadas, puedes trabajar con grandes volúmenes de datos de manera eficiente.
```js import pandas as pd df = pd.read_csv(r'C:\numypanda\Online_Retail.csv',encoding='latin') #print(type(df)) print(df) ```import pandas as pd df = pd.read\_csv(r'C:\numypanda\Online\_Retail.csv',encoding='latin')#print(type(df))print(df)
Por si les pasa que tienen números en formato texto este es un buen cambio: ![](https://static.platzi.com/media/user_upload/image-d48b031b-5c7f-4e12-8181-46834f1dc5f3.jpg)Y si quieren pasar de texto a fecha: ![](https://static.platzi.com/media/user_upload/image-0e17d088-cc3c-4b94-8572-962861a9c365.jpg)
Para los que usan mac: ```js import pandas as pd #%% path = 'Online_Retail.csv' retail_data = pd.read_csv(path, encoding='ISO-8859-1') ```
Para que no hagan manualmente la descarga ```js import kagglehub import os # Download latest version path = kagglehub.dataset_download("tunguz/online-retail") print("Path to dataset files:", path) print(os.listdir(path)) ```import kagglehubimport os \# Download latest versionpath = kagglehub.dataset\_download("tunguz/online-retail") print("Path to dataset files:", path)print(os.listdir(path))
si les da error al leer el csv usando vscode, esta fue la solucion en mi caso```python import pandas as pd path = r"C:\Users\Erick\Documents\Data science\Online_Retail.csv" df_ratail_data = pd.read_csv(path, encoding='windows-1252') print(type(df_ratail_data)) print(df_ratail_data) ```
**¿Cómo carfgar el dataset en google drive?** * Importar las dependencias import pandas as pd import matplotlib.pyplot as plt import numpy as np * Conectar a drive from google.colab import drive drive.mount('/content/drive')path = '/content/drive/MyDrive/Python\_Data/OnlineRetail.csv' * Leer el archivo con pandas df = pd.read\_csv(path, encoding='latin1') df.head()
En mi caso como Ingeniero Arquitecto, tenemos modelos 3D de edificios que contienen datos. Por ejemplo, los ductos de aire acondicionado pueden ser una base de datos de los cuales podemos obtener su gasto, flujo, dimensiones etc, etc etc. Para el sector de la construcción puede llegar a ser muy útil todo este conocimiento. ![](https://static.platzi.com/media/user_upload/image-3a4844e4-7b88-4642-a94d-217a13e865c9.jpg)
vamos firme con la IA me encanta este curso
**IMPORTAR PANDAS**import pandas as pd * **Descripción:** Esta línea importa la biblioteca Pandas y le asigna el alias pd para mayor comodidad. Pandas se utiliza para la manipulación y análisis de datos. **LEER UN ARCHIVO CSV**path = '/content/online\_retail.csv' retail\_data = pd.read\_csv(path) print(type(retail\_data)) print(retail\_data) * **Descripción:** * Se define la ruta a un archivo CSV (online\_retail.csv). * pd.read\_csv(path) lee el archivo CSV en un DataFrame de Pandas (retail\_data), una estructura de datos tabular para análisis de datos. * print(type(retail\_data)) muestra el tipo de la variable retail\_data, que será \<class 'pandas.core.frame.DataFrame'>. * print(retail\_data) muestra el contenido completo del DataFrame en un formato tabular. **LEER UN ARCHIVO DE EXCEL** data\_excel = pd.read\_excel(path) * **Descripción:** * Esto lee un archivo de Excel (dado por la misma path) en un DataFrame de Pandas. La función pd.read\_excel() maneja archivos .xlsx o .xls. **LEER UN ARCHIVO JSON**data\_json = pd.read\_json(path) * **Descripción:** * Esto lee un archivo JSON (especificado por la misma path) en un DataFrame de Pandas. La función pd.read\_json() convierte los datos JSON estructurados en un formato tabular.
Pandas es una biblioteca fundamental en Python para la manipulación de datos. Permite trabajar con estructuras de datos como DataFrames y Series, facilitando tareas como la limpieza, transformación y análisis de datos. En la manipulación de datos con Pandas, puedes realizar operaciones como filtrar, agrupar, fusionar y manejar datos faltantes. Esto es esencial para proyectos de ciencia de datos, donde es crucial preparar y analizar datos de manera efectiva. Además, aprender a usar Pandas te permitirá crear un portafolio sólido en análisis de datos.
como puedo cargar los datos si estoy utilizando Visual Studio Code ? lo puedo realizar tipo: datos = pd.read\_csv('donde esta el archivo', header = None)
Hola, también hay una manera la cual se puede cargar por código. from google.colab import files uploaded = files.upload() df = pd.read\_csv('NombreArchivo.Extensión')
El error de encoding lo resolvii de esta forma retail\_data = pd.read\_csv('Online\_Retail.csv', sep=',', encoding = "ISO-8859-1")
Mi nuevo proyecto es con este DataFrame <https://archive.ics.uci.edu/dataset/697/predict+students+dropout+and+academic+success> ![](https://static.platzi.com/media/user_upload/image-1b4dce82-3b50-48df-8cb9-c51d33672294.jpg)
me pasó igual me daba error en win y en wsl ![](https://static.platzi.com/media/user_upload/image-52479143-6485-40e2-8c49-ffbd1fb0b1c6.jpg) y lo solucione con `encoding``=``'iso-8859-2'` ![](https://static.platzi.com/media/user_upload/image-16a0f917-78c4-415e-ae06-f91b746a6aba.jpg)