No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Creación de Dataframes en Pandas

13/32
Recursos

Procesos de Limpieza de Datos en Pandas

En el mundo del análisis de datos, la calidad de los datos es tan importante como el análisis mismo. Los datos crudos a menudo contienen errores, valores faltantes o inconsistencias que pueden afectar la precisión de los resultados.

Aquí es donde entra en juego Pandas, una biblioteca de Python ampliamente utilizada para la manipulación y análisis de datos. Pandas nos proporciona un conjunto robusto de herramientas para limpiar y preparar datos, asegurando que estén en el mejor estado posible para el análisis, tales como:

  1. Lectura de Datos: Utilizando pd.read_csv() para importar datos desde un archivo CSV.
  2. Conversión de Tipos de Datos: Convertir columnas, como fechas, a tipos de datos más adecuados.
  3. Eliminación de Filas o Columnas: Retirar filas o columnas innecesarias.
  4. Imputación de Datos Faltantes: Rellenar valores faltantes con la media, mediana, o un valor constante.
  5. Eliminación de Duplicados: Asegurar la integridad de los datos eliminando duplicados.
  6. Filtrado de Datos: Enfocar el análisis en subconjuntos específicos de datos.
  7. Creación de Nuevas Columnas: Generar columnas derivadas para facilitar el análisis.

El proceso de limpieza de datos es crucial en el análisis, y Pandas nos ofrece herramientas para facilitar esa tarea. Pandas permite a los analistas transformar datos desordenados en conjuntos de datos limpios y estructurados.

Dominar las técnicas de limpieza de datos en Pandas es esencial para cualquier profesional que busque extraer valor significativo de sus datos.

Aportes 13

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

`from google.colab import drive` drive.mount('/content/drive') path = '/content/drive/MyDrive/online\_retail.csv' data = pd.read\_csv(path) print(data.head) #Para imprimir solo las primeras 5 filas print(data) #Imprimir las primeras y ultimas 5
Un **DataFrame** en pandas es una estructura de datos bidimensional, similar a una tabla, que permite almacenar y manipular datos en filas y columnas, facilitando el análisis y manejo de grandes volúmenes de información en Python
Si están trabajando en entornos virtuales con WSL y VSC, pueden acceder a sur archivo en google drive de la siguiente manera: 1. Configura el archivo en Google Drive como **público o accesible con enlace**. 2. Obtén el enlace y modifica su URL para una descarga directa: 1. Enlace compartido: <https://drive.google.com/file/d/ARCHIVO_ID/view?usp=sharing> 2. Enlace de descarga: <https://drive.google.com/uc?id=ARCHIVO_ID> 3. Usa `pandas` para cargar el archivo desde la URL: 1. url = 'https://drive.google.com/uc?id=ARCHIVO\_ID' df = pd.read\_csv(url) print(df.head())
Pueden simplemente colocar `data` en la última línea (Sin usar el `print()` y Google Collab o VSCode desplegarán una vista mucho más legible del Pandas DataFrame.
🟢**La estructura de datos Index de Pandas** En Pandas, `pd.Index` es una estructura que representa una colección de etiquetas para un DataFrame o una Serie. Sirve para **identificar las filas y columnas.** Proporciona métodos para manipular y acceder a los datos. Un `Index` puede ser de diferentes tipos, como enteros, cadenas o fechas. ```python index = pd.Index(['a', 'b', 'c', 'd']) # Crear un DataFrame usando el índice data = {'Valor': [10, 20, 30, 40]} df = pd.DataFrame(data, index=index) ``` El uso de `pd.Index` asegura consistencia y optimiza el rendimiento en el análisis de datos. **¡Nunca pares de aprender!** 🚀🚀
WSL DATASETS EN WINDOWS las rutas desde wsl se convierten al siguiente formato C: pasa a ser /mnt/c asi que si vas a cargar tu data set que esta endescargas desde un archivo de python en wsl ten esto en cuenta, ademas revisa los permisos que te saldran en la primera columna al correr en tu wsl terminal el comando ls -l r : read w: write x: execute primeras 3 letras son los permisos del dueño , segundas 3 letras los de otros usuarios, terceras tres letras los de todos los demas
#### **1. IMPORTAR Y LEER UN ARCHIVO CSV** import pandas as pd file\_path = '/content/online\_retail.csv' sales\_data = pd.read\_csv(file\_path) print(sales\_data.head()) **Explicación:** * Este código importa la biblioteca pandas. * Lee un archivo CSV ubicado en /content/online\_retail.csv en un DataFrame llamado sales\_data. * El método head() se usa para mostrar las primeras 5 filas del conjunto de datos. **Salida:** Si el archivo se carga correctamente, la salida mostrará las primeras 5 filas del CSV como una tabla con columnas y sus datos correspondientes. #### **2. CREAR UN DATAFRAME DESDE UN ARREGLO NUMPY** import numpy as np data = np.array(\[\[1, 2, 3], \[4, 5, 6], \[7, 8, 9]]) df\_from\_array = pd.DataFrame(data, columns=\['A', 'B', 'C']) print(df\_from\_array) **Explicación:** * Se crea un arreglo 2D de NumPy con valores numéricos. * Este arreglo se convierte en un DataFrame de pandas con los nombres de las columnas A, B y C. **Salida:**   A  B  C 0  1  2  3 1  4  5  6 2  7  8  9 #### **3. CREAR UN DATAFRAME DESDE UNA LISTA DE LISTAS** data = \[\[1, 'Jhon', 22], \[2, 'Anna', 24]] df\_from\_list = pd.DataFrame(data, columns=\['ID', 'Name', 'Age']) print(df\_from\_list) **Explicación:** * Se define una lista de listas, donde cada lista interna representa una fila con ID, Name y Age. * Esta lista se convierte en un DataFrame de pandas con los nombres de las columnas especificadas. **Salida:**   ID  Name  Age 0   1  Jhon   22 1   2  Anna   24 #### **4. CREAR UN DATAFRAME DESDE UNA LISTA DE DICCIONARIOS** data = \[{'ID': 1, 'Name': 'Jhon', 'Age': 22}] df\_from\_dict\_list = pd.DataFrame(data) print(df\_from\_dict\_list) **Explicación:** * Se define una lista que contiene un único diccionario, donde cada diccionario representa una fila con claves como nombres de columnas y valores como datos. * Esto se convierte en un DataFrame de pandas. **Salida:**   ID  Name  Age 0   1  Jhon   22 #### **5. CREAR UN DATAFRAME DESDE UN DICCIONARIO** data = {     'ID': \[1, 2, 3],     'Name': \['Jhon', 'Anna', 'Mike'],     'Age': \[22, 24, 21] } df\_from\_dict = pd.DataFrame(data) print(df\_from\_dict) **Explicación:** * Se define un diccionario donde cada clave representa una columna, y el valor correspondiente es una lista que contiene los datos de la columna. * Esto se convierte en un DataFrame de pandas. **Salida:**   ID  Name  Age 0   1  Jhon   22 1   2  Anna   24 2   3  Mike   21 #### **6. CREAR UN DATAFRAME DESDE UN DICCIONARIO DE SERIES** data = {     'ID': pd.Series(\[1, 2, 3]),     'Name': pd.Series(\['Jhon', 'Anna', 'Mike']),     'Age': pd.Series(\[22, 24, 21]) } df\_from\_series\_dict = pd.DataFrame(data) print(df\_from\_series\_dict) **Explicación:** * Se crea un diccionario de Series de pandas. Cada clave representa una columna, y la Series contiene los datos de la columna. * Este diccionario se convierte en un DataFrame de pandas. **Salida:**   ID  Name  Age 0   1  Jhon   22 1   2  Anna   24 2   3  Mike   21 #### **GOOGLE DRIVE** from google.colab import drive drive.mount('/content/drive') file\_path = "/content/drive/My Drive/online\_retail.csv" sales\_data = pd.read\_csv(file\_path) print(sales\_data.head()) **Explicación:** 1. **Importar el módulo de Google Drive:** * Se importa la biblioteca google.colab para interactuar con Google Drive. 2. **Montar Google Drive:** * La función drive.mount() conecta Google Drive con el entorno de Colab, permitiendo el acceso a los archivos almacenados en Drive. * La ruta /content/drive es la ubicación donde se monta Google Drive en el entorno de Colab. 3. **Definir la ruta del archivo:** * La variable file\_path almacena la ruta del archivo CSV objetivo almacenado en Google Drive: /content/drive/My Drive/online\_retail.csv. 4. **Leer el archivo CSV:** * La función pd.read\_csv() (de pandas) se utiliza para cargar el archivo CSV ubicado en file\_path en un DataFrame de pandas llamado sales\_data. 5. **Mostrar las primeras filas:** * El método head() del DataFrame muestra las primeras 5 filas del conjunto de datos, proporcionando una vista rápida de su estructura y contenido.
En pandas una serie es una estructura unidimensional. Es como una columna de datos. Un dataframe es una estructura bidimensional como una tabla, compuesta por multiples series organizadas con indices tanto en filas como en columnas
Lo hice de esta forma: ![](https://static.platzi.com/media/user_upload/image-61c7d6f4-d2d5-4bfc-8d04-db42e04b6430.jpg)
* **Serie**: es una estructura de datos unidimensional, similar a una lista o array de una sola columna. Cada elemento en una Serie tiene un índice asociado, que por defecto es un número entero, pero puede personalizarse. Podrías pensarlo como una columna de un DataFrame. * **Dataframe**: es una estructura de datos bidimensional que puede considerarse como una tabla con filas y columnas, donde cada columna es una Serie. Es más versátil y se utiliza para almacenar y manipular datos tabulares.
**DataFrame** es una **estructura de datos bidimensional** que se puede comparar con una tabla en una base de datos o una hoja de cálculo en Excel. Los DataFrames **son útiles para manipular y analizar datos en Python**.
A mi me gusta decir que Pandas es como "Excel con Esteroides"
Buscando en internet, encontré este recurso, muy básico pero bastante útil <https://www.youtube.com/watch?v=ZUliS6Y8oeM&list=PLAKj9P7fPCGGmDF9C8Hu670HfCO9t7_gj> Un **DataFrame** en Pandas es una estructura de datos **bidimensional** 📊 que organiza la información en filas y columnas, similar a una tabla de Excel o una base de datos. Es ampliamente utilizado para **análisis y manipulación de datos** en Python 🐍. 🔑 **Características clave**: * **Etiquetas de filas y columnas**: Las filas tienen índices (normalmente números) y las columnas tienen etiquetas o nombres 🏷️, lo que facilita acceder a los datos. * **Manipulación eficiente**: Permite **filtrar**, **modificar**, **agregar** o **eliminar** datos rápidamente ⚡. * **Compatibilidad con diferentes fuentes de datos**: Se puede crear un DataFrame desde archivos CSV 📄, bases de datos SQL 🗄️ o incluso listas y diccionarios de Python 📚. En resumen, un DataFrame es una herramienta **versátil y potente** 💪 para organizar y analizar datos, esencial en proyectos de ciencia de datos 📈.