Series vs DataFrame en Pandas

Curso de Ingeniería de Datos con Python

Contenido del curso

Introducción

Web scraping

Pandas

Intro a Sistemas de Datos

Contenido Bonus

38
¿Por qué usar la nube?
04:05 min

Tomar examen

Series vs DataFrame en Pandas

Resumen

Cuando los datos llegan sucios, el análisis se degrada. Aquí se explica con claridad cómo pasar de data sets de noticias de El Universal y El País a tablas limpias y útiles mediante Pandas en Python, enfocándose en el domado de datos (data wrangling), la estructura de Series y Data Frame, y el uso de índices para seleccionar y combinar información.

¿Por qué transformar y limpiar datos con Pandas?

Los datos extraídos contienen problemas: títulos faltantes y cuerpos con caracteres no deseados. Esto afecta el resultado final. Si se analiza basura, el resultado será basura. Por eso se requiere una etapa de transformación, limpieza y enriquecimiento con Pandas.

Reducir ruido: eliminar caracteres que no aportan valor.
Completar información: tratar títulos faltantes.
Mejorar calidad: evitar resultados sesgados o erróneos.
Preparar para análisis: dejar datos listos para operaciones posteriores.

¿Qué estructuras ofrece Pandas para el domado de datos?

Pandas facilita el domado de datos (data wrangling) con dos estructuras clave. La idea base es pensar siempre en una tabla. Estas estructuras no son simples contenedores: se usan para transformar y enriquecer.

¿Cómo entender una serie en Pandas?

Una serie (pronunciada en inglés, series) es un arreglo unidimensional que representa una columna. Si imaginas una hoja de Excel, una serie es una sola columna.

Columna única: una dimensión, un tipo de dato por columna.
Acceso directo: funciona como vector con índice.
Base del Data Frame: varias series forman una tabla.

¿Qué representa un Data Frame?

Un Data Frame (en inglés, Data Frame) es un conjunto de series que conforman una tabla, similar a una hoja de cálculo o a una tabla en una base de datos. Permite ver y operar los datos como matriz etiquetada.

Estructura tabular: filas y columnas con nombres.
Operaciones vectorizadas: cálculos y transformaciones eficientes.
Enriquecimiento: combinar y derivar nuevas columnas.

¿Cómo acceder, manipular y combinar datos en Pandas?

El acceso a los datos se realiza mediante índices. Pueden ser por etiqueta (label), por posición o por rangos y rebanadas (slices). Además, Pandas facilita manejar datos faltantes, realizar operaciones aritméticas entre columnas y combinar varios data frames en uno. También permite leer datos de disco y escribirlos rápidamente.

¿Qué tipos de índices se usan para seleccionar datos?

Por etiqueta: seleccionar con un nombre, como “name”.
Por posición: elegir el elemento en el índice 0 o 100.
Por rango: usar rebanadas, como del 10 al 20 (slices).

¿Qué operaciones facilita Pandas al transformar datos?

Manejar datos faltantes: detectar y tratarlos.
Hacer operaciones aritméticas: calcular entre columnas.
Combinar tablas: unir distintos data frames en uno nuevo.
Entrada y salida: leer de disco y escribir resultados.

¿Tienes dudas sobre cómo aplicar estos pasos a tus noticias o data sets? Comparte tu caso en los comentarios y cuéntame qué te gustaría limpiar o transformar con Pandas.

Series vs DataFrame en Pandas

Introducción

Pipelines automatizados con Python para ingeniería de datos

Archivos del curso y Slides

¿Qué es la ciencia de datos?

Por qué fallan los equipos de ciencia de datos

Configuración del ambiente

Jupyter Notebooks

Tipos de datos en ciencia de datos

Tipos de datos

Fuentes de datos

ETL: extract, transform y load explicado

Web scraping

Web scraping para data engineers: HTML y metadatos

Cómo hacer solicitudes HTTP con Python Requests

¿Cómo trabajar con un documento HTML?

Analizando un sitio web para encontrar las directivas a utilizar al hacer un web scrapping

Page Object Pattern para web scrapers

Implementando nuestro web scrapper: Configuración

Page Objects para extraer vínculos de noticias

Implementando nuestro web scrapper: Obteniendo artículos

Obtención de datos del Artículo

Persistiendo la información "scrapeada"

Pandas