Índices y selección

Curso de Ingeniería de Datos con Python

Contenido del curso

Introducción

Web scraping

Pandas

Intro a Sistemas de Datos

Contenido Bonus

38
¿Por qué usar la nube?
04:05 min

Tomar examen

Índices y selección

Resumen

Domina la selección de datos en pandas con técnicas claras y prácticas: acceso estilo diccionario, indexación NumPy-like con iloc y selección por etiquetas con loc. Además, aprenderás a cargar un CSV con read_csv, explorar con head y tail, y entender la diferencia entre cortes inclusivos y exclusivos para trabajar con noticias de El Universal con precisión.

¿Cómo cargar y explorar un DataFrame en pandas?

Para empezar, se lee el archivo CSV con el método más sencillo: pandas.read_csv. Con una sola línea se obtiene un DataFrame listo para explorar. Se confirma el tipo de la variable y se visualiza su contenido inicial.

Dataset obtenido con un web scraper de noticias de El Universal.
Datos iniciales con problemas: saltos de línea, faltantes y URLs sin separar el host.
Visualización flexible: ver todos los datos o limitar cuántas filas mostrar.
Métodos rápidos: head muestra las primeras cinco filas. tail muestra las últimas cinco.
Ajuste práctico: decidir ver, por ejemplo, diez filas para una exploración legible.

Habilidades y conceptos clave: DataFrame, CSV, visualización de datos, exploración inicial, datos faltantes, URLs.

¿Cómo seleccionar columnas con estilo diccionario?

El acceso dictionary like usa corchetes para seleccionar columnas por nombre. Si se pasa un solo nombre, se obtiene una serie; si se pasa una lista de nombres, se retorna un DataFrame con ese subconjunto.

¿Qué significa usar corchetes y get item?

Un solo nombre entre corchetes: retorna una serie.
Lista de strings con nombres de columnas: retorna un subconjunto como DataFrame.
Sintaxis simple y directa: corchetes cuadrados para seleccionar.
Ejemplo conceptual: seleccionar 'title' o ['title', 'URL'].

¿Qué devuelve una columna frente a un subconjunto?

Una columna: estructura colapsa a serie.
Varias columnas: se mantiene como DataFrame.
Ventaja: fácil para inspección rápida de campos clave como body, title, URL.

Keywords: dictionary like, get item, square brackets, serie, subset.

¿Cómo indexar con iloc y loc para filas y columnas?

Hay dos enfoques potentes. Con iloc se indexa por posición; con loc por etiquetas. La diferencia crítica: los cortes con iloc son exclusivos en el extremo final, mientras que con loc son inclusivos.

¿Cuándo usar iloc con estilo NumPy-like?

Selección por posiciones: filas y columnas por índices numéricos.
Rangos tipo slice: el final no se incluye.
Ejemplo conceptual: filas 10 a 15 devuelve 10–14.
Acceso puntual: una fila específica y un campo, como el título en la fila 66.
También: primeras filas y primera columna con índices 0-based.
Nota de legibilidad: por posición puede ser menos claro en proyectos grandes.

Conceptos: NumPy-like, iloc, slice exclusivo, posición 0-based.

¿Cuándo usar loc con etiquetas inclusivas?

Selección por etiquetas: filas y columnas con nombres.
Inclusivo en ambos extremos del rango.
Ejemplo conceptual: todas las filas y columnas desde body hasta title, incluyendo ambas.
Recomendado por pandas: más legible y semántico.
Diferencia con la convención de Python: aquí los límites sí se incluyen.

Keywords: loc, label-based, slice inclusivo, filas y columnas.

Con estas técnicas ya es posible manipular columnas y registros, preparar la limpieza y empezar a transformar el dataset de noticias. Si te topaste con errores, prueba cambiar índices, forzar casos fuera de rango y observa los mensajes: así reforzarás tu comprensión.

¿Te quedó alguna duda o quieres compartir un ejemplo propio? Escríbelo en comentarios para seguir mejorando juntos.

Índices y selección

Introducción

Pipelines automatizados con Python para ingeniería de datos

Archivos del curso y Slides

¿Qué es la ciencia de datos?

Por qué fallan los equipos de ciencia de datos

Configuración del ambiente

Jupyter Notebooks

Tipos de datos en ciencia de datos

Tipos de datos

Fuentes de datos

ETL: extract, transform y load explicado

Web scraping

Web scraping para data engineers: HTML y metadatos

Cómo hacer solicitudes HTTP con Python Requests

¿Cómo trabajar con un documento HTML?

Analizando un sitio web para encontrar las directivas a utilizar al hacer un web scrapping

Page Object Pattern para web scrapers

Implementando nuestro web scrapper: Configuración

Page Objects para extraer vínculos de noticias

Implementando nuestro web scrapper: Obteniendo artículos

Obtención de datos del Artículo

Persistiendo la información "scrapeada"

Pandas

Series vs DataFrame en Pandas

Qué es Series en Pandas y cómo crearlas

Estructura de datos: DataFrames