Domina la selección de datos en pandas con técnicas claras y prácticas: acceso estilo diccionario, indexación NumPy-like con iloc y selección por etiquetas con loc. Además, aprenderás a cargar un CSV con read_csv, explorar con head y tail, y entender la diferencia entre cortes inclusivos y exclusivos para trabajar con noticias de El Universal con precisión.
¿Cómo cargar y explorar un DataFrame en pandas?
Para empezar, se lee el archivo CSV con el método más sencillo: pandas.read_csv. Con una sola línea se obtiene un DataFrame listo para explorar. Se confirma el tipo de la variable y se visualiza su contenido inicial.
- Dataset obtenido con un web scraper de noticias de El Universal.
- Datos iniciales con problemas: saltos de línea, faltantes y URLs sin separar el host.
- Visualización flexible: ver todos los datos o limitar cuántas filas mostrar.
- Métodos rápidos: head muestra las primeras cinco filas. tail muestra las últimas cinco.
- Ajuste práctico: decidir ver, por ejemplo, diez filas para una exploración legible.
Habilidades y conceptos clave: DataFrame, CSV, visualización de datos, exploración inicial, datos faltantes, URLs.
¿Cómo seleccionar columnas con estilo diccionario?
El acceso dictionary like usa corchetes para seleccionar columnas por nombre. Si se pasa un solo nombre, se obtiene una serie; si se pasa una lista de nombres, se retorna un DataFrame con ese subconjunto.
¿Qué significa usar corchetes y get item?
- Un solo nombre entre corchetes: retorna una serie.
- Lista de strings con nombres de columnas: retorna un subconjunto como DataFrame.
- Sintaxis simple y directa: corchetes cuadrados para seleccionar.
- Ejemplo conceptual: seleccionar 'title' o ['title', 'URL'].
¿Qué devuelve una columna frente a un subconjunto?
- Una columna: estructura colapsa a serie.
- Varias columnas: se mantiene como DataFrame.
- Ventaja: fácil para inspección rápida de campos clave como
body, title, URL.
Keywords: dictionary like, get item, square brackets, serie, subset.
¿Cómo indexar con iloc y loc para filas y columnas?
Hay dos enfoques potentes. Con iloc se indexa por posición; con loc por etiquetas. La diferencia crítica: los cortes con iloc son exclusivos en el extremo final, mientras que con loc son inclusivos.
¿Cuándo usar iloc con estilo NumPy-like?
- Selección por posiciones: filas y columnas por índices numéricos.
- Rangos tipo slice: el final no se incluye.
- Ejemplo conceptual: filas 10 a 15 devuelve 10–14.
- Acceso puntual: una fila específica y un campo, como el título en la fila 66.
- También: primeras filas y primera columna con índices 0-based.
- Nota de legibilidad: por posición puede ser menos claro en proyectos grandes.
Conceptos: NumPy-like, iloc, slice exclusivo, posición 0-based.
¿Cuándo usar loc con etiquetas inclusivas?
- Selección por etiquetas: filas y columnas con nombres.
- Inclusivo en ambos extremos del rango.
- Ejemplo conceptual: todas las filas y columnas desde
body hasta title, incluyendo ambas.
- Recomendado por pandas: más legible y semántico.
- Diferencia con la convención de Python: aquí los límites sí se incluyen.
Keywords: loc, label-based, slice inclusivo, filas y columnas.
Con estas técnicas ya es posible manipular columnas y registros, preparar la limpieza y empezar a transformar el dataset de noticias. Si te topaste con errores, prueba cambiar índices, forzar casos fuera de rango y observa los mensajes: así reforzarás tu comprensión.
¿Te quedó alguna duda o quieres compartir un ejemplo propio? Escríbelo en comentarios para seguir mejorando juntos.