Series y DataFrames con Pandas en Python

Curso de Fundamentos de AI para Manejo de Datos

Contenido del curso

Principios de la IA

Modelo Predictivo

Tipos de Aprendizaje

Herramientas para IA

Ciclo de Vida ML

Ética en IA

Tomar examen

Series y DataFrames con Pandas en Python

Resumen

Pandas es la librería estándar de Python para análisis de datos, y dominarla es como tener cuchillos de chef en la cocina de la ciencia de datos: precisos, versátiles y necesarios para casi todo. Aquí aprenderás qué son las Series y los DataFrames, cómo crearlos y cómo aplicar operaciones reales sobre temperaturas, calificaciones y ventas simuladas.

Si estás empezando en data science o machine learning con Python, este recorrido te da la base que vas a usar todos los días.

Qué es Pandas y por qué se volvió la librería estándar

Imagina una biblioteca enorme con millones de libros desordenados, con páginas faltantes y en idiomas distintos. Pandas es ese asistente que ordena, limpia, filtra y analiza esa información de forma eficiente.

Su nombre viene de Panel Data y nació en 2008 [2:02], creada por alguien que trabajaba en finanzas y necesitaba manejar datos con más agilidad. Hoy la usan analistas, científicos de datos e ingenieros de machine learning en prácticamente cualquier flujo profesional.

¿Para qué sirve Pandas en Python? Sirve para cargar, limpiar, transformar, filtrar y analizar datos tabulares de forma rápida, usando estructuras como Series y DataFrames que reemplazan tareas que en Excel tomarían horas.

Cuál es la diferencia entre Series y DataFrames

Pandas trabaja con dos estructuras clave que conviene tener clarísimas desde el inicio.

Una Series es como una columna de datos con etiquetas, parecida a una lista de Python pero con superpoderes. Un DataFrame es una tabla, similar a una hoja de Excel, pero capaz de manejar millones de filas y tipos distintos de datos por columna [2:45].

Cómo crear una Serie con temperaturas semanales

En el ejercicio práctico [5:30] se construye una Serie con temperaturas diarias usando los días de la semana como índice. Esto es importante porque el índice te permite llamar la información por etiqueta y no por posición numérica, lo cual hace tu código más legible.

Sobre esa Serie se aplican operaciones aritméticas directas:

Promedio de las temperaturas, que dio 25 °C.
Valor máximo registrado en la semana.
Índice máximo, que devolvió el domingo como el día más caluroso.

Esto solo funciona porque los datos son numéricos. Si dentro de una columna tienes texto, muchas operaciones matemáticas no se pueden ejecutar.

Cómo construir un DataFrame de calificaciones

Después se crea un DataFrame de estudiantes [7:40] con nombres como Ana, Carlos y María, edades y calificaciones generadas con una función aleatoria. Aquí aparece un detalle clave: la función aleatoria toma un rango entre 60 y 100 y genera 8 valores, uno por cada estudiante.

Las calificaciones se reparten así:

Matemáticas: rango de 60 a 100.
Ciencias: rango de 65 a 95.
Historia: rango de 70 a 98.

La lista de datos se convierte en tabla con pandas.DataFrame(). Luego se agrega una columna llamada promedio_general seleccionando solo las columnas numéricas con doble corchete y aplicando el promedio sobre las filas con axis=1.

¿Qué hace axis=1 en Pandas? Indica que la operación se calcula a lo largo de las filas, no de las columnas. Lo usas cuando quieres un resultado por cada registro, como un promedio por estudiante.

Cómo simular y analizar datos de ventas con fechas

Pandas también brilla manejando fechas, y el siguiente ejercicio [10:15] lo demuestra con un dataset de ventas simuladas.

Primero se crea una variable fechas con un rango que arranca el 1 de enero de 2023 y genera 100 periodos diarios usando la frecuencia D. Luego se define una lista de productos: laptop, mouse, teclado, monitor y audífonos.

Para cada fecha se generan aleatoriamente:

Un producto de la lista.
Una cantidad de ventas entre 1 y 4.
Un precio unitario entre 20 y 1000.
Un vendedor seleccionado aleatoriamente.
Una venta total, calculada como cantidad por precio unitario.

Todo eso se va acumulando en la variable ventas_data y luego se convierte en DataFrame.

Cómo extraer el mes de una columna de fechas

Un truco muy útil aparece cuando necesitas analizar por mes. Sobre la columna fecha del DataFrame se aplica el accesor .dt.month para crear una nueva columna mes [13:50].

Esto te permite agrupar, filtrar y comparar ventas por periodos sin tener que escribir lógica adicional. Y si te preguntas cómo conocer estas funciones, la respuesta es directa: revisa la documentación oficial de Pandas, pregunta a un modelo de lenguaje o busca en Stack Overflow. Esos modelos fueron entrenados con la comunidad alrededor de la librería.

¿Cómo se obtiene el mes de una fecha en Pandas? Con df['fecha'].dt.month extraes el mes como número entero. También puedes usar .dt.year, .dt.day o .dt.weekday según lo que necesites.

Qué funcionalidades de Pandas conviene explorar después

Una vez que tienes el DataFrame armado, el siguiente paso es jugar con las operaciones que hacen famosa a esta librería [15:20]:

Agrupar por vendedor o por producto con groupby.
Sumar y ordenar valores agrupados.
Filtrar registros por condiciones.
Manejar datos faltantes y contar cuántos hay.
Agrupar por varias variables a la vez.
Generar pivot tables como en Excel.
Crear visualizaciones básicas con el módulo de gráficos.

Estas piezas son las que vas a combinar en cualquier análisis exploratorio real.

Cuál es el reto práctico de esta sesión

Tu trabajo ahora es buscar un dataset real, ya sea en Kaggle, en datos abiertos del gobierno o creando los tuyos, y hacer un análisis exploratorio completo con Pandas [17:30].

El reto incluye cargar o simular los datos, explorar su estructura, identificar y manejar valores faltantes, y crear visualizaciones básicas. En la próxima clase llega Scikit-Learn, la librería para entrenar modelos de clasificación y regresión en pocas líneas.

¿Qué dataset vas a explorar tú primero? Cuéntame en los comentarios qué tipo de datos te gustaría analizar.

Series y DataFrames con Pandas en Python

Principios de la IA

Qué es realmente la inteligencia artificial

Diferencias entre inteligencia artificial, machine learning y deep learning

Modelo Predictivo

Regresión lineal con datos de casas

Regresión lineal manual con NumPy

Scikit-Learn vs statsmodels en regresión lineal

Tipos de Aprendizaje

Regresión y clasificación en machine learning

Detectar spam con Python en Google Colab

Clustering y normalización de datos con K-means

PCA para reducir variables en clustering

Aprendizaje por refuerzo con Q-learning y OpenAI Gym

Herramientas para IA

Instalación de Jupyter Notebook y Anaconda para análisis de datos