Comprensiones anidadas para agrupar y filtrar datos en Python

Clase 4 de 25 • Curso de Python Intermedio para Entornos virtuales y PEP8

Contenido del curso

Código Pythónico y Funcional

Calidad y Profesionalismo del Código

Manejo de Datos y Recursos

Optimización y Pruebas

Creación de Aplicaciones de Consola

Tomar examen

Resumen

Las comprensiones en Python permiten escribir código más claro y conciso para procesar listas, diccionarios y sets. Aquí verás cómo extraer fuentes únicas y cómo categorizar artículos por su fuente usando set, list comprehension y dict comprehension. El enfoque prioriza legibilidad, evitar duplicados y menos código sin cambiar la lógica.

¿Cómo extraer fuentes únicas con set comprehension en Python?

Usar un set es ideal para mantener valores únicos. Primero, se construye con bucles tradicionales y luego se refactoriza a una comprensión que condensa el for y el if en una sola expresión.

¿Por qué usar un set para evitar duplicados?

Un set no admite duplicados y simplifica la deduplicación automáticamente.
Con article.get('source') y luego .get('name') se valida la existencia de claves.
La inserción es directa: usar add con el nombre de la fuente.

# versión tradicional

def get_sources_traditional(articles):
    sources = set()
    for article in articles:
        source = article.get('source')
        if source and source.get('name'):
            sources.add(source['name'])
    return sources

¿Cómo se ve el refactor con comprensión?

La expresión define qué guardar: el nombre de la fuente.
El for recorre cada artículo.
El if filtra solo los artículos con fuente y nombre válidos.

# versión con set comprehension

def get_sources(articles):
    return {
        a['source']['name']
        for a in articles
        if a.get('source') and a['source'].get('name')
    }

Validar resultados con print ayuda a comprobar que ambos devuelven lo mismo.
Si el set de pruebas contiene fuentes repetidas, el set mostrará cada una una sola vez.

¿Cómo categorizar artículos por fuente con comprensiones anidadas?

Muchas veces se requieren iteraciones anidadas: recorrer fuentes y, por cada una, recorrer artículos para agruparlos. Se muestra primero el patrón tradicional y luego la versión con dict y list comprehension anidadas.

¿Cuál es la versión con bucles tradicionales?

Se prepara un diccionario results con cada fuente como llave.
Se inicializa cada llave solo si no existe.
Se agrega el artículo a la lista correcta con append cuando coincide la fuente.

# versión tradicional

def categorize_traditional(articles):
    sources = get_sources(articles)
    results = {}
    for source in sources:
        if source not in results:
            results[source] = []
        for article in articles:
            art_source = article.get('source')
            name = art_source.get('name') if art_source else None
            if name == source:
                results[source].append(article)
    return results

¿Cómo queda la versión con dict y list comprehension?

La llave del diccionario es cada fuente.
El valor es una lista de artículos filtrados por esa fuente.
Se reduce código sin perder claridad.

# versión con comprensiones anidadas

def categorize(articles):
    return {
        source: [
            article
            for article in articles
            if article.get('source') and article['source'].get('name') == source
        ]
        for source in get_sources(articles)
    }

Al imprimir ambas versiones, los resultados deben ser equivalentes.
La comprensión evita inicializaciones manuales en cada iteración.

¿Qué buenas prácticas mejoran legibilidad y rendimiento?

Refactorizar a comprensiones funciona mejor cuando mantiene la intención del código clara y reduce ruido. Estas pautas se destacan en el flujo mostrado.

Usa comprensiones cuando el patrón sea “mapear y filtrar” en una sola línea.
Emplea .get para evitar errores si faltan claves en diccionarios.
Elige set cuando necesites eliminar duplicados de forma natural.
Prefiere comprensiones anidadas para agrupaciones claras, en lugar de múltiples bucles.
Verifica equivalencia con print y separadores antes y después del refactor.
Si aparece una variable no definida, atiende el aviso del linter (por ejemplo, ruff) y corrige la referencia.
Asegura que las funciones importen y exporten datos correctamente tras cada refactor.

¿Tienes un ejemplo propio de agrupación o deduplicación que quieras optimizar con comprensiones? Compártelo en los comentarios y lo revisamos juntos.

Comentarios

Fran AG

student•

La estructura de los comprenhensions me recuerda a la de sql en un motor de busqueda.

SELECT (el dato que necesitamos)

FROM (tabla que vamos a recorrer)

WHERE (condicion)

Alan Lozano

student•

Cuando se uso una comprensión anidada, totalmente me acorde de las subconsultas de SQL!

Carlos Arturo Gómez

student•

Estas clases me tienen quemando materia gris en forma jajajaja

Luis Martinez

teacher•

Si tienes dudas, no dudes en compartirlas

Oscar Javier Gonzalez

student•

Hasta el momento, estan buenas las clases, y con ese metodo de quizes tipo "flash, o aprende o aprende

Samuel Steven Bernal Martínez

student•

Esto me ayudó a entender la segunda parte de la clase:

el nivel externo construye el diccionario {... for source in sources}
el nivel interno construye la lista [... for article in articles if ...]

Esto se llama dict comprenhension y su forma básica es: - {clave: valor for elemento in algo}🧨

Juan Carlos Mendoza Rodríguez

student••

Interesante, el get permite retornar un valor por defecto si no existe el key, con eso se evita que de un error si no lo encuentra.

claro, supongo que dependerá de la situación el usarlo o no.

sería algo así:

if article.get("source", {}).get("name"):

en este caso, si source no existe, retorna {}

Luis Martinez

teacher•

Correcto, para tener en cuenta entre usar .get o [] hay una diferencia de rendimiento alta.

Gustavo Garcia Adame

student••

Quiero compartir algo que me impacto. Estoy usando Gemini Code Assist en VSC. Realice el reto de la clase anterior y posterior a eso le pedí a gemini que evaluara mi código y me genero

El objetivo de la función
Explicación Linea por línea
Observación de calidad

Eso me boló la cabeza ya que utilizó el contexto de otros archivos (sin que yo se lo dijera) para realizar la observación de calidad.

Yo solamente le puse un prompt pidiendo que analizara mi función, unicamente esa función y automaticamente me sugirió que usara snake case en lugar de camelcase como lo hice en mi código ya que esto no esto no es acorte a PEP 8.

Es el primer asistente de código que uso y de momento me gustó

CARLOS ALBERTO MARTINEZ SANCHEZ

student•

Es una verdadera locura como ayuda Gemini dentro de VS-Code, en lo partícular me sorprendió lo que ha avanzado el desarrollo de software considerando que empecé con GW-BASIC hace ya muchísimos años.

Javier Aguilar

student•

Estuve mas tiempo del que me enorgullece buscando por mi cuenta como hacer esto en la clase anterior! De haber sabido que aqui lo ibas a explicar! Me refiero a la categorizacion. en toco caso, ahora ya comprendo bien como funciona eso! GRACIAS!

Luis Martinez

teacher•

el tiempo que estuviste buscando es útil también para desarrollar habilidades de busqueda, piensa que en un proyecto real no tendrías el siguiente video para saber como hacer algo.

Oswaldo Yagual

student•

En el curso de fundamentos de Python era 1+1=2, y en este curso (en especial esta clase) ha sido: si un tren va de China a Japón un martes por la tarde, cual es la distancia de la tierra al sol?... tendré que ver esta clase como 3 veces más para entender que hizo el profe acá...

Mauricio Zárate

student•

Si tomamos en cuenta que un set no agrega un elemento cuando este ya existe. ¿No estaría demás la sentencia if?

Luis Martinez

teacher•

Sí correcto!

Gabriel Obregón

student•

🧠Comprensiones en Python

🎯 Objetivo general

Aprender a usar list, set y dict comprehension para:

🔹 Escribir código más claro y conciso

🔹 Evitar duplicados con sets

🔹 Agrupar información sin perder legibilidad

🔹 Reducir líneas sin alterar la lógica

🔍 1. ¿Qué son las comprensiones?

Son atajos sintácticos para crear listas, conjuntos o diccionarios a partir de bucles y condiciones.

💬 Piensa en ellas como una forma de decir: ➡️ “Toma cada elemento, filtra y transforma en una sola expresión.”

📦 Tipos:

list comprehension → crea listas [ ]
set comprehension → crea conjuntos { }
dict comprehension → crea diccionarios {clave: valor}

🧩 2. Extraer fuentes únicas con set comprehension

🟡 Concepto clave

Un set mantiene solo valores únicos → elimina duplicados automáticamente.

🔸 Versión tradicional

def get_sources_traditional(articles):

sources = set()

for article in articles:

source = article.get('source')

if source and source.get('name'):

sources.add(source['name'])

return sources

🧠 Lógica:

get() evita errores si falta la clave.
add() inserta la fuente en el conjunto.
Se eliminan duplicados de forma natural.

⚡ Versión con set comprehension

def get_sources(articles):

return {

a['source']['name']

for a in articles

if a.get('source') and a['source'].get('name')

}

📘 Lectura:

{ expresión for elemento in iterable if condición }
Más limpia, menos código, misma lógica.

💡 Comprobación: Imprime ambos resultados: si hay fuentes repetidas, el set mostrará una sola vez cada una.

🧩 3. Categorizar artículos por fuente

Queremos agrupar artículos según su fuente → cada fuente será una clave con una lista de artículos.

🔸 Versión tradicional

def categorize_traditional(articles):

sources = get_sources(articles)

results = {}

for source in sources:

if source not in results:

results[source] = []

for article in articles:

art_source = article.get('source')

name = art_source.get('name') if art_source else None

if name == source:

results[source].append(article)

return results

🔍 Lógica paso a paso:

Obtiene fuentes únicas.
Inicializa el diccionario.
Recorre artículos y los agrega a su fuente correspondiente.

⚡ Versión con dict y list comprehension

def categorize(articles):

return {

source: [

article

for article in articles

if article.get('source') and article['source'].get('name') == source

]

for source in get_sources(articles)

}

🎯 Ventajas:

Código más compacto.
Agrupación directa sin bucles anidados.
Misma lógica, menos ruido visual.

🧭 4. Buenas prácticas

✅ Usa comprensiones para patrones de mapear y filtrar.

✅ Utiliza .get() para evitar errores de clave.

✅ Emplea set cuando necesites eliminar duplicados.

✅ Usa comprensiones anidadas para agrupar datos de forma clara.

✅ Verifica equivalencia con print() antes y después del refactor.

✅ Corrige advertencias del linter (como ruff).

✅ Comprueba que las funciones devuelvan datos correctos tras refactorizar.

Samuel Steven Bernal Martínez

student•

ow, yo no realicé esas validaciones con el if, por lo que no se indicaba explícitamente en el ejercicio, pero muy interesante el enfoque para cubrir cualquier eventualidad!

Luis Martinez

teacher•

Lo ideal es ir aprendiendo poco a poco, así que está bien que no hayas puesto el if, ya sabes como usarlo!

Anthony Sosa

student•

Es muy loco lo que baja los tiempos los comprehencion, probas con codigo comun y te demora 1 segundo o algo asi, con los compehencion te demora 0,8 o menos, depende de la cantidad de datos, pero es un monton

Luis Martinez

teacher•

Sí, por eso es que suelen ser las más usadas.

Intenta averiguar acerca de complejidad algoritmica, ahí vas a entender más cosas.

Jair Angarita

student•

Si les parece muy complicado entender como se va ejecutando el codigo yo les recomiendo este sitio, tan solo toman y pegan el codigo allá, ah medida que avanza se mira como se va ejecutando paso por paso:

William Quiroz Castillejo

student••

El reto anterior:

source = set([x["source"]["name"] for x in sample_articles])
print(source)

David Gaspar

student•

Realmente necesito ejercitar mas este tema, retomando python despues de 2 años, me senti absolutamente perdido, le alcancé a cachar el tema por los comentarios, pero necesito practicar mas los dict comprehensions en verdad :C

Argenis Daniel Nieves Berroeta

student•

Después de analizarlo y recordar algunos conceptos básicos de diccionarios y listas logre entender.

Me costo, pero logre entender.

Sebastian Pérez

student••

En el reto anterior lo hice de esta manera jaja

def extract_fonts_articles(articles: list) -> set[str]:
    return set({article["source"]["name"] for article in articles})

pero viendola mejor, hay redundancia y el get tiene mejor manejo de errores. Excelente

Diego Azgar Perez Galindo

student•

Respecto al print me llama la atención que en ejemplos pasados mandabamos a llamar la función con su parametro entre parentesis pero en esta ocasión para el get_sources_traditional(articles): lo mandamos llamar al "print" con el parametro de (sample_articles). No entiendo por que sucede esto.

Luis Martinez

teacher••

Es lo mismo, solo que en pasos separados vs. todo junto:

# Opción 1: Dos pasos
resultado = get_sources_traditional(articles)
print(resultado)

# Opción 2: Un solo paso
print(get_sources_traditional(articles))

La función get_sources_traditional(articles) se ejecuta y devuelve un resultado. Ese resultado puedes guardarlo en una variable o usarlo directamente en el print(). Ambas formas son válidas y hacen exactamente lo mismo.

Ejemplo:

# Estas dos líneas imprimen lo mismo:
total = sumar(5, 3)
print(total)  # 8

print(sumar(5, 3))  # 8

Comprensiones anidadas para agrupar y filtrar datos en Python

Código Pythónico y Funcional

Python intermedio: prácticas profesionales con app de noticias e IA

Configuración de PEP 8 y formateo automático con Ruff en Python

Sintaxis de list, dict y set comprehensions en Python