Greedy vs lazy en regex: cuándo usar cada uno

Clase 9 de 29 • Curso de Expresiones Regulares

Resumen

Domina expresiones regulares en CSV y evita errores comunes: aprende a separar columnas con precisión, usar el símbolo de interrogación para controlar greedy/lazy, y capturar la última columna sin cortar datos. Ideal para limpieza de datos, validación y búsqueda en logs.

¿Cómo extraer columnas de un CSV con expresiones regulares?

Para separar columna por columna, el truco está en combinar el punto (.) con cuantificadores y una coma como delimitador. Primero, recuerda que el punto significa «cualquier carácter». Luego, el cuantificador más (+) asegura «uno o más». Sin embargo, por defecto el motor hace el match completo en modo greedy: intenta llevarse lo máximo posible antes de la coma.

¿Qué patrón usar para separar por coma?

Greedy básico que se come de más:

.+,

Hacerlo mínimo con lazy para obtener la coincidencia más corta posible por columna:

.+?,

Con find, los matches salen «chiquitos» y en orden: primero la primera columna hasta la coma, luego la segunda, y así sucesivamente.

¿Cómo incluir la última columna si no termina en coma?

Cuando la última columna no tiene coma, necesitas permitir que el match termine en coma o en fin de línea. Crea una clase con la coma o el final:

.+?(,|$)

El más (+) asegura «siempre hay algo» antes del delimitador.
El modificador lazy (?) mantiene los matches cortos y consecutivos. Este patrón trae todas las columnas, incluyendo la última aunque cierre con salto de línea.

¿Qué significa greedy y lazy en regex y cómo usar el símbolo de interrogación?

El símbolo de interrogación (?) tiene dos usos clave:

¿Cómo funciona el símbolo de interrogación?

Cuantificador opcional: indica «cero o uno» del elemento anterior. Por ejemplo, a? permite que haya o no haya una «a».
Modificador de cuantificador: vuelve lazy a * o +, es decir, busca el match más pequeño posible. Ejemplo: .+? frente a .+.

Puntos clave: - Sin ?, el motor es greedy: trae «todo lo que pueda» antes del delimitador. - Con ?, el motor es lazy: hace los matches más pequeños posibles y encadena resultados columna por columna. - Con find, verás coincidencias consecutivas bien delimitadas.

¿Qué cuidados prácticos evitan errores al limpiar y validar datos?

Los detalles importan al construir clases, delimitadores y cuantificadores. Evita sorpresas al procesar datos reales.

Clases de caracteres: pueden incluir rangos y caracteres puntuales. Úsalas para delimitar con coma o fin de línea (,|$).
Asterisco (*) vs más (+): * permite «cero o más»; + exige «uno o más». Para columnas, + suele ser más útil.
Editor Atom: marca en rojo cuando la expresión no compila. Útil para detectar corchetes sin cerrar o escapes incorrectos.
Emojis: pueden representarse como varios caracteres bajo un solo ícono. Evita tratarlos a la ligera.
Caracteres especiales del español: acentos y la Ñ requieren atención específica.
Limpieza de CSVs grandes: filas con solo comas agregan ceros en lugar de null y pueden romper promedios o calificaciones.
Validación de input: las regex ayudan a limpiar entradas, validar formatos y buscar patrones en logs de servidores.

¿Con qué patrón te quedas hoy? Prueba, rompe y ajusta tus expresiones: juega con find, alterna entre greedy y lazy, y cuéntame en qué casos te funcionó mejor.

María Alejandra Zapata Montaño

student•

Delimitador ?:
Los matches los hace lo más pequeños posibles.
Es decir: Haz el match, pero los divides en grupos pequeños.

Ejemplo:

.+?

Encuentra todos los caracteres y haces matches pequeños.

Jhan Carlos Celis Maldonado

student•

Exactamente Maria.

JUAN SEBASTIAN RODRIGUEZ JIMENEZ

student•

Que buen aporte !!

Carlos Mario Mora Restrepo

student•

el caracter ? es un delimitador cuando esta antecedido por el +, para encontrar la minima ocurrencia posible. Si no tiene el mas, ya no es delimitador sino simbolo de ocurrencia de cero a una vez.

JUAN SEBASTIAN RODRIGUEZ JIMENEZ

student•

Que buen aporte !!

Cristian Camilo Hernández Ramirez

student•

A mi entender es: Los quantifiers * y +, siempre van a agarrar el máximo número que les permita el match.

Cuando se le pone el ? a un quantifier, se le está diciento que agarren el mínimo número de caracteres que les permita el match.

David Andrade Morales

student•

*? Coincide con el elemento anterior cero o más veces, pero el menor número de veces que sea posible.
+? Coincide con el elemento anterior una o más veces, pero el menor número de veces que sea posible.
?? Coincide con el elemento anterior cero o una vez, pero el menor número de veces que sea posible.

**La función de (?) como delimitador conociste justamente en delimitar a la menor cantidad posible de los matches. **

Sebastian Andree Lopera Quevedo

student•

El aporte está genial pero pienso que se lo redactaría mejor diciendo que ? como delimitador se encarga de hacer la mayor cantidad de matches posibles mientras se cumpla la expresión regular. Cada uno lo asimila mejor con diferentes sentencias y tal vez lo mio ayude.

Xhunik Miguel

student•

Si, esta un poco confuso pero igual buen aporte

Adrián Pérez Cruz

student•

Solo como comentario…en el vídeo y luego en el examen mencionan el carácter ? Cómo “greedy” … Y en verdad debe ser “lazy” …al principio del vídeo si se explica así, luego cambia de lazy a greedy y en el examen queda como “greedy” pero el comportamiento correcto es “lazy” … Me gustó el curso

Axel Gómez

student•

Lo correcto entonces sería llamarlo greedy o lazy? No solo en la prueba, sino en el día a día.

JUAN SEBASTIAN RODRIGUEZ JIMENEZ

student•

Que buen aporte !!

Martin Paez

student•

Recuerden: \n es un salto de linea

Daniel Omar Hernández Muñoz

student•

No me funciona en VScode, sabes porque puede ser?

LUIS EDUARDO PARADA CUBIDES

student•

Vscode no interpreta correctamente esta sintaxis: \d{2,2}. Vscode entiende: \d{2} pero hay más cosas que no funcionan como lo explica el profe. Tuve que instalar Atom para seguir el curso.

Diego Fernando Rojas Quintero

student•

👋Hola chicos, Aquí les dejo el resumen de lo que pude entender de esta clase

Generalmente cuando buscamos hacer un match en el código en un archivo (cvs, txt, etx) por medio de una expresión regular, lo podemos hacer de una manera no tan exacta. ++Ejemplo:++ queremos encontrar todos los posibles match en este archivo.txt

Pero gracias a la expresión regular ? , podemos conocer otra ayuda que nos esta ofreciendo esta misma.

Aquí enumeramos el beneficio que ya conocemos en las anteriores clases del curso y la que nos esta explicando el profesor en esta clase.

Nos buscara y seleccionara el carácter Si esta ó No esta en el código.

Nos buscara y seleccionara el match de una forma mucho mas precisa, de manera de que podamos encontrar muchas mas coincidencias en una o varias lineas de código.

++Dale un like en ❤ si te ayudo esta recomendación++

Julio J Yépez

student•

.+?[,\n]{1,1}

Gustavo David Guillen Gutierrez

student•

como es que se llama para graficar las expresiones regulares?

Nathaly Stefani Riaño Bejarano

student•

En la url puedes ver el flujo lógico de las regex

Carlos David Ramirez Muñoz

student•

Usos de ?

-Para expresar que pueden o no haber cierto caracter ejemplo: \d[a-zA-z]? (Indica busqueda de un digito y despues puede haber o no una letra)

-Como delimitador, es decir; busca los grupos más pequeños posibles segun la condicion dada ejemplo: \d\d+? (Busca subgrupos de dos numeros)

Julio Hernandez Gorocica

student•

estoesmíoestoesmíoestoesmíoestoesmíoestoesmío

Julián Cárdenas

student•

jajajaja

Jeyson David Vargas Crespo

student•

Hola, no entendí la última parte de la expresión: {1,1}

Gracias por su ayuda.

Juan Camilo Lezcano Benitez

student•

Hola, esa expresión se refiere a que va a hacer la búsqueda y va agrupar los elementos que cumplen con un mínimo de 1 y un máximo de 1. Para clarificarlo el ejemplo \d{2,2} encuentra dígitos que estén seguidos y agrupa en mínimo 2 y máximo 2. En la siguiente imagen usando este ejemplo se generan 4 grupos.

JUAN SEBASTIAN RODRIGUEZ JIMENEZ

student•

Que buen aporte !!

Oscar Eduardo Palomino Cárdenas

student•

El ? indica al patrón que encuentre las coincidencias de manera rápida (o greedy); es decir, devolviendo el resultado más pequeño que haga match hasta donde se encuentra el delimitador, y esto lo haga tantas veces como sea posible dentro de la cadena. Por ejemplo, tenemos: csv1,csv2,csv3,csv4,csv5 echo1,echo2,echo3,echo4 12,123,1234,12345,123456 si utilizo .*, Va a seleccionar cada línea y el match va a ser muy grande, hasta la última coma, pero, si utilizo .+?, los match son más pequeños, y son separados por la última coma. Para incluir la última columna, se construye una nueva clase que incluya a la coma y a un espacio en blanco o un salto de línea, así: .+?[,\n]{1,1}.

Buzu B

student•

No es greedy. Es lazy.

Jhon Carlos Colorado Angulo

student•

También funciona .*?[,\n]{1,1}

Andrea Torres

student•

Aún no entiendo del todo el motivo del contador {1,1}. Alguien me podría explicar con algún ejemplo la diferencia de ponerlo o quitarlo?

Hector Esau M

student•

Es la cantidad de veces que puede repetirse la clase en este caso [,\s] por lo tanto l edice que solo puede aparecer una vez (porque en teoria solo deberi aparecer una vez por que solo hay un salto de linea)

JAVIER SANTIAGO SALGADO

student•

Me pasó algo interesante, y es al dejar el fin de line incluido

.+?[,\n]{1,1}

el \n no incluye el fin de texto, ¿Cuál es el símbolo para este? (o siempre toca dejar un salto de linea al final del texto)

Luis Angel José Portillo Arévalo

student•

Bueno, posiblemente ya hayas respondido esta duda 3 clases mas adelante, pero el símbolo para el final de linea es $

Fredy Varon Aristizabal

student•

En el ejercicio

**csv1,csv2,csv3,csv4,**csv5 **1234,543,234,567,**567 **432,765,368,285,**986

utilizando la expresión, en atom

.+?[,\n]{1,1}

no me genero coincidencias al final de cada línea; para ello usé el retorno de carro \r, que si genero las coincidencias sin la necesidad de {1,1}

.+?[,\r]

ahora, utilizando la expresión,

.+?[,\n]{1,1}

en https://regex101.com/ Genera todas las coincidencias si la necesidad del {1,1}, cosa que no para usando la expresión: .+?[,\r] en dicha página.

En el texto del profesor se ve que el archivo tiene un salto de línea después de la línea 25, eso hace que se señale el 986 como coincidencia, en caso de no tener el salto de línea el 986, no sería coincidencia

Wilson Marino Pablo Mendez

student•

Filtrando correo electronico

^[a-z0-9]{1,20}\@\w{1,10}\.\w+[\com]$

Luis David Perez

student•

El caso de ? como delimitador

El delimitador "lazy" o "perezoso" en las expresiones regulares, representado por el metacaracter ?, modifica el comportamiento de los cuantificadores para que sean "perezosos" en lugar de "codiciosos". Esto afecta cómo se realiza la coincidencia cuando se trata de patrones que pueden tener múltiples coincidencias en una cadena de texto.

Aquí está cómo funciona:

Cuantificadores Codiciosos

Por defecto, los cuantificadores en expresiones regulares son "codiciosos". Esto significa que tratan de encontrar la coincidencia más larga posible en la cadena de texto. Por ejemplo, considera la expresión regular .* que coincide con cualquier cosa entre dos puntos (.) en una cadena. Si tienes el texto "abc.def.ghi", una expresión regular codiciosa coincidirá con todo el texto desde el primer punto hasta el último punto.

Cuantificadores Perezosos (con ?)

Al agregar ? después de un cuantificador, se vuelve "perezoso". Esto significa que tratará de encontrar la coincidencia más corta posible en la cadena de texto. Usando el ejemplo anterior, si tienes la expresión regular .*?, coincidirá con "abc" como la primera coincidencia, en lugar de coincidir con toda la cadena desde el primer punto hasta el último.

Veamos un ejemplo más detallado para comprender mejor la diferencia:

Supongamos que tenemos el siguiente texto:

<div>Texto1</div><div>Texto2</div>

Y queremos extraer el contenido entre las etiquetas <div> y </div>. Si usamos la expresión regular codiciosa <div>.*</div>, obtendríamos una sola coincidencia que abarca todo el texto entre el primer <div> y el último </div>:

<div>Texto1</div><div>Texto2</div>

Sin embargo, si usamos la expresión regular perezosa <div>.*?</div>, obtendríamos dos coincidencias separadas, una para cada par de etiquetas <div> y </div>:

<div>Texto1</div>
<div>Texto2</div>

El delimitador "lazy" (?) es útil cuando deseas encontrar las coincidencias más pequeñas y específicas en lugar de las más grandes y generales. Esto es particularmente útil cuando estás procesando documentos HTML, XML u otros formatos similares donde deseas extraer información específica de las etiquetas.

Aldo Miguel Ortiz Parodi

student•

7. Mis apuntes sobre: "El caso de (?) como delimitador" ? --> modifica el +,*

1. Ejemplo regex: <?> como modificador débil

.+?,

-Explicación 1: Encuentra y selecciona [match], todos los caractares que existan antes de una coma, haz el match, pero divídelos en los grupos más pequeños posibles, de igual manera cumpliendo las condiciones. ' '

Jose De Aquino

student•

¿Por qué a mi no me funciona?

Pablo Arevalo

student•

tampoco me funciona

Braulio Rangel

student•

si cambias el \n por el \s

David Zabaleta Franco

student•

Excelente clase

Juan Camilo Guzman Sandoval

student•

Creo que asi seria la de email:

\w+\@\w+\.\w+\.*\w*

Oscar Jaramillo

student•

Greedy vs lazy en regex: cuándo usar cada uno

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares