Filtrar logs gigantes con expresiones regulares

Clase 13 de 29 • Curso de Expresiones Regulares

Contenido del curso

Introducción a las Expresiones Regulares

El lenguaje: caracteres, operadores, y construcciones

Uso práctico de Expresiones Regulares

Usos avanzados en Expresiones Regulares

19
Grupos de captura para transformar CSV a SQL
17:39 min

Expresiones Regulares en lenguajes de programación

Tomar examen

Resumen

Analizar grandes archivos de logs con expresiones regulares te da precisión y velocidad para detectar vulnerabilidades, ataques o fallos de sistemas. Desde backend hasta soporte, esta técnica permite hallar exactamente lo que importa en medio de miles de líneas, sin ruido y con control total.

¿Por qué analizar logs con expresiones regulares?

Los logs de sistemas (por ejemplo en Unix y también en Windows) son generados por demonios de fondo y registran niveles como error, warning o mensajes informativos. Suelen ser enormes y verbosos, pero ahí está el detalle útil: desde eventos de usuario hasta direcciones de sensores o cambios de responsable. Incluso una “línea 69” puede contener actividad específica de un usuario.

¿Qué problemas resuelven en archivos enormes?

Evitan coincidencias falsas como confundir "log" con login.
Permiten buscar por línea completa y por nivel exacto.
Filtran por usuario o patrón sin revisar todo manualmente.
Aceleran la inspección frente a un simple Control F.

¿Qué habilidades te aporta?

Identificar y usar anclas de línea: ^ y $ para inicio y fin.
Escapar caracteres reservados: corchetes como [ y ].
Aplicar comodines: .* para “lo que sea”.
Usar agrupaciones: paréntesis para capturar datos como el usuario tras "user@".
Combinar con línea de comando: grep y tail para velocidad.

¿Cómo construir una regex para filtrar logs?

La idea es describir el formato habitual: un encabezado entre corchetes, el tipo de mensaje y el contenido. Se escapan los corchetes, se ancla la línea y se usa .* para lo variable. Así se obtiene exactitud sin depender de un texto fijo.

¿Cómo delimitar inicio y fin de línea?

Ancla el principio y el cierre para evitar “colas” no deseadas.

^\[log\].*warn.*$

ejemplo: busca solo líneas con encabezado "[log]" y nivel warning.
cambia "warn" por "error" si necesitas filtrar errores.

^\[log\].*error.*$

¿Cómo filtrar niveles y usuarios?

Si el formato incluye un usuario con correo, puedes precisar coincidencias.

^\[log\].*@Selis\.MX\s.*$

ejemplo: encuentra líneas del log donde aparece "@Selis.MX" seguido de un espacio.
Para capturar quién es el usuario tras "user@" y reutilizarlo:

^\[log\].*user@(\w+).*$

el grupo (\w+) obtiene el identificador del usuario.
útil para reemplazar o listar ocurrencias por usuario.
Recuerda: [ y ] se escapan porque los corchetes son reservados para clases de caracteres.

¿Qué flujo práctico usar con grep y editores?

Para archivos gigantes, la línea de comando te da resultados en segundos. Luego, en un editor con búsqueda por regex, replicas el patrón y exploras con más comodidad.

¿Cómo combinar tail y grep?

ver las últimas tres líneas del archivo:

tail -n 3 sistema.log

buscar warnings en todo el archivo con regex extendida:

grep -E '^\[log\].*warn.*$' sistema.log

filtrar por usuario específico:

grep -E '^\[log\].*@Selis\.MX\s.*$' sistema.log

listar usuarios tras "user@":

grep -Eo 'user@(\w+)' sistema.log

¿Qué reto practicar?

abre un archivo de log real.
míralo con tail y toma las últimas 3 líneas.
en tu editor con regex (Atom, One, TextWrangler en Mac), busca todas las líneas que sigan el mismo formato que la última o la penúltima.
diferencia entre buscar texto plano y usar patrones con anclas, escapes, comodines y agrupaciones.
identifica tus propios errors, warnings y debug messages dentro de un global manager de errores.

¿Tienes un patrón que te haya funcionado especialmente bien o un formato de log difícil? Cuéntalo en comentarios y comparte tu enfoque.

Comentarios

Mario Alejandro Crespo Reyes

student•

Es gracioso ver como el instructor tiene tanta información en la cabeza por decir y trata de ser o hablar de la manera mas simplificada posible sin dejar de un lado todo su conocimiento o su afán de ser literal y muy correcto con sus palabras. 😅👨‍💻🤷‍♂️

Un increíble esfuerzo por dar un excelente curso ya no es una información tan simple de transmitir efectivamente.

Rodrigo Rodriguez

student•

Coincido , se nota que sabe mucho y va buscando la forma de que lo que ya esta en su cabeza salga de una forma que podamos entenderlo.

Julián Cárdenas

student•

Excellent!

Victor Lozada

student•

Comparto unos logs de ejemplo para que practiquen:

Juan Sebastian Avila

student•

Gracias Victor. Excelente aporte.

Juan Pablo Arnedo

student•

Use esta expresión para encontrar las lineas del LOG que tenga IPs

^.*(\d{2,3}[.]?){4,4}.*$

Eloy Rolando Canchanya Balbin

student•

[LOG ENTRY] [ERROR] The system is unstable
[LOG ENTRY] [WARN] The system may be down
[LOG ENTRY] [WARN] Microsoft just bought Github
[LOG DATA] [LOG] Everything is OK
[LOG ENTRY] [LOG] [user:@beco] Logged in
[LOG ENTRY] [LOG] [user:@beco] Clicked here
[LOG DATA] [LOG] [user:@celismx] Did something
[LOG ENTRY] [LOG] [user:@beco] Rated the app
[LOG ENTRY] [LOG] [user:@beco] Logged out
[LOG LINE] [LOG] [user:@celismx] Logged in

Francisco Garcia [C6]

student•

gracias por el aporte

Braulio Rangel

student•

gracias

Facundo Nicolás García Martoni

teacher•

++Mis expresiones regulares útiles en logs:++

Para buscar direcciones IP:

(\d{1,3}\.){3,3}(\d{1,3})

Para buscar líneas sobre métodos HTTP:

^.*((GET)|(POST)|(PUT)|(DELETE)).*$

Para buscar líneas con fechas en el formato día(numero)/mes(nombre)/año(numero):

^.*(\d{1,2}\/\w+\/\d{4,4}).*$

Julián Cárdenas

student•

Super cool thanks for the contribution!

Alfredo Gonzalez

student•

En este enlace pueden generar su data, por si no tienen a la mano.

https://www.generatedata.com

Luis Ruiz Ramos

student•

Gracias.

GABRIEL ERNESTO ZARATE TOVAR

student•

Excelente aportación a la comunidad

Mariangelica Useche

Team Platzi•

Probé usando grep en la terminal desde la carpeta de logs de npm:

edgar limones lozano

student•

Excelente aporte, gracias.

Pedro Muñoz Becerra

student•

Lo que dice Alberto es muy cierto, quizás el control + F de toda la vida te pueda sacar de un apuro rápido. Sin embargo, para buscar de verdad en logs gigantes (como he tenido que hacer) las expresiones regulares ayudan bastante. Antes de este curso las buscaba en internet, ahora ya puedo hacerlas yo mismo y eso me da muchas ventajas. ¡A seguir aprendiendo amigos!

Oscar Eduardo Palomino Cárdenas

student•

[LOG ENTRY] [ERROR] The system is unstable [LOG ENTRY] [WARN] The system may be down [LOG ENTRY] [LOG] Everything is OK [LOG ENTRY] [LOG] [user:@beco] Logged in [LOG ENTRY] [LOG] [user:@beco] Clicked here [LOG ENTRY] [LOG] [user:@oscar] Rated the app [LOG ENTRY] [LOG] [user:@beco] Logged out [LOG ENTRY] [LOG] [user:@Lis] Logged out Si quiero encongrar en el log la advertencia utilizaré:

\[LOG.*\[WARN.*

-> Primero se escapa el corchete ya que es un carácter reservado, luego se escribe lo que se desea encontrar, con el simple [log.* se selecciona toda la línea, ahora se vuelve a escapar el corchete y se termina de seleccionar el warn y el resto de la línea con el ".*". Si de los logs anteriores quiero encontrar solo los usuarios utilizaré:

^\[log.*\[user.*$

Si quiero encontrar la información de 1 usuario utilizaré:

\[log.*\[user:@oscar.*$

Deyvi Jhonny Bustamante Perez

student•

Excelente

Iraida Mercedes Barreto Díaz

student•

En este ejemplo:

Buscar líneas con el comando POST y que contengan la palabra admin

"POST.*admin.*

Yenny Paola Porras Rueda

student•

Descripción de la clase por Beco:

Las expresiones regulares son muy útiles para encontrar líneas específicas que nos dicen algo muy puntual dentro de los archivos de logs que pueden llegar a tener millones de líneas.

Iván Mauricio Jaimes Niño

student•

Colección de logs del diferentes sistemas:

https://github.com/logpai/loghub

Julio J Yépez

student•

(min 4:32)

^\[LOG.*\] \[LOG\].*user:@\w+?\] .*$

Julio J Yépez

student•

Hacen match:

Jesús Pernía

student•

Que les parece la siguiente expresión para obtener los logs que empiecen con una ip y sean solicitudes de tipo POST:

^\d{2,3}\.\d{2,3}\.\d{2,3}\.\d{2,3}.*POST.*$

Juan Manuel Alberto Martin

student•

Esta bueno, y parece funcionar 😄 Lo que si, pondría el filtro de dígitos de 1 a 3 por si aparece alguna ip del estilo 64.242.88.9

Otra mejora seria agregar la comilla en el filtro, por si aparece una palabra con post (si bien estas buscando en mayúsculas) en el endpoint como “PostfixComands”.

Algo así:

^\d{2,3}.\d{2,3}.\d{2,3}.\d{2,3}."POST.$

Igualmente son solo detalles por si queres ser mas especifico. Como lo creaste funciona 😄

Saludos!

Manuel Nicolas Matute Zapata

student•

Esta muy cool!!!, este deberia funcionar tambien.

^(\d{1,3}\.){4,4}.*POST.*$

Ricardo Andrés Pabón Rincón

student•

tan "sencillo" y a la vez tan útil y poderoso.

Wilder Winslao Trujillo Meza

student•

Qué hermoso es porder Seleccionar solo lo que quiero

Anthony Smith Quispe De la cruz

student•

Buenas amig@s, si estáis usando Linux podéis abrir el archivo /var/log/auth.log donde os mostrará diversas operaciones y así podéis buscar información relevante, en mi caso busque los últimos comandos que hice usando sudo.

Walter De Jesús Medina Puy

student•

Les comparto una lista de los caracteres reservados en expresiones regulares.

Símbolo Descripción [ ] Especificación de rango. (p.e. [a-z] representa una letra en el rango de la a a la z \w Letra o dígito o guión bajo; es lo mismo que [0-9A-Za-z_] \W negación de \w \s Espacio, es lo mismo que [ \t\n\r\f] \S Negación de \s \d Dígito; es lo mismo que [0-9] \D Negación de \d \b Backspace (0x08) (sólo si aparece en una especificación de rango) \b Límite de palabra (sólo si no aparece en una especificación de rango) \B No límite de palabra * Cero o más repeticiones de lo que precede + Una o más repeticiones de lo que precede [m,n] Al menos m y como máximo n de lo que precede ? Al menos una repetición o ninguna de lo que precede; es lo mismo que [0,1] | Puede coincidir con lo que precede o con lo que sigue ( ) Agrupamiento

Rodolfo Malpica Delgado

student•

Esto se parece mucho a la función "ctrl+g" de Chrome, ¿funciona bajo esta lógica? En caso de ser así, ¿hay manera de hacer búsquedas avanzadas con esa función?

Luis Lira

student•

Creo que de forma nativa sólo soporta texto plano, pero existge esta extensión para que puedas usar Regex Chrome Regex Search

Aldo Miguel Ortiz Parodi

student•

11. Mis apuntes sobre: "Logs"

1. Ejemplo regex: Aplicando negación para buscar logs exactos

^\[LOG.*\[WARN.*\].*$

-Explicación 1: Encuentra y selecciona [match] que sea exactamente una línea que inicie con [LOG luego tenga 0 o más caracteres, luego [WARN luego 0 o más caracteres, luego ], luego 0 o más caracteres. ' '

2. Ejemplo regex: Aplicando negación para buscar logs exactos

^\[LOG.*\[LOG\].*user:@celismx\].*$

-Explicación 2: Encuentra y selecciona [match] que sea exactamente una línea que inicie con [LOG luego tenga 0 o más caracteres, luego [LOG] luego 0 o más caracteres, luego user:@celismx], luego 0 o más caracteres. ' '

3. Ejemplo regex: Aplicando negación para buscar logs exactos

^\[LOG.*\[LOG\].*user:@\w+?\] .*$

-Explicación 3: Encuentra y selecciona [match] que sea exactamente una línea que inicie con [LOG luego tenga 0 o más caracteres, luego [LOG] luego 0 o más caracteres, luego user:@, luego 0 o más palabras (words), luego ]. luego un espacio en blanco, luego 0 o más caracteres. ' '

Steven Quimbayo

student•

Hice estas instrucciones de RegEx que seleccionan cualquier log (como los vistos en clase) ;)

(\[\w+(\W+)?(\w+)?\]\s){1,}(\w+\s){1,}

Filtrar logs gigantes con expresiones regulares

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares