Grep: filtra archivos masivos con regex

Clase 29 de 29 • Curso de Expresiones Regulares

Contenido del curso

Introducción a las Expresiones Regulares

El lenguaje: caracteres, operadores, y construcciones

Uso práctico de Expresiones Regulares

Usos avanzados en Expresiones Regulares

19
Grupos de captura para transformar CSV a SQL
17:39 min

Expresiones Regulares en lenguajes de programación

Tomar examen

Resumen

Domina búsquedas masivas en segundos con grep y expresiones regulares desde la línea de comandos. Con herramientas ya compiladas en Unix y en Windows con Ubuntu, puedes filtrar archivos enormes con precisión, aprovechar pipes y optimizar tiempo y CPU sin complicaciones.

¿Qué hace grep con expresiones regulares en la línea de comandos?

Con grep puedes localizar patrones de texto de forma directa y veloz. Al combinarlo con otros comandos, obtienes flujos de trabajo potentes para inspeccionar, contar y filtrar datos sin salir de la terminal.

grep: busca patrones con una versión reducida de expresiones regulares.
cat: imprime archivos a pantalla para encadenar procesos.
wc -l: cuenta líneas y te da una métrica rápida del volumen.
pipe con standard output y standard input: conecta comandos para procesar datos en serie.

¿Cómo funcionan cat, wc -l y el pipe?

El flujo típico es enviar la salida de un comando a la entrada del siguiente. Así, construyes filtros paso a paso.

# imprimir archivo y contar líneas
your_command_that_outputs_file | wc -l

# imprimir archivo y filtrar con grep
cat archivo.csv | grep "^2012"

cat | wc -l: cuenta líneas totales.
cat | grep: imprime solo lo que coincide con el patrón.
pipe: encadena sin crear archivos temporales.

¿Cómo construir patrones con anclas, clases y límites?

Las anclas y clases dan control fino sobre dónde y qué buscas.

# líneas que comienzan con 2012
cat archivo.csv | grep "^2012"

# marcador entre comas: un 3 seguido de cualquier dígito
cat archivo.csv | grep ",[3][0-9],"

# líneas que terminan en E
cat archivo.csv | grep "E$"

# clase de caracteres S o E al final
grep "[SE]$" archivo.csv

^ y $: anclas de inicio y fin de línea.
[0-9]: clase de dígitos, de cero a nueve.
[SE]: clase con S o E.
Patrones entre comas: delimitan campos para evitar falsos positivos.

¿Cómo aplicar búsquedas encadenadas con grep para filtrar datos?

Puedes usar varios grep seguidos para refinar resultados. Primero ubicas un conjunto amplio y luego lo reduces con filtros específicos. Esto mantiene simplicidad y da velocidad notable, incluso en equipos no recientes.

# todos los partidos donde aparece Brasil
cat partidos.csv | grep "Brasil"

# Brasil contra Uruguay
cat partidos.csv | grep "Brasil" | grep "Uruguay"

# además, filtrar por año al inicio de la línea (por ejemplo, 1952)
cat partidos.csv | grep "Brasil" | grep "Uruguay" | grep "^1952"

búsquedas encadenadas: agregan precisión con pasos claros.
conteo rápido: añade wc -l al final para saber cuántos casos hay.
rendimiento: la velocidad es “brutal” incluso con archivos grandes.
caso real: detección de marcadores como 31–0 entre comas y partidos icónicos como el Maracanazo de 1950, filtrados por año y rivales.

¿Qué aprendizajes y prácticas te vuelven más efectivo con regex?

Las expresiones regulares son una herramienta esencial para cualquier developer. Su potencia viene de décadas de uso y madurez en múltiples lenguajes, y su curva de aprendizaje vale la pena.

historia y ecosistema: surgieron en 1960, se fortalecieron en 1980 y crecieron con Perl y C.
limpiar y romper líneas: útil para preparar datos, aunque cuidado con comas no escapadas y desbalances en columnas.
eficiencia: un mal preprocesamiento gasta mucho tiempo y CPU; un buen patrón lo ahorra.
patrones comunes: emails, dominios y otras cadenas repetidas se resuelven con expresiones simples y claras.
consistencia entre lenguajes: hay pequeñas diferencias, pero la lógica es similar y transferible.
mentalidad: evita el mito de “si usas regex, tienes dos problemas”; entenderlas bien convierte problemas en soluciones rápidas.
recurso práctico: apóyate en un cheat sheet para recordar atajos y clases frecuentes.

¿Te quedó una duda específica o quieres compartir un patrón que te funcionó bien? Deja tu pregunta o comentario y seguimos la conversación.

Comentarios

Hecot Pulido

student•

Siento que aprendí una magia arcana, oscura e increíblemente poderosa

Rodrigo Rodriguez

student•

tal cual!

Ivan Santiago

student•

Para usar expresiones regulares en Ubuntu 16.04 se necesita agregar la flag -E o -G:

cat results.csv | grep -E ,3[0-9],

Nicolas Alvarez Tobon

student•

Tambien sirve escapando los corchetes.

cat results.csv | grep ,3\[0-9\],

Alan Quispe

student•

Que extraño a mi me funcionó normal sin escapar ni usar parametro -E

H NA

student•

En ArchLinux usando zsh (Z shell) tuve que usar comillas simples para que funcionaran las expresiones regulares:

cat results.csv | grep ',3[0-9],'

Belén Prats

student•

Me sirvió mucho tu comentario! Tengo Ubuntu y me funcionó así

Axel Gómez

student•

Graciaaaas, donde lo encontraste?

leonardo Oteca

student•

Like si entiendes la referencia

cat results_6aeb6252-c531-449d-bf29-e11193358b8c.csv | grep Colombia | grep Argentina | grep ,5,

Jesús Daniel Mayo Vidal

student•

Jajajaj Lol

Nestor Rios Garcia

student•

Un dia negro

Nagcely Mendoza

student•

Excelente curso, gracias @Beco por compartir tus conocimientos de una manera sencilla y super práctico. Felicitaciones Platzi por la realización de este curso.

Antonio Madrid

student•

Gran curso, estoy absolutamente sorprendido. Empezando por el profesor, vine de su último curso sobre Comandos en Linux, donde no me gustó su desempeño, ni la estructura del mismo. Siendo honestos, empecé éste curso pensando que iba a ser insufrible, por la temática y por la experiencia del anterior, pero…

Para mi sorpresa, no es solo que me haya encantado la temática, sino que en este caso, el profesor ha sabido inspirar, y para culminar, la estructura del curso me ha parecido genial.

Se ha notado mucho el esfuerzo, mi opinión respecto al profesor a cambiado radicalmente, no lo esperaba. Se le notaba muy relajado, con un gran deseo de hacerse entender y que los alumnos entendieran cada paso. Se le notaba también la pasión por la tecnología que domina. Me encantaría ver más a @beco de esta forma en futuros cursos.

Gracias por hacer que me interese tanto por las Regex y por motivar en este duro camino @beco.

Jecsham Castillo

student•

¿Cuál es la diferencia de -E y -G?

Johan v26

student•

Me paso algo similar, pero la verdad aca Beco se pone super op !! severas clases ,buenas explaciones y se notaba el dominio del tema para propagarlo.

Iliana Deetz

student•

Maracanazo es el nombre con el que se conoce a la victoria de la selección de fútbol de Uruguay en el partido decisivo de la Copa Mundial de Fútbol de 1950 frente a la selección de fútbol de Brasil. Contra todo pronóstico, Uruguay ganó a Brasil 2-1 en el Estadio Maracaná de Río de Janeiro. Por extensión, el término se ha generalizado para definir a aquella victoria de un equipo o deportista, preferentemente una final, en campo ajeno y teniendo todos los factores en contra.

Fuente: Wikipedia XD

Daniel Páez

student•

En un principio grep no me sopotó todas las búsquedas que hice pero cuando use egrep funcionó excelente.

¡Lo menciono por si a alguien le sirve!

Alejandro Sanchez

student•

tomare nota

Ramses Acosta

student•

Usaste grep -P "regular_expression" con P activas las expresiones regulares y las comillas son necesarias tal vez pueda ser eso

Diego Camino Reinoso

student•

Que gran curso! Puedo sentir el poder ahora! te amo BECO <3

andres flores

student•

De los mejores cursos de platzi

Ernán Alexander Velásquez Ramírez

student•

Miguel Angel Reyes Moreno

student•

grep nos ayuda a buscar dentro de archivos, textos muy puntuales. Es una versión muy reducida de las regex.

Ejemplo:

cat results.csv | grep 'expresionRegular' -> cat results.csv | grep TRUE$

Podemos incluso juntar varios grep: cat results.csv| grep Brazil | grep Uruguay | grep ^1952 y tendremos varios resultados de Brazil y Uruguay en 1950

Jose R. Torrens Acosta

student•

(min 2:45) Samoano / Samoamericano

Jecsham Castillo

student•

Bueno, ya podemos entender los chorizos sin sentido que veíamos por ahí 😄

Abigail Perez

student•

jajajaja

Francisco Carusso

student•

Lista básica de comandos principales:

//Coincidencias Basicas
.       - Cualquier Caracter, excepto nueva linea
\d      - Cualquier Digitos (0-9)
\D      - No es un Digito (0-9)
\w      - Caracter de Palabra (a-z, A-Z, 0-9, _)
\W      - No es un Caracter de Palabra.
\s      - Espacios de cualquier tipo. (espacio, tab, nueva linea)
\S      - No es un Espacio, Tab o nueva linea.

//Limites
\b      - Limite de Palabra
\B      - No es un Limite de Palabra
^       - Inicio de una cadena de texto
$       - Final de una cadena de texto

//Cuantificadores:
*       - 0 o Más
+       - 1 o Más
?       - 0 o Uno
{3}     - Numero Exacto
{3,4}   - Rango de Numeros (Minimo, Maximo)

//Conjuntos de Caracteres
[]      - Caracteres dentro de los brackets
[^ ]    - Caracteres que NO ESTAN dentro de los brackets

//Grupos
( )     - Grupo
|       - Uno u otro

Usuario anónimo

user•

es como ser harry potter pero sin el dinero.

Daniel Salazar Munoz

student•

Este curso ha valido todo mi tiempo en cada segundo

Andres Bravo

student•

Uno de los mejores cursos en Platzi, muchas gracias @Beco

André Thomas Gil Cifuentes

student•

Gracias @Beco por este curso, me rei con sus expresiones cuando se equivocaba y a la vez aprendi un monton! :D

Francisco Garcia [C6]

student•

con: Distributor ID: Ubuntu Description: Ubuntu 20.04.3 LTS Release: 20.04 Codename: focal

cat PartidosFutbol.csv | grep ,3\[0-9],

David Limon

student•

Algo decía que no me estaba saliendo, gracias por el aporte, ya me esta dando por vencido...

//Coincidencias Basicas
.       - Cualquier Caracter, excepto nueva linea
\d      - Cualquier Digitos (0-9)
\D      - No es un Digito (0-9)
\w      - Caracter de Palabra (a-z, A-Z, 0-9, _)
\W      - No es un Caracter de Palabra.
\s      - Espacios de cualquier tipo. (espacio, tab, nueva linea)
\S      - No es un Espacio, Tab o nueva linea.

//Limites
\b      - Limite de Palabra
\B      - No es un Limite de Palabra
^       - Inicio de una cadena de texto
$       - Final de una cadena de texto

//Cuantificadores:
*       - 0 o Más
+       - 1 o Más
?       - 0 o Uno
{3}     - Numero Exacto
{3,4}   - Rango de Numeros (Minimo, Maximo)

//Conjuntos de Caracteres
[]      - Caracteres dentro de los brackets
[^ ]    - Caracteres que NO ESTAN dentro de los brackets

//Grupos
( )     - Grupo
|       - Uno u otro

Grep: filtra archivos masivos con regex

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares

Filtrar logs gigantes con expresiones regulares

Expresiones regulares para URLs HTTP

Regex para validar teléfonos con separadores y extensiones

Validación de emails con regex

Validación de coordenadas GPS con regex

Validar nombres propios con regex

Usos avanzados en Expresiones Regulares

Grupos de captura para transformar CSV a SQL

Expresiones Regulares en lenguajes de programación

Cómo extraer variables de URLs con regex

Regex en múltiples lenguajes con CSV real

Perl: CSV de fútbol en cero segundos

Expresiones regulares en PHP: preg_match con CSV

Extraer empates de archivos masivos con PHP

Python regex para análisis de archivos CSV

Lectura de archivos con BufferedReader en Java

Escapar regex en Java: doble barra

Validación de emails en JavaScript con regex

Grep: filtra archivos masivos con regex