Cómo procesar archivos CSV con millones de líneas

Clase 12 de 29 • Curso de Expresiones Regulares

Resumen

Procesa archivos masivos con confianza usando expresiones regulares: aprende a forzar que cada línea sea un solo match, a limitar dígitos con cuantificadores {m,n} y a limpiar CSV quedándote solo con las columnas que importan. Con anclas inicio de línea (^) y fin de línea ($) reduces ruido, evitas coincidencias parciales y aceleras el filtrado de datos.

¿Cómo lograr un match por línea con anclas ^ y $?

Para archivos con millones de líneas, es clave garantizar que cada línea coincida completa o se descarte. Las anclas delimitan el comienzo y el final de la línea, evitando múltiples matches en la misma línea y simplificando la limpieza.

¿Por qué usar ^ y $ para un único match por línea?

^ indica inicio de línea.
$ indica fin de línea.
Entre ambos, la expresión debe cubrir la línea completa.
Resultado: o hay match de línea completa o no hay match, sin duplicados dentro de la misma línea.

Código de ejemplo:

^\d$            # solo una línea con un dígito
^\d{3,6}$       # entre 3 y 6 dígitos, línea completa
^\d{3,}$        # 3 o más dígitos, línea completa

Idea clave: la línea entera es el match o no lo es; así se descarta basura rápidamente.

¿Cómo evitar coincidencias repetidas en una misma línea?

Ancla el patrón con ^ al inicio.
Cierra el patrón con $ al final.
No dejes partes sin cubrir: cualquier carácter fuera del patrón invalidará el match completo.

¿Cómo controlar dígitos y negaciones con cuantificadores y clases?

En validaciones numéricas es común exigir longitudes específicas. {m,n} define rangos de repeticiones; combina con clases como \d para dígitos y con negaciones para excluir.

¿Cómo limitar dígitos con {m,n} y asegurar el final?

Tres a cinco dígitos: ^\d{3,5}$.
Veinte dígitos exactos: ^\d{20}$.
A partir de tres dígitos: ^\d{3,}$.
Si la línea contiene más dígitos de los permitidos o texto extra, no hace match.

¿Cómo negar correctamente con gorrito dentro de clases de caracteres?

El gorrito (^) tiene doble uso: fuera de corchetes es inicio de línea; dentro de una clase [^...] significa negación.
Para líneas que no comienzan con un dígito:

^[^\d].*       # primer carácter no es dígito, luego cualquier cosa

Alternativa equivalente: ^\D.* (\D es “no dígito”).

¿Cómo filtrar líneas de CSV con columnas específicas?

Cuando un CSV mezcla datos y metadatos, conviene forzar la estructura exacta de columnas para evitar matches parciales. Objetivo: solo tres columnas separadas por coma y nada más.

¿Cómo validar 3 columnas de CSV con caracteres de palabra?

Usa \w+ para “carácter de palabra” (letra, dígito o guion bajo).
Ancla inicio y final para que no pasen columnas extra.

^\w+,\w+,\w+$   # exactamente 3 columnas tipo \w+, separadas por coma

Si aparece una cuarta columna (por ejemplo, “,12”), no habrá match porque el patrón termina con $.

¿Cómo reducir ruido y acelerar el filtrado masivo?

Define el patrón de línea completa con ^ y $.
Especifica la estructura exacta: columnas, separadores y longitudes.
Aplica el patrón para aceptar o descartar líneas completas en bloque.
Beneficios: menos basura, más velocidad y datos más confiables para estadísticas y reportes.

¿Qué casos prácticos se benefician de este enfoque?

Validación de teléfonos, antes vista con patrones concretos.
Búsqueda de URLs y nombres simples.
Extracción de ubicaciones con latitud y longitud para GIS (Geographic Information Services).
Mails, con y sin peculiaridades de Gmail.

Habilidades que refuerzas:

Diseño de patrones con anclas ^ y $ para control por línea.
Uso de cuantificadores {m,n} para longitudes específicas.
Manejo de clases de caracteres: \d, \D, \w y negaciones [^...].
Construcción de expresiones para CSV: estructura fija de columnas separadas por coma.
Criterio de limpieza: o toda la línea coincide o se descarta.

¿Tienes un patrón que quieras validar o un CSV que quieras limpiar? Comparte un ejemplo en comentarios y afinamos la expresión juntos.

Comentarios

Diego Forero

Team Platzi•

Esta regex
^\w+,\w+,\w+$
Se puede escribir así
^(\w+,?){3,3}$

Ivan Santiago

student•

No seria mejor asi? ^(\w+,){2,10}\w+$

Miguel Gonzalez

student•

Esta puede ser otra limitándonos a 3 columnas de 3 caracteres entre las comas ^(\w{3},){2}\w{3}$

Eloy Rolando Canchanya Balbin

student•

Algo que encontré:

Carlos Silva

student•

Muy bueno, gracias

Ian Cristian Ariel Yané

student•

Que crack, me imagino la respuesta de Elmañana

Ivan Robles

student•

Esta RegEx ^\w+,\w+,\w+$ se puede escribir así:

^(\w+,){2}(\w+)$

matcheando estrictamente lo mismo.

Didier Stiven Niño Alba

student•

Hola Iván, esta puede ser otra posible solución: ```txt ^(\w+[,]?){3}$

Julián Cárdenas

student•

Vea pues

Kevin Morales

student•

Todo lo que haya entre ^ y $ es lo que va a encontrar en una línea

Julio J Yépez

student•

^\w+,\w+,\w+$

Emanuel Escobar

student•

Un reto comunidad, hacer un match con las lineas 1 y 6: 3rgergwg0 354656546 aa 3 3 3$%^%$^$%78

Good luck :)

Alan David R.L.

student•

Mi respuesta:

^\d[A-Za-z$%^]+\w[\d{1,2}]$

GABRIEL ERNESTO ZARATE TOVAR

student•

Estoy empezando a entender las regex. Me cuesta trabajo, lo admito y obvio, no tengo experiencia en el uso de ellas pero logré superar el reto y mi respuesta comunidad es: ^3([a-z]+)?([$%^]+)?\d{1,2}$

Yenny Paola Porras Rueda

student•

Estos dos caracteres indican en qué posición de la línea debe hacerse la búsqueda: el ^ se utiliza para indicar el principio de línea el $ se utiliza para indicar final de línea

^ ------------- $

Resumen de: @Beco

David Lara

student•

^ “inicio de línea” “argumentos” $ “final de línea” ES LA LÍNEA ENTERA O NO LO ES ^\d$ -> línea completa solo con un digito
^[^\d]$ -> línea completa sin un digito

Ejemplo: csv1,csv2,csv3 1234,543,123 432,6432,13453 234,234,543,345 Para esos datos CSV, para hacer match sólo a las líneas con 3 columnas sería: ^\w+,\w+,\w+$

Julián Cárdenas

student•

Yeah There is absoluty correct dude

Diego Ramos Ricardez

student•

Sólo puedo decir que éste curso me ha encantado

Julián Cárdenas

student•

See

Antonio Madrid

student•

.csv Comma-separated values

^[^\d].*$
cualquier linea que no empiece en numero

Luis David Perez

student•

Principio ^ y final de linea $

El principio y el final de línea son conceptos importantes en las expresiones regulares (RegEx) y se representan mediante los metacaracteres ^ y $, respectivamente. Estos metacaracteres se utilizan para anclar coincidencias al inicio o al final de una línea o cadena de texto.

^ - Principio de Línea

El metacaracter ^ se usa para anclar una coincidencia al principio de una línea o cadena de texto. Indica que la coincidencia debe comenzar desde el inicio de la línea. Si estás trabajando con múltiples líneas, puedes usar la bandera "multiline" (por ejemplo, /^patrón/m en JavaScript) para que ^ coincida con el principio de cada línea en lugar del principio de toda la cadena.

Ejemplo: La expresión regular ^Inicio coincidirá solo con "Inicio de línea" si "Inicio" está al principio de una línea.

$ - Final de Línea

El metacaracter $ se usa para anclar una coincidencia al final de una línea o cadena de texto. Indica que la coincidencia debe terminar al final de la línea. Al igual que con ^, puedes usar la bandera "multiline" para que $ coincida con el final de cada línea.

Ejemplo: La expresión regular Fin$ coincidirá solo con "Fin de línea" si "Fin" está al final de una línea.

Estos metacaracteres son particularmente útiles cuando deseas buscar patrones o realizar validaciones en líneas individuales de texto, como cuando procesas un archivo de texto con múltiples líneas o cuando validas entradas de usuario que deben cumplir con un formato específico al principio o al final de una línea.

Jhan Carlos Celis Maldonado

student•

Sabiendo que ^ es para que comience desde el principio.
¿Hay una manera de no comenzar en el inicio, sino en una posicion x de la linea?.
Es decir que empiece a buscar los match despues de la posicion n

Jair Israel Avilés Eusebio

student•

Lo mas f’acil seria que indiques el valor cualquiera que es el . hasta la posicion n que quieras validar. Algo asi como lo siguiente:

^.{n}(tu-regex)$

Juan Sebastian Olarte Uribe

student•

Se puede negar la busqueda por principio y fin, osea que me resalte todas las lineas que no coincidadn con el principio y fin que busco.

Intente de las siguientes maneras pero no me funcionaron:

^^(\w+,\w+,\w+)$
^(^(\w+,\w+,\w+))$

Alberto Alcocer

teacher•

debes incluirla en clases (en corchetes), aunque al final depende del intérprete: ^[^\w]...

Ray Trápala

student•

Alguien sabe porque en regExr, la expresión

^\w+,\w+,\w+$

No encuentra nada:

Ray Trápala

student•

Oh, ya no. Era la bandera de multiflag Slaudos

María Belén Cerón

student•

Gracias me ayudaste a resolver ese error :3

Sergio Sanchez

student•

La expresion:

^[\d].*$

No es igual a la expresion:

^[\d].*

Sin embargo, hacen lo mismo... Cual es la ventaja de usar $ al final?

A CM

student•

Se usa para indicar como debe terminar la expresión, esto ayuda a delimitarla. En su ejemplo, dado que puede terminar con cualquier tipo y cantidad de caracter no tendria mucha importancia. Ahora imagine que desea validar una expresion que inicie con dos números y termine con un nombre de 5 caracteres.

Una forma de expresar el ejemplo mencionado seria: ^[\d]{2}[A-Z a-z]{5}$.

El valor 12Marco haria match, pero si me paso una letra ya no funcionaria, por ejemplo 12Marcos no haria match.

Podrá encontar mas ejemplos de uso para el $ en el siguiente articulo.

Algo que debe tener claro sobre las expresiones regulares es que solo necesitan una coincidencia para cumplirse, si deseamos que esa coincidencia sea única podemos utilizar estas combinaciones de inicio y fin.

Jair calderon flores

student•

Solo es para decir que la final de la expresión.

Luis Ruiz Ramos

student•

Absolutamente útil.

Jose angel

student•

^\d\d\D?[^a-z]\d\d\D?[^a-z]\d\d$ basado en la clase construida por el profesor, la modifique para que excluya las letras, pero tambien excluye la cadena de numeros que no tiene espacios "555555", alguien podria explicar porque?

Luis Angel José Portillo Arévalo

student•

Hola! lo que pasa con esa expresión es que estás asumiendo que esa clase [^a-z] que excluye las letras es un caracter obligatorio, entonces si hay una cadena: 55y55a55, la excluye, y en el caso de: 555555 tambien la excluye porque segun la expresión le faltan 2 caracteres que no son letras, si le especificas a la expresión regular que esas clases [^a-z] son opcionales (con el delimitador ?) entonces si funcionaría y quedaría como:

^\d\d\D?[^a-z]?\d\d\D?[^a-z]?\d\d$

En este caso si funciona para ambos casos.

Braulio Rangel

student•

Graxias :)

Sebastian Cruz

student•

se pueden usar las expresiones regulares para encontra un match que tengan multiple saltos de linea? como seria?

Jaime Falcón Solís

student•

Pues utilizar las expresiones regulares para encontrar los caracteres "\n", los cuales son utilizados como saltos de línea

Andrey Mena

student•

Hola, ¿Alguien sabe por qué al colocar ^\d$ en https://regexr.com/6odfq no marca ni el primer número?

Muchas gracias de antemano :)

Alberto Alcocer

teacher•

Puede ser que no esté activada la bandera m (multiline) al final de la expresión, tras el segundo /

David Serna

student•

En mi editor de texto, el "gorrito" siempre me lo lee como negación. Existe forma de arreglar eso?

Massimo Di Berardino

student•

Hoal @dantesko, ¿qué editor de texto utilizas? Podrías cambiar la configuración del mismo para solucionarlo :)

Juan Pablo Perez

student•

Hola Dantesko Compartenos que editor es para buscar como configurarlo compañero saludos.

Cómo procesar archivos CSV con millones de líneas

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares

Filtrar logs gigantes con expresiones regulares

Expresiones regulares para URLs HTTP

Regex para validar teléfonos con separadores y extensiones

Validación de emails con regex

Validación de coordenadas GPS con regex

Validar nombres propios con regex

Usos avanzados en Expresiones Regulares

Grupos de captura para transformar CSV a SQL

Expresiones Regulares en lenguajes de programación

Cómo extraer variables de URLs con regex

Regex en múltiples lenguajes con CSV real

Perl: CSV de fútbol en cero segundos

Expresiones regulares en PHP: preg_match con CSV

Extraer empates de archivos masivos con PHP

Python regex para análisis de archivos CSV

Lectura de archivos con BufferedReader en Java

Escapar regex en Java: doble barra

Validación de emails en JavaScript con regex

Grep: filtra archivos masivos con regex