Python regex para análisis de archivos CSV

Clase 25 de 29 • Curso de Expresiones Regulares

Contenido del curso

Introducción a las Expresiones Regulares

El lenguaje: caracteres, operadores, y construcciones

Uso práctico de Expresiones Regulares

Usos avanzados en Expresiones Regulares

19
Grupos de captura para transformar CSV a SQL
17:39 min

Expresiones Regulares en lenguajes de programación

Tomar examen

Resumen

Python y las expresiones regulares ofrecen una combinación potente para extraer datos de archivos CSV con precisión y velocidad. Con un patrón bien pensado, es posible filtrar partidos, capturar fechas, países y marcadores, y hasta sumar goles sin transformar previamente el archivo en estructuras complejas. Aquí verás cómo se arma el flujo completo, desde el shebang hasta la precompilación del patrón y el manejo de grupos.

¿Por qué Python y expresiones regulares aceleran el análisis de datos?

Python es un lenguaje rápido, potente y amigable para scripts de análisis de datos. Su módulo re permite compilar un patrón y reutilizarlo, lo que mejora el rendimiento en archivos grandes. Además, su sintaxis clara facilita centrarse en el patrón y no en el “pegamento” del código.

Shebang y ejecución directa: usar la primera línea con #! indica el binario, por ejemplo en /usr/bin/python, y permite ejecutar con permisos sin invocar el intérprete manualmente.
Sintaxis de patrones limpia: usar cadenas crudas con r'' evita escapar innecesario y mantiene el patrón legible.
Precompilación con re.compile: el patrón queda listo en memoria para hacer match repetidamente de forma eficiente.
Uso en back end: en servidores web como Apache o NGINX, las expresiones regulares ayudan a mapear rutas a queries GET (ejemplo: rutas tipo flickr.com/photos/usuario/id), reduciendo capas intermedias y acelerando el flujo.

¿Cómo implementar el patrón en Python paso a paso?

El flujo va de menos a más: leer, compilar, hacer match, capturar grupos y filtrar por criterios como friendly.

¿Cómo leer el archivo CSV con seguridad?

Abrir el archivo en modo lectura.
Iterar línea a línea.
Cerrar el archivo al finalizar.

#!/usr/bin/python
import re

f = open('files/results.csv', 'r')
for line in f:
    print(line)
f.close()

Si ves “dobles líneas” al imprimir, suele ser por el salto de línea incluido en cada línea más el de print.

¿Cómo compilar y agrupar con re.compile?

Emplear cadenas crudas r'' para los patrones.
Anclas ^ y $ para controlar el inicio y fin de línea.
Agrupar con paréntesis para extraer datos concretos (por ejemplo, el año).

pat = re.compile(r'^(\d{4})-.*$')  # grupo 1: año

f = open('files/results.csv', 'r')
for line in f:
    res = pat.match(line)
    if res:
        print(res.group(1))  # imprime el año
f.close()

Evitar \w para nombres de países con caracteres especiales. Conviene capturar “todo hasta la coma” con [^,]+.

¿Cómo filtrar por friendly y extraer grupos?

Para traer solo partidos amistosos, se puede buscar la secuencia ,friendly, en la línea.
Capturar fecha, local, visitante y marcador en un solo match.

pat = re.compile(
    r'^(\d{4}-\d{2}-\d{2}),([^,]+),([^,]+),(\d+)-(\d+),.*?,friendly,.*$'
)

f = open('files/results.csv', 'r')
for line in f:
    res = pat.match(line)
    if res:
        fecha   = res.group(1)
        local   = res.group(2)
        visita  = res.group(3)
        g_local = res.group(4)
        g_vis   = res.group(5)
        print(fecha, local, visita, g_local, g_vis)
f.close()

Este filtro asume que friendly aparece como un campo entre comas. Si friendly pudiera aparecer dentro del nombre de un país, habría falsos positivos; por eso se acota con comas.

¿Cómo operar con grupos y detectar partidos con muchos goles?

Una vez capturado el marcador, hacer cast a entero habilita operaciones numéricas como sumas y comparaciones por umbrales.

Patrón general (sin friendly) para leer fecha, equipos y goles.

pat = re.compile(r'^(\d{4}-\d{2}-\d{2}),([^,]+),([^,]+),(\d+)-(\d+),.*$')

f = open('files/results.csv', 'r')
for line in f:
    res = pat.match(line)
    if not res:
        continue
    fecha   = res.group(1)
    local   = res.group(2)
    visita  = res.group(3)
    g_local = int(res.group(4))
    g_vis   = int(res.group(5))

    total = g_local + g_vis
    if total > 10:
        print("%d goles: %s vs %s en %s" % (total, local, visita, fecha))
f.close()

Cast: convertir con int() desde strings permite sumar y comparar.
Formateo: con “%d” y “%s” se arma una salida tipo printf, clara y directa.

Resultados ilustrativos mencionados:

Se detectaron “festivales” de goles con umbrales > 10; se contó un total de 206 partidos oficiales por encima de ese valor.
Destaca un 31-0 en Australia vs American Samoa, un caso extremo de goleada.
También se estimaron 13209 partidos “menores que uno” (cero goles), es decir, 0-0.

Buenas prácticas derivadas del flujo:

Precompilar el patrón con re.compile para reutilizarlo sin degradar el rendimiento en archivos grandes.
Anclar y agrupar inteligentemente: ^ y $ para límites; grupos para año, fecha, equipos y goles.
Evitar \w en nombres con tildes o caracteres especiales; usar [^,]+ entre comas.
Cerrar archivos y probar incrementando complejidad: primero leer todo, luego agregar el patrón, después añadir filtros y operaciones.

¿Te gustaría explorar otros filtros, como diferenciar oficiales de amistosos, o imprimir marcadores locales y visitantes por separado? Comparte tu idea y la resolvemos juntos con un patrón claro y eficiente.

Comentarios

Andres Fernando Campero Orozco

student•

Cabe resaltar que en python 2 si se puede imprimir de esta manera

 print "%s\n" % res.group(1)

Pero a partir de la versión 3.6 se puede implementar así

print(f"{res.group(1)}\n")

Aaron Joel Limachi Quispe

student•

También recordar que Python 2. ya está descontinuado

Rubén Domínguez Prieto

student•

Muchísimas gracias por el aporte. Ya me estaba frustrando con mi python3

Mariana Valencia Gallego

student•

Juro que después de esto no me puse a buscar los goles del partido de Australia vs American Samoa :x

Mariana Valencia Gallego

student•

Ya que NO lo busqué, aquí NO les dejo el video:

Oscar Eduardo Palomino Cárdenas

student•

Si están trabajando en windows y les sale el error

File "C:\Python31\lib\encodings\cp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x90 in position 2907500: character maps to <undefined>

La solución es simple, añaden encoding="utf8" en la línea que abren el archivo, así:

f = open("files/results.csv", "r", encoding="utf8")

Fabricio González Guasque

student•

Muchisimas gracias, siempre se me olvida ponerlo!

Joel Orellana

student•

muchas gracias! No entendía lo que pasaba :3

David Lara

student•

Like si googleaste del partido de Australia 🇦🇺 con Samoa 🇼🇸 Americana 😊

“El partido de fútbol celebrado el miércoles 11 de abril de 2001 entre las selecciones de Australia y Samoa Americana, que concluyó con un resultado de 31-0 a favor de los australianos, es la mayor victoria de una selección internacional de fútbol en partido oficial.“ Wikipedia

Maria Avila

student•

La plusmarca fue superada el 5 de julio de 2015, después de que la selección sub-23 de Micronesia cayera ante Fiyi por 38-0 en los Juegos del Pacífico 2015, y dos días después volviese a perder 46-0 ante Vanuatu.

Juan Carlos Pinzón

student•

El código señores y señoritas (le agregué el encoding al open porque al final de la ejecución me presentaba un error):

import re

pattern = re.compile(r'^([\d]{4,4})\-\d\d\-\d\d,(.+),(.+),(\d+),(\d+),.*$')

f = open("./results.csv", "r", encoding="utf8")

for line in f:
	res = re.match(pattern, line)
	if res:
		total = int(res.group(4)) + int(res.group(5))
		if total > 10:
			print("Goles: {}, {} {},{} [{}-{}]".format(total, res.group(1), res.group(2), res.group(3),res.group(4), res.group(5)))

f.close()

Carlos Rodríguez Huerta

student•

Gracias por el dato del encoding; me rompía la cabeza el error.
Aprovecho para apoyar con un minúsculo detalle que no preste atención.

print ("goles: %d, %s %s,%s [%d-%d]" % \
            (total,res.group(1),res.group(2),....)

Luego del " \ " , es super necesario el salto de línea o marcará error. Me hizo perder muchos minutos…

Winebaldo Jose Collado Martinez

student•

Muchas gracias, tenía el mismo error.

Liliana Gomez

student•

En python 3.9 la palabra "with" cierra el archivo automáticamente cuando no se requiera más acceso a este por lo que no necesitamos usar "close" al final.

import re

filename = "results.csv"

pattern = re.compile(r'^([\d]{4,4})\-.*$')

with open(filename, "r", encoding="utf-8") as f:
    for line in f:
        res = re.match(pattern, line)
        if res:
            print(f"{res.group(1)}\n")

Jerson Mosquera Pretelt

student•

Este tema es conocido como "context managers"

Jeinfferson Bernal G

student•

Muy buen aporte. Gracias!

Ivan Santiago

student•

Al escribir el shebang(#!) de python puedes ejecutar el archivo de una manera mas facil.

Solo necesitas darle permisos de ejecución al archivo, ejecutando:

sudo chmod +x python_regex.py

Y ahora para ejecutar el archivo solo necesitas ejecutar:

./python_regex.py

Rodrigo Rodriguez

student•

Gracias por compartir!

Luis Gerardo López Hernández

student•

ya entendi como mr cheap calcula sus mamadas

Joel Orellana

student•

jaajajajaj

Nestor Rios Garcia

student•

jajajaja, buena observación.

Carlos Damián Loaiza Artunduaga

student•

Para los que estén interesados en tener más información, Platzi tiene su guía de expresiones regulares en Python: https://platzi.com/blog/expresiones-regulares-python/

Jeinfferson Bernal G

student•

Gracias!

Luis Ruiz Ramos

student•

Yo creo que Misterchip usa REGEX con una base de datos amplia.

Alex Fernández

student•

Tenes razón.

Erick Daniel Pérez Mata

student•

Lo mismo pensé por que me volaba la cabeza como es que tiene tanta información ja ja. Pero su BD debe ser millones y millones de registros.

Ivan Santiago

student•

Para saber que poner en el shebang(#!) se tiene que escribir en consola:

which python

La salida sera algo parecida a esta:

/usr/bin/python

Juan Sebastian Olarte Uribe

student•

me sucedía el siguiente error:

'charmap' codec can't decode byte 0x81 in position 6915: character maps to <undefined>

Para solucionarlo se debe especificar el formato del texto que se leera, porque quizas existen caracteres raros dentro del archivo:

f= open("resultados.csv", "r", encoding='utf-8')

Alejandro Pedraza

student•

gracias buen hombre

platzerito02112019 platzerito02112019

student•

Santo Dios... con python todo es hemoso

Alejandro Sanchez

student•

jajaja con python la vida es mas sabrosa

María José Medina

student•

Python Regex Cheatsheet https://www.debuggex.com/cheatsheet/regex/python

Miguel Angel Reyes Moreno

student•

Sintaxis con Python 3.9, me parece mucho más fácil de leer:

import re #Traemos las expresiones regulares
"""
date,home_team,away_team,home_score,away_score,tournament,city,country,neutral
1872-11-30,Scotland,England,0,0,Friendly,Glasgow,Scotland,FALSE
"""
pattern = re.compile(r'^([\d]{4,4})\-\d\d-\d\d,(.+),(.+),(\d+),(\d+),.*$')

f = open("./results.csv", "r")

for line in f:
  res = re.match(pattern, line)
  if res:
    total = int(res.group(4)) + int(res.group(5))
    if total > 20:
      print(f"Goles: {total} - Fecha:{res.group(1)} | {res.group(2)} [{res.group(4)}] -{res.group(3)} [{res.group(5)}]")

f.close()

Alfonso Andres Zapata Guzman

student•

import re

csv_data = r'C:\Users\Alfonso Zapata\jupyter\Cursos\Junio 2022\Curso de expresiones regulares - platzi\results.csv'
  
# print(csv_data)

# 2000-01-08,Trinidad and Tobago,Canada,0,0,Friendly,Port of Spain,Trinidad and Tobago,FALSE

pattern = re.compile(r'^(20[0-9]{2,2}\-\d\d\-\d\d),(.+),(.+),(\d),(\d),(.*),(.*),(.*),(.*)$')

with open(csv_data, 'r', encoding="utf8") as f:
    for line in f:
        res = re.match(pattern, line)
        if res:
            if res.group(4) == res.group(5):
                resultado = 'Empataron'
            elif res.group(4) > res.group(5):
                resultado = res.group(2)
            elif res.group(4) < res.group(5):
                resultado = res.group(3)
            print(f'''
            La fecha {res.group(1)}:
            {res.group(2)} vs {res.group(3)}
            Marcador: {res.group(4)} a {res.group(5)}
            Gano: {resultado}
            El partido se jugo por {res.group(6)}
            El encuentro se jugo en {res.group(7)}, {res.group(8)}
            La cancha fue neutral? {res.group(9)}''')

Marisol Cardozo

student•

Versión 2022

"""Ejercicio de expresiones regulares con python."""

import re

pattern = re.compile(
    r'^([\d]{4,4})\-\d\d\-\d\d,'
    '(.+),'
    '(.+),'
    '(\d+),'
    '(\d+),'
    '.*$'
)

with open('results.csv', 'r', encoding='utf-8') as infile:
    for line in infile:
        res = re.match(pattern, line)
        if res:
            total = int(res.group(4)) + int(res.group(5))
            if total > 30:
                print(
                    f'goles {total} | {res.group(1)} | {res.group(2)}'
                    f' vs {res.group(3)} [{res.group(4)} a {res.group(5)}]'
                )

Andres Alejandro Araya Cortes

student•

Para la primera parte el string %s me daba error, asi que lo modifique y ahora funciona bien, corriendo en un ambiente virtual.

import re

pattern = re.compile(r'^([\d]{4,4})-.*$')

f = open("resultsclase.csv", "r", encoding="utf8")

for line in f: res = re.match(pattern, line) if res: print(f"{res.group(1)}")

f.close()

Maria Sary Libreros

student•

Me ayudo mucho tu comentario, tenia el mismo problema!! Gracias :D

Alejandro Sanchez

student•

Python python de mi corazón dicen que es malo enamorarse de una tecnología pero miren la cantidad de lineas que coloco para poder hacer lo que hizo a comparación de php. Por esta razón es que python les esta comiendo el pastel a muchos otros lenguajes.

Nicolás Sañudo

student•

Donde te sentaste Python?!

Orlando Ramirez

student•

Acá les comparto los flags o banderas que se pueden usar en Python, estos van al final acompañados de la sintaxis flags= [expresión regular a utilizar] se pueden usar más de una expresión regular uniendolas con |:
re.IGNORECASE o re.I = Esto hace que la expresión regular ya no sea case sensitive, no diferenciará entre mayúsculas o minúsculas.
re.MULTILINE o re.M = La expresión regular buscará en más de una línea.
re.DOTALL o re.S = Esto hace que el . haga match con todos los caracteres y además con el salto de línea.
re.UNICODE o re.U = Esto hace que \w, \b y \W, \B sigan las reglas UNICODE.
re.LOCALE o re.L = Esto hace que \w, \b y \W, \B sigan las reglas de el entorno local.
re.VERBOSE o re.X = Esto hace que puedas realizar comentarios dentro de la expresión regular.

Python regex para análisis de archivos CSV

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares

Filtrar logs gigantes con expresiones regulares

Expresiones regulares para URLs HTTP

Regex para validar teléfonos con separadores y extensiones

Validación de emails con regex

Validación de coordenadas GPS con regex

Validar nombres propios con regex

Usos avanzados en Expresiones Regulares

Grupos de captura para transformar CSV a SQL

Expresiones Regulares en lenguajes de programación

Cómo extraer variables de URLs con regex

Regex en múltiples lenguajes con CSV real

Perl: CSV de fútbol en cero segundos

Expresiones regulares en PHP: preg_match con CSV

Extraer empates de archivos masivos con PHP

Python regex para análisis de archivos CSV

Lectura de archivos con BufferedReader en Java

Escapar regex en Java: doble barra

Validación de emails en JavaScript con regex

Grep: filtra archivos masivos con regex