Perl: CSV de fútbol en cero segundos

Clase 22 de 29 • Curso de Expresiones Regulares

Resumen

Perl y expresiones regulares trabajan juntos para extraer datos reales de un CSV con precisión y velocidad. Aquí verás, paso a paso, cómo leer un archivo, construir patrones efectivos, capturar grupos y medir el tiempo de ejecución, sin enseñar a programar en Perl, pero explicando cada decisión que impacta el análisis.

¿Qué configura el script en Perl para empezar?

Antes de manipular datos, se prepara un script de Unix con la línea que indica quién lo ejecuta, se activa el modo estricto y se muestran los warnings en pantalla. Se inicializa una variable de tiempo para medir la ejecución y se abre el archivo results.csv en modo lectura. La lectura ocurre línea por línea usando la variable por defecto de Perl, y se valida la entrada con una impresión rápida. Luego se aplica chomp para eliminar saltos de línea y caracteres extra.

¿Cómo se lee el archivo CSV línea por línea?

Apertura del archivo en modo lectura.
Iteración línea por línea con la variable por defecto.
Impresión de prueba para verificar lectura.
Limpieza con chomp para evitar artefactos.

¿Qué buenas prácticas se aplican en Unix y Perl?

Shebang para declarar el intérprete del script.
Modo estricto y warnings visibles.
Medición de tiempo con time: número de segundos desde 1 de enero de 1970.

¿Cómo construir una expresión regular en Perl para febrero?

Las expresiones regulares en Perl van entre diagonales: /. Se usa la función m de match y anclas de inicio y fin de línea ^ y $. Para filtrar partidos en febrero, se busca un patrón con cuatro dígitos de año, guion, el mes 02 y cualquier secuencia después con un wild card.

Delimitadores de patrón: /.
Función de match: m.
Anclas: ^ (inicio) y $ (fin).
Clases de caracteres para dígitos y cuantificadores: cuatro dígitos del año, guion, 02, y luego cualquier cosa.
Carácteres especiales como la diagonal pueden requerir escape: especialmente en contextos tipo https://.

Se contaron aciertos y fallos con dos contadores: uno para match y otro para no match. Al corregir el patrón, se obtuvieron todos los partidos jugados en el mes 02, confirmando la eficacia de la búsqueda.

¿Qué errores comunes se corrigieron?

Escapar indebidamente el inicio de línea: impedía el match correcto.
Manejo de clases de caracteres: necesidad de declarar correctamente la clase para dígitos y aplicar cuantificadores exactos.
Confirmación de integridad del CSV: solo la cabecera no hace match, algo esperado en archivos bien formados.

¿Cómo contar matches y no matches?

Inicializar contadores para match y no match.
Incrementar según el resultado del patrón.
Reportar totales al final para validar cobertura.

¿Cómo extraer campos y medir el rendimiento?

Una vez validado el match, se pasa a extraer datos con grupos de captura. Se agrupan, en orden, el equipo local, el visitante y los marcadores de cada uno. En Perl, la cadena completa queda en $0 y las capturas en $1, $2, $3, $4, según el orden. La lógica de comparación es simple: si el marcador del visitante es mayor que el del local, se imprime el resultado con printf usando máscaras de formato.

¿Cómo imprimir victorias del visitante con printf?

Comparar valores capturados: visitante > local, diferencia estricta.
Usar printf para formatear salida: %s para strings y %d para enteros.
Evitar errores de tipo: alinear máscaras con los valores correctos.
Reordenar grupos cuando se añade la fecha como nueva captura, ajustando índices de $1 a $5.
Considerar mínimos detalles del texto: acentos y caracteres especiales; favorecer cuantificadores lazy cuando se requiera lo menos posible entre comas.

¿Qué rendimiento se obtuvo procesando el CSV?

Variable t inicializada con time para medir ejecución.
Cálculo de diferencia: time - t en segundos.
Resultado observado: cero segundos para procesar casi cuarenta mil líneas, extraer campos y comparar marcadores.
Calidad del match: una línea fuera de patrón, la cabecera del CSV.

¿Te gustaría intentar otro patrón, como empates o victorias del local, o capturar más campos con nuevos grupos? Cuéntalo en los comentarios y di qué otro análisis aplicarías usando expresiones regulares.

Ricardo Celis

teacher•

wow, nunca había visto nada de código de este lenguaje hasta esta clase, gracias beco!

Mitchell Mirano

student•

Beco explica tan bien y motiva tanto que estoy planteandome aprender Perl

Jorge Iván Franco Arias

student•

Ya es uno de mis profes preferidos de Platzi

Julio J Yépez

student•

El código:

#!/usr/bin/perl

use strict;
use warnings;

my $t = time;

open(my $f, "<../files/results.csv") or die("no hay archivo");

my $match = 0;
my $nomatch = 0;

while(<$f>) {
	chomp;
	# 2018-06-04,Italy,Netherlands,1,1,Friendly,Turin,Italy,FALSE
	if(m/^([\d]{4,4})\-.*?,(.*?),(.*?),(\d+),(\d+),.*$/){
		if($5 > $4) {
			printf("%s: %s (%d) - (%d) %s\n",
				$1, $2, $4, $5, $3
			);
		}
		$match++;
	} else {
		$nomatch++;
	}
}

close($f);

print("Se encontraron \n - %d matches\n - %d no matches\ntardo %d segundos\n"
	, $match, $nomatch, time() - $t);

Jhon Fredy Beltrán León

student•

Gracias :’) hay uno que otro error pero me ahorraste un buen rato copiando 😄

Corregido (no era gran cosa) printf y un espacio

#!/usr/bin/perl

use strict;
use warnings;

my $t = time;

open(my $f, "<../../files/results.csv") or die("no hay archivo");

my $match = 0;
my $nomatch = 0;

while(<$f>) {
	chomp;
	# 2018-06-04,Italy,Netherlands,1,1,Friendly,Turin,Italy,FALSE
	if(m/^([\d]{4,4})\-.*?,(.*?),(.*?),(\d+),(\d+),.*$/){
		if($5 > $4) {
			printf("%s: %s (%d) - (%d) %s\n",
				$1, $2, $4, $5, $3
			);
		}
		$match++;
	} else {
		$nomatch++;
	}
}

close($f);

printf("Se encontraron \n - %d matches\n - %d no matches\ntardo %d segundos\n"
	, $match, $nomatch, time() - $t);
printf("VISITANTES GANADORES\n");

Rodrigo Rodriguez

student•

Gracias !!

Miguel Torres

student•

Pero no hay curso de Perl en Platzi. 😥 Jaja

Ricardo García

student•

Si lees entre líneas, Beco quiere dar un curso de pearl y muchos de los que han pasado por aquí irán a buscarlo y alguien del team platzi lo notará y dirá, hey muchos platzinautas estan interesados en pearl deberíamos lanzar un curso... llamen a Beco :v

Victor Antonio Ascencio Campos

student•

si falta un curso de perl

Daniel Páez

student•

Si necesitan declarar la equivalencia de string en perl tenemos que usar eq

Ejemplo:

if ($local eq "Venezuela") {
#...
}

Rodrigo Rodriguez

student•

Gracias por el aporte !

Miguel Angel Reyes Moreno

student•

Para Perl: Todas las expresiones regulares van entre dos diagonales /miExpresionRegular/

Ejemplos:

Cada partido que se hizo en febrero: ^[\d]{4,4}\-02-.*$
Cada vez que ganó el visitante: ^[\d]{4,4}.*?,(.*?),(.*?),(\d+),(\d+),.*$ -> lo podemos imprimir en Perl como:

if(m/^[\d]{4,4}.*?,(.*?),(.*?),(\d+),(\d+),.*$/) {
  if ($4 > $3) {
    printf("%s (%d) - (%d) %s\n", $1, $3, $4, $2);
      # $1 es el equipo local
      # $2 es el equipo visitante
      # $3 es el marcador del equipo local
      # $4 es el marcador del equipo visitante
  }
  $match++;
}

Lo mismo pero ahora añadimos el año del partido: ^([\d]{4,4})\-.*?,(.*?),(.*?),(\d+),(\d+),.*$ -> Lo mostramos así:

if(m/^([\d]{4,4})\-.*?,(.*?),(.*?),(\d+),(\d+),.*$/) {
    if ($5 > $4) {
      printf("%s: %s (%d) - (%d) %s\n", $1, $2, $4, $5, $3);
      # $1 es la fecha
      # $2 es el equipo local
      # $3 es el equipo visitante
      # $4 es el marcador del equipo local
      # $5 es el marcador del equipo visitante
    }
    $match++;
  }

Braulio Rangel

student•

gracias :)

Oscar Jaramillo

student•

Harim Salazar Islas

student•

🤣

Ivan Santiago

student•

Para ver todos los partidos que México ha ganado 😄

#!/usr/bin/perl

use strict;
use warnings;

my $time = time;
my $games = 0;
my $victories = 0;
my $defeats = 0;
my $ties = 0;

open(my $file, "results.csv") or die("There is none archive");

while(<$file>) {
  chomp;

  if(m/^[\d\-]+,Mexico,.+?,(\d),(\d),.*$/) {
    if($1 > $2) {
      $victories++;
    } elsif($1 == $2) {
      $ties++;
    } else {
      $defeats++;
    }

    $games++;
  }
}

close($file);
printf("México ha jugado %d partidos.\n", $games);
printf("Ha ganado %d, ha perdido %d y ha empatado %d\n", $victories, $defeats, $ties);

Walter De Jesús Medina Puy

student•

Excelente

María José Medina

student•

Match para expresiones regulares en Perl:

m/regex/

Código para obtener partidos jugados en febrero:

#!/usr/bin/perl

use strict;
use warnings;

my $t = time;

open(my $f, "<../regex/results.csv") or die("no hay archivo");

my $match = 0;
my $nomatch = 0;

while(<$f>) {
	chomp; # omite saltos de linea y otros caracteres
	# 2018-06-04,Italy,Netherlands,1,1,Friendly,Turin,Italy,FALSE
    # m --> match 
    # en pearl: /regex/
    if(m/^[\d]{4,4}\-02\-.*$/){
        printf $_."\n";
        $match++;
    } else{
        $nomatch++;
    }

}

close($f);

printf("Se encontraron \n - %d matches\n - %d no matches\ntardo %d segundos\n"
	, $match, $nomatch, time() - $t);

Código para obtener los partidos en los que ganan los visitantes:

#!/usr/bin/perl

use strict;
use warnings;

my $t = time;

open(my $f, "<../regex/results.csv") or die("no hay archivo");

my $match = 0;
my $nomatch = 0;

while(<$f>) {
	chomp;

	if(m/^([\d]{4,4}).*?,(.*?),(.*?),(\d+),(\d+),.*$/){
		if($5 > $4) {
			printf("%s: %s (%d) - (%d) %s\n",
				$1, $2, $4, $5, $3
			);
		}
	    $match++;
	} else {
		$nomatch++;
	}
}

close($f);

printf("Se encontraron \n - %d matches\n - %d no matches\ntardo %d segundos\n"
	, $match, $nomatch, time() - $t);

Braulio Rangel

student•

Jose Colmenares

student•

Es genial esto! Aunque no utilice PERL te das cuenta de como puedes aplicarlo para otros lenguajes

Iliana Deetz

student•

Hola
Para ayudarme con los comandos y ejecuciones en Windows uso GIT bash, por si alguien ocupa.

Christian Fontalvo

student•

uff.. da gusto ver a @beco escribiendo código, se ve que es un experto sin duda alguna y sabe enseñar.. mostro!

Mariangelica Useche

Team Platzi•

Me encanta de perl este tipo de cosas:

or die

Si ese lenguaje estuviese de moda actualmente, no me quiero imaginar la cantidad de memes.

Heyner Javier Marmol Verbel

student•

PHP tambien lo tiene y es muy odiado, aunque yo trabajo perfectamente con el :)

Carlos Hernandez

student•

otra forma de trabajar con expresiones regulares y perl:

$ cat parsea.pl
#!/usr/bin/perl


use warnings;
my $t = time;
$match = 0;
$nomatch = 0;



open (CMD,"./result.csv");


while ($line = <CMD>) {
        if ($line =~ /^(\d+\-\d+\-\d+),(.*),(.*),(\d+),(\d+),(.*),(.*),(.*),(TRUE|FALSE)/) {
                $date=$1;
                $home_team=$2;
                $away_team=$3;
                $home_score=$4;
                $away_score=$5;
                $tournament=$6;
                $city=$7;
                $country=$8;
                $neutral=$9;
                if ($home_score > $away_score) {
                        $year = $date;
                        $year =~ s/(\d+)\-\d+\-\d+/$1/;
                        print "$year - $home_team ($home_score) - $away_team ($away_score)\n";
                }
                #print "*$line";
                $match++;
        } else {
                #print $line;
                $nomatch++;
        }


}

print "se encontraron $match\n";
print "no se encontraron $nomatch\n";
print "tardo:".(time()-$t)."\n";

esta parte es muy interesante:

 $year =~ s/(\d+)\-\d+\-\d+/$1/;

uso una expresion regular para extraer el año

espero les sirva

Daniel Páez

student•

Me gustó como guardaste las variables de la expresión regular en nombres de variables más legibles!

Juan Manuel Alberto Martin

student•

Hola, paso a avisar que yo uso perl jaja pero si, es un lenguaje que ya no se usa tanto 😄 Saludos!

Luis Tapia

student•

Desde pueden buscar indicaciones para descargar Perl en tu sistema operativo. Me sorprendió que Linux y MacOS lo tuvieran instalado por defecto. Escribiendo perl -v en la terminal de Linux se puede saber qué versión se está usando.

Rubén Téllez Gerardo

student•

No solo está instalado por defecto, es usado por defecto en muchos programas (¿Te suena Bugzilla?) y scripts que usan los sistemas Unix/Like. Es muy potente, lamento que sea un lenguaje olvidado.

Diego Adrián Sánchez Gutiérrez

student•

Primera vez que miro código de perl jaja un gran ejemplo y medio confuso lo de las variables, aun que en los comentarios vi como se lidia con eso, la rapidez con la que se itera sobre el archivo completo es impresionante

Jorge Leonardo Ruiz Reyes

student•

Para ejecutar Perl de forma online

https://www.tutorialspoint.com/execute_perl_online.php

Aaron Felipe Isaacs

student•

Esto está genial!!

JUAN SEBASTIAN RODRIGUEZ JIMENEZ

student•

Buen ejemplo

Rodrigo Rodriguez

student•

Aunque paso mucho tiempo , coincido!

Andrés Madrigal

student•

Para cuando curso de Perl? jaja

Héctor Daniel Vega Quiñones

teacher•

¿Qué te gustaría ver en un curso de este lenguaje? 😉

Andrés Madrigal

student•

Hace poco me preguntaron si no podia ayudar a extraer datos con perl, no se por que con perl jaja pero la persona en cuestión trabaja en Intel…

Ignacio Saccomano

student•

No puede abrirlo correctamente y chequeé bien que sea el archivo correcto. Estoy con ubuntu en windows (WSL)

No sé si sea algo que ver con eso pero porfa ayudaa

brandy peterson

student•

GERMAN LICENCE PRODUCERSWHATSAPP ............+1 (323) 451-1591 BRITISH PASSPORT PRODUCERSWHATSAPP ............+1 (323) 451-1591

Perl: CSV de fútbol en cero segundos

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares

Filtrar logs gigantes con expresiones regulares

Expresiones regulares para URLs HTTP

Regex para validar teléfonos con separadores y extensiones

Validación de emails con regex

Validación de coordenadas GPS con regex

Validar nombres propios con regex

Usos avanzados en Expresiones Regulares

Grupos de captura para transformar CSV a SQL

Expresiones Regulares en lenguajes de programación

Cómo extraer variables de URLs con regex

Regex en múltiples lenguajes con CSV real