Extraer empates de archivos masivos con PHP

Clase 24 de 29 • Curso de Expresiones Regulares

Contenido del curso

Introducción a las Expresiones Regulares

El lenguaje: caracteres, operadores, y construcciones

Uso práctico de Expresiones Regulares

Usos avanzados en Expresiones Regulares

19
Grupos de captura para transformar CSV a SQL
17:39 min

Expresiones Regulares en lenguajes de programación

Tomar examen

Resumen

Con una combinación de expresiones regulares y un flujo de depuración práctico, se puede transformar un archivo con decenas de miles de partidos en información clara: quién fue local, visitante o si hubo empate, todo alineado y legible. Aquí verás cómo aplicar banderas, ajustar clases de caracteres ante acentos y guiones, y medir tiempos de ejecución para tomar decisiones con datos limpios y bien presentados.

¿Cómo extraer empates con expresiones regulares en PHP?

La idea central es usar un patrón que capture los campos clave y luego operar con esa información. Se parte de una línea correcta como plantilla comentada para iterar más rápido sobre el patrón. Se capturan: fecha completa, equipo local, equipo visitante, goles de local y goles de visitante. Con esa base, se filtran los empates o se etiqueta el resultado como local o visitante.

¿Qué capturas y estructura usa el patrón?

Primer grupo: fecha completa de la línea.
Segundo grupo: equipo local.
Tercer grupo: equipo visitante.
Cuarto grupo: goles del local.
Quinto grupo: goles del visitante.

¿Qué aporta la bandera i al match?

Activa modo case insensitive para evitar problemas con mayúsculas y minúsculas.
Se coloca al final del patrón: la i después del último slash.
Reduce la necesidad de duplicar rangos A–Z y a–z.

¿Cómo manejar espacios, guiones y acentos en nombres?

Los nombres de países incluyen espacios y guiones: se ajusta la clase de caracteres para contemplarlos.
Surgen “caracteres raros” como acentos o puntos: São Tomé, Curazao, Saint Kitts.
Una salida rápida es cambiar a .+ para abarcar variantes, entendiendo el riesgo de cortar a través de la coma.
La ancla en los dos dígitos del marcador ayuda a mantener el patrón estable, incluso con un campo como friendly al final.

<?php
// Ejemplo de lógica de resultado basada en capturas previas ($m2..$m5):
if ($m4 == $m5) {
    echo "empate\t";
} elseif ($m4 > $m5) {
    echo "local  \t"; // dos espacios extra para mostrar alineación.
} else {
    echo "visitante\t";
}
printf("%s, %s %d-%d\n", $m2, $m3, $m4, $m5);

¿Cómo depurar errores de match sin frustración?

Entender una expresión regular a la primera no es realista. La estrategia efectiva: comentar la impresión de aciertos e imprimir solo las líneas que no hacen match. Así se detectan rápido ausencias de espacios, guiones o puntos.

¿Qué estrategia acelera la corrección del patrón?

Comentar la salida de aciertos y mostrar únicamente fallos.
Revisar visualmente qué rompe el patrón: espacios, guiones, puntos o tildes.
Ajustar la clase de caracteres, reejecutar y verificar el conteo.

¿Qué señales dieron los conteos intermedios?

Un conteo parcial grande al inicio evidenció que el patrón cortaba mal.
Con espacios y guiones en la clase, el conteo bajó a 10646.
Luego a 907, revelando acentos y puntos no contemplados.
Tras ampliar a .+, quedaron solo dos líneas problemáticas (una en blanco), con el resto correcto.

¿Qué diferencias notar con Perl al leer líneas?

Aquí no se aplicó chomp como en Perl: las líneas en blanco pueden colarse.
Ajustar el manejo de fin de línea según la consola y el entorno.

¿Cómo presentar y medir resultados para lectura rápida?

La presentación importa. Se etiqueta el resultado con texto natural y se alinea con tab para lectura ágil. Separar los equipos con coma evita confusiones. Finalmente, se mide el tiempo total para evaluar rendimiento.

¿Cómo generar etiquetas legibles a partir de datos?

Comparar goles: si m4 == m5, imprimir empate; si m4 > m5, local; en otro caso, visitante.
Usar printf para un formato consistente: Equipo local, Equipo visitante marcador.
Añadir una coma entre equipos para claridad.

<?php
// Etiquetado y salida legible.
if ($m4 == $m5) {
    echo "empate\t";
} elseif ($m4 > $m5) {
    echo "local\t";
} else {
    echo "visitante\t";
}
printf("%s, %s %d-%d\n", $m2, $m3, $m4, $m5);

¿Qué hace el tabulador en consola?

El tab avanza al siguiente múltiplo fijo, típicamente 8 espacios.
Alinea columnas aunque las etiquetas tengan longitudes distintas.
La visualización mejora y la lectura es inmediata.

¿Cuánto tarda y por qué importa?

Medir con time antes y después del proceso.
En la práctica, leer el archivo tomó cerca de 1 segundo, incluso imprimiendo.
Separar por comas en arreglos puede tardar 3–4 segundos con 30–40 mil líneas.
Las expresiones regulares, cercanas al procesador, suelen ser más rápidas para este patrón.

<?php
$t = time();
// ... procesamiento y salida ...
printf("tiempo: %d\n", time() - $t);

¿Tú cómo modelarías el patrón para cubrir acentos y puntos sin caer en .+? Comparte tu enfoque y pruebas de rendimiento.

Comentarios

David Behar

student•

Banderas

Las expresiones regulares pueden tener banderas que afectan la búsqueda, éstas deberán de estar hasta el final de la línea.

Listado de Banderas en js: i Con este indicador, la búsqueda no distingue entre mayúsculas y minúsculas: no hay diferencia entre A y a g Con esta marca, la búsqueda busca todas las coincidencias, sin ella, solo se devuelve la primera coincidencia. m Modo multilínea s Habilita el modo "dotall", que permite un punto. para que coincida con el carácter de nueva línea \ n u Permite el soporte completo de Unicode. La bandera permite el procesamiento correcto de pares sustitutos. y Modo "adhesivo": búsqueda en la posición exacta del texto

Luis Ruiz Ramos

student•

Buen aporte. Gracias.

Juan Pablo Perez

student•

Gracias compañero.

Antares Martinez Yañez

student•

El código:

<?php
$file = fopen("../files/results.csv","r");

$match   = 0;
$nomatch = 0;

$t = time();

while(!feof($file)) {
    $line = fgets($file);
    if(preg_match(
        '/^(\d{4}\-\d\d\-\d\d),(\w+),(\w+),(\d+),(\d+),.*$/i',
        $line,
        $m
      )
    ) {
        if ($m[4] == $m[5]) {
            printf("empate: ");
        } elseif ($m[4] > $m[5]) {
            echo "local:  ";
        } else {
            echo "visitante: "
        }
        printf("\t%s, %s [%d-%d]\n", $m[2], $m[3], $m[4], $m[5]);
        $match++;
    } else {
        $nomatch++;
    }
}
fclose($file);

printf("\n\nmatch: %d\nnomatch: %d\n", $match, $nomatch);

printf("tiempo: %d\n", time() - $t);

David Daniel Castillo Nava

student•

Donde dice echo "visitante: " le falta un ; al final!! Del resto todo bien!

echo "visitante: ";

Juan Pablo Perez

student•

Gracias compañero.

Jhon Alexander Romero Gonzaga

student•

AWK: Forma una parte esencial del lenguaje y por extensión de la herramienta awk de Unix/Linux
C++: Desde su versión C++ 11 es posible utilizar expresiones regulares mediante la biblioteca estándar, usando la cabecera <regex>.
Java: Existen varias bibliotecas hechas para java que permiten el uso de RegEx, y Sun planea dar soporte a estas desde el SDK.
JavaScript: A partir de la versión 1.2 (ie4+, ns4+) JavaScript tiene soporte integrado para expresiones regulares.
Perl: Es el lenguaje que hizo crecer a las expresiones regulares en el ámbito de la programación hasta llegar a lo que son hoy en día.
PCRE: Biblioteca de ExReg para C, C++ y otros lenguajes que puedan utilizar bibliotecas dll (Visual Basic 6 por ejemplo).
PHP: Tiene dos tipos diferentes de expresiones regulares disponibles para el programador, aunque la variante POSIX (ereg) va a ser desechada en PHP 6.
Python: Lenguaje de scripting con soporte de expresiones regulares mediante su biblioteca re.
.Net Framework: Provee un conjunto de clases mediante las cuales es posible utilizar expresiones regulares para hacer búsquedas, reemplazar cadenas y validar patrones.

JUAN SEBASTIAN RODRIGUEZ JIMENEZ

student•

Nunca pierdan la capacidad de expresar bien los datos.

Martin Paez

student•

Esto es super vital. Muchas veces olvidamos que esos datos no solo nosotros trabajaremos con ello, sino muchas personas mas.

Jeinfferson Bernal G

student•

Muy de acuerdo!

Andrés Felipe Carreño

student•

Evitemos la frustración, aceptemos los errores y tengamos presente que a la primera no se va ha entender una regex

Ivan Santiago

student•

Script para ver los partidos ganados, empatados y perdidos de Mexico 😄

<?php
  $file = fopen('results.csv', 'r');
  $games = 0;
  $defeats = 0;
  $victories = 0;
  $ties = 0;

  while(!feof($file)) {
    $line = fgets($file);

    if(preg_match('/^[\d\-]+,Mexico,.*,(\d+),(\d+),.*$/', $line, $m)) {
      if($m[1] > $m[2]) {
        $victories++;
      } else if($m[1] == $m[2]) {
        $ties++;
      } else {
        $defeats++;
      }

      $games++;
    }

    if(preg_match('/^[\d\-]+,.*,Mexico,(\d+),(\d+),.*$/', $line, $m)) {
      if($m[2] > $m[1]) {
        $victories++;
      } else if($m[2] == $m[1]) {
        $ties++;
      } else {
        $defeats++;
      }
      
      $games++;
    }
  }

  fclose($file);
  printf("Mexico play %d games\n", $games);
  printf("%d victories - %d defeats - %d ties\n", $victories, $defeats, $ties);
?>

Francisco Javier Suarez Verdugo

student•

Muy buena clase e Interesante dato a tener en cuenta sobre \t que permite avanzar espacios en base al siguiente múltiplo de un número y que el más común es 8, para organizar los datos mejor en la consola.

Simon Correa Henao

student•

Regex para hacer match con la totalidad de los datos '/^(\d{4,4}\-\d\d\-\d\d),([\w\-\.\ ñáéíóúçã&]+),([\w\-\.\ ñáéíóúçã&]+),(\d+),(\d+),.*$/i' Y programa completo:

<?php

$file = fopen("../Curso de Expresiones Regulares/results.csv", "r");

$match = 0;
$nomatch = 0;

$t = time();

while (!feof($file)) {
    $line = fgets($file);
    #echo $line;
    #'/^2018\-01\-(\d\d),.*$/'
    #2018-01-31,Mexico,Bosnia-Herzegovina,1,0,Friendly,San Antonio,USA,TRUE
    if (preg_match('/^(\d{4,4}\-\d\d\-\d\d),([\w\-\.\ ñáéíóúçã&]+),([\w\-\.\ ñáéíóúçã&]+),(\d+),(\d+),.*$/i', $line, $m)) {
        #print_r($m); #imprime el arreglo
        if ($m[4] == $m[5]) {
            echo "empate: " ;
        } elseif ($m[4] > $m[5]) {
            echo "local:   " ;
        } else {
            echo "visitante: ";
        }
        printf("\t%s, %s [%d - %d]\n", $m[2], $m[3], $m[4], $m[5]);
        $match++;
    } else {
        $nomatch++;
        echo $line;
    }
}

fclose($file);

printf("\n\nMatch %d\n No match %d\n", $match, $nomatch);

printf("Tiempo: %d segs\n", time() - $t);

Diego Adrián Sánchez Gutiérrez

student•

la bandera i es case insensitive y va después del ultimo slash para debugear se puede imprimir los no matches y verificar el por que no hay coincidencias

Alejandro Sanchez

student•

eso es correcto

Cristian David Franco Garcia

student•

<?php
$file = fopen("../files/results.csv","r");
$match   = 0;
$nomatch = 0;
$t = time();
while(!feof($file)) {
    $line = fgets($file);
    if(preg_match('/^(\d{4}\-\d\d\-\d\d),(.+),(.+),(\d+),(\d+),.*$/i', $line, $m)) {
        if ($m[4] == $m[5]) {
            printf("empate: ");
        } elseif ($m[4] > $m[5]) {
            echo "local:  ";
        } else {
            echo "visitante: ";
        }
        printf("\t%s, %s [%d-%d]\n", $m[2], $m[3], $m[4], $m[5]);
        $match++;
    } else {
        $nomatch++;
    }
}
fclose($file);
printf("\n\nmatch: %d\nnomatch: %d\n", $match, $nomatch);
printf("tiempo: %d\n", time() - $t);

Jonathan Macalupu Reyes

student•

Tiempo = 1s también.

Esteban Martini

student•

solo un aportecito: de hecho en la presentación, tal vez hubiese sido aun mejor poner el resultado del partido en medio.

entonces quedaria:

India [3-0] Kenya

Fabio Hernan Mosquera Obando

student•

para escribir Regex hay que tener conocimiento del lenguaje que sev a a utilizar? si es asi probablemente el orde de este curso no es correcto.

Gabriel De Andrade

student•

No, el regex es agnostico al lenguaje, aquí utillizamos PHP como un ejemplo únicamente :D

Buzu B

student•

No. Lo que sí tienes que saber es que hay varios "sabores" de expreciones regulares. En mi experiencia las más usadas son las compatibles conr Perl.

Marco Rodrigo Polo Silva

student•

Increíble, no entiendo nada pero poco a poco se vuelve mas claro jaja

Aaron Felipe Isaacs

student•

El ejemplo anterior llevado a php

<?php
$t = time();
$file = fopen("../results.csv", "r");
$match = 0;
$nomatch = 0;

while(!feof($file)) {
  $line = fgets($file);
  // 1910-04-10,Netherlands,Belgium,7,0,Friendly,Haarlem,Netherlands,FALSE
  if(preg_match('/^(\d{4,4}\-\d{2,2}\-\d{2,2}).*?,(.*?),(.*?),(\d+),(\d+),.*$/', $line, $m)) {
    if($m[5] > $m[4]) {
      printf("(%s) - %s (%d) - (%d) %s\n",$m[1], $m[2], $m[4], $m[5], $m[3]);
      $match++;
    } else {
      $nomatch++;
    }
  } 
}

fclose($file);
printf("Para los equipos como visitantes se encontraron\n - %d ganados \n - %d perdidos\n", $match, $nomatch);
printf("Tiempo en ejecutar: %d segundos\n", time()-$t);

Heyner Javier Marmol Verbel

student•

Solución para encontrar los no match:

preg_match('/^(\d{4}\-\d\d-\d\d),([\w\s\-\.á-ú&]+),([\w\s\-\.á-ú&]+),(\d+),(\d+),.*$/i',$line,$m)

Isaac Bryan Ascanoa Roncall

student•

Es increible lo que puede hacer PHP con las expresiones regulares. Mis respetos la verdad para este profe. Saludos

Héctor Jaazhiel López Tisnado

student•

15 segundos :face_palm:

Luis Ángel Lucho Hernández

student•

La explicación de "Escapar la clase, dentro de una clase" (de ^\d{4,4}... a ^[\d]{4,4}...) sólo es un paso necesario en el lenguaje de PERL? o por qué no fue necesario hacerlo así en la expresión usada en esta clase??

Gerson Mejía

student•

me enreda porque no tiene ordenadas las ideas

Extraer empates de archivos masivos con PHP

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares

Filtrar logs gigantes con expresiones regulares

Expresiones regulares para URLs HTTP

Regex para validar teléfonos con separadores y extensiones

Validación de emails con regex

Validación de coordenadas GPS con regex

Validar nombres propios con regex

Usos avanzados en Expresiones Regulares

Grupos de captura para transformar CSV a SQL

Expresiones Regulares en lenguajes de programación

Cómo extraer variables de URLs con regex

Regex en múltiples lenguajes con CSV real

Perl: CSV de fútbol en cero segundos

Expresiones regulares en PHP: preg_match con CSV

Extraer empates de archivos masivos con PHP

Python regex para análisis de archivos CSV

Lectura de archivos con BufferedReader en Java

Escapar regex en Java: doble barra

Validación de emails en JavaScript con regex

Grep: filtra archivos masivos con regex