Cómo extraer variables de URLs con regex

Clase 20 de 29 • Curso de Expresiones Regulares

Contenido del curso

Introducción a las Expresiones Regulares

El lenguaje: caracteres, operadores, y construcciones

Uso práctico de Expresiones Regulares

Usos avanzados en Expresiones Regulares

19
Grupos de captura para transformar CSV a SQL
17:39 min

Expresiones Regulares en lenguajes de programación

Tomar examen

Resumen

Domina cómo extraer variables y valores del query GET con expresiones regulares de forma clara y práctica. Aquí verás cómo agrupar, capturar y transformar parámetros de una URL en información útil para depurar, formatear o integrar a tu código con seguridad y precisión.

¿Cómo extraer variables del query GET con expresiones regulares?

Una URL típica incluye: protocolo, dominio, ruta del script y el query GET tras el signo de interrogación. Ese query contiene pares nombre=valor separados por ampersand. El objetivo: capturar cada nombre de variable y su valor sin depender de si hay un ampersand final.

Pasos clave para el patrón:

Iniciar en signo de interrogación o ampersand. Es un punto de anclaje confiable.
Capturar el nombre de la variable como caracteres de palabra. Letras, dígitos y guion bajo.
Anclar con el signo igual. Es obligatorio en cada par.
Capturar el valor con una clase negada que evite el ampersand y el salto de línea. Así no fallará en el último parámetro.

Patrón sugerido (con case insensitive):

/[?&]([A-Za-z0-9_]+)=([^&\n]+)/i

Ideas clave que evitan errores:

No uses punto-asterisco para valores cuando existen separadores claros. Mejor una clase negada: [^&\n]+.
El signo de interrogación es reservado: escápalo cuando no esté en una clase de caracteres.
El último parámetro no siempre termina en ampersand: por eso se incluye el salto de línea en la clase negada.

¿Qué agrupaciones y clases capturan nombre y valor con precisión?

Las agrupaciones guardan subcoincidencias que luego se reutilizan. Así, el grupo 1 contiene el nombre de la variable y el grupo 2 su valor. En editores o lenguajes cambia la forma de referirlas: en algunos es $1, $2; en otros \1, \2; en varios lenguajes llega en un arreglo.

Detalles prácticos que marcan la diferencia:

Grupo 1: nombre de variable con [A-Za-z0-9_]+. Debe tener uno o más caracteres.
Igual obligatorio: actúa como ancla clara entre nombre y valor.
Grupo 2: valor con [^&\n]+. Acepta cualquier carácter excepto ampersand o salto de línea.
Parámetros por porcentaje: valores con codificación por porcentaje deben coincidir porque no se filtran, salvo el ampersand.
Formato y reemplazo: puedes reescribir cada match como “nombre = valor” para validar visualmente.

Ejemplo de reemplazo para formatear resultados (just for the lols):

Entrada: URL con muchos parámetros.
Búsqueda: el patrón de arriba.
Reemplazo: $1 = $2.
Salida: líneas legibles como S = fotografía, mode = search, model = blog.

¿Qué herramientas y lenguajes aplican este patrón en la práctica?

Este enfoque funciona al configurar handlers de request y al parsear parámetros en múltiples tecnologías. Editores como Atom y TextWrangler permiten buscar y reemplazar con grupos, aunque en Atom el conteo de matches puede no ser exacto. En PHP puedes recuperar los grupos en un arreglo; en Python llega como lista; en Pearl se exponen como $1, $2; y también se usará JavaScript para otros casos.

Buenas prácticas para tu flujo de trabajo:

Omitir dominio y ruta: céntrate en el query a partir de “?”.
Probar con Replace/Replace all: valida que cada par quede “nombre = valor”.
Mantener case insensitive si el contexto lo requiere.
Pensar en lenguaje natural antes de codificar: define qué sí y qué no debe coincidir.

Aplicaciones mencionadas que fortalecen tu criterio con regex:

Validación de correos y dominios.
Separación de queries complejos en pares nombre=valor.
Retos con nombres propios y escenarios de Geographic Information Services.
Preparación para integrar en PHP, JavaScript y Pearl. Muchos motores actuales siguen la interpretación popularizada por Pearl.

¿Te quedó alguna duda o quieres compartir tu patrón favorito para queries? Deja un comentario con tu ejemplo y el lenguaje donde lo aplicas.

Comentarios

Daniel G Perico Sánchez

student•

Para aquellos que usan un editor como Visual Studio Code al querer hacer una nueva línea en el replace debemos colocar el salto de línea: \n

Find: [\?&](\w+)=([^&\n]+)
Replace: \n - $1=$2

Diego Ramirez

student•

Excelente! Gracias Daniel por el aporte! Me vino de perlas!
Saludos!

Juan Pablo Perez

student•

Gracias por el aporte.

Julio J Yépez

student•

Esta clase … unido a la siguiente línea de código en JavaScript:

console.log( window.location.search );

¡Son magia pura … y en el Frontend!

Ivan Santiago

student•

No seria console.log( window.location.href )? -.-

Julio J Yépez

student•

Nope.
Porque location.href te devuelve toda la url mientras que location.search sólo la parte que corresponde al queryString … pruébalo. 😃

Yenny Paola Porras Rueda

student•

APUNTES DE BECO: Al hacer consultas a sitios web mediante el método GET se envían todas las variables al servidor a través de la misma URL.

La parte de esta url que viene luego del signo de interrogación ? se le llama query del request que es: variable1=valor1&variable2=valor2&... y así tantas veces como se necesite.

Jeinfferson Bernal G

student•

Gracias por el aporte!

Julián Cárdenas

student•

Thanks for the contribution!

Iván Darío Sánchez Jiménez

student•

Creo que esta clase sintetiza todo el poder de las regex, desde la elaboración una expresión optimizada hasta la realización de un reemplazo funcional y aplicable a situaciones del día a día de un dessarrollador

Braulio Rangel

student•

Yo estoy de acuerdo

Oscar Jaramillo

student•

No te creas tanto Alberto... Algunos somos muy friki... 🤓

Diego Ramos Ricardez

student•

Qué buen outfit

Francisco Cisneros

student•

Se parece a Raúl Castro jaja

Julián Cárdenas

student•

JAJAJA Yeah!

David Pantoja Yescas

student•

\?&=([^&\n]+)

Diego andres de la cruz cruz

student•

Esta es la clase más completa y funcional hasta el momento

Luis Ruiz Ramos

student•

De acuerdo.

Gabriel Obregón

student•

EXPLICACIÓN DE LA EXPRESIÓN REGULAR

La expresión regular dada es:

[\?&](\w+)=([^&\n]+)

Vamos a desglosarla paso a paso:

[\?&] → Esta parte coincide con un ? o un &.

El ? marca el inicio de la cadena de consulta en una URL.
El & separa los diferentes parámetros en la consulta.
Los corchetes [] indican que coincidirá con cualquiera de los caracteres dentro de ellos.

(\w+) → Esta parte captura el nombre de la variable (clave del parámetro).

\w+ coincide con uno o más (+) caracteres de palabra (\w), que incluyen letras (a-z, A-Z), números (0-9) y guiones bajos (_).
Los paréntesis () crean un grupo de captura, lo que significa que esta parte se almacenará como Grupo 1 ($1).

= → Coincide con el signo igual (=) que separa el nombre de la variable de su valor.

([^&\n]+) → Esta parte captura el valor de la variable.

[^&\n] significa "cualquier carácter excepto & o un salto de línea (\n)".
El + significa que coincide con uno o más de estos caracteres.
Los paréntesis () crean otro grupo de captura, lo que significa que esta parte se almacenará como Grupo 2 ($2).

CÓMO FUNCIONA EL PROCESO DE EXTRACCIÓN

Usando buscar y reemplazar, aplicamos el patrón para extraer las variables de una URL.

EJEMPLO 1:

URL:

http : //b3co.com/?s=photography&mode=search&module=blog

Primera coincidencia:

?s=photography
$1 = s, $2 = photography
Se reemplaza con: - s => photography

Segunda coincidencia:

&mode=search
$1 = mode, $2 = search
Se reemplaza con: - mode => search

Tercera coincidencia:

&module=blog
$1 = module, $2 = blog
Se reemplaza con: - module => blog

Salida Final:

http : //b3co.com/

- s => photography

- mode => search

- module => blog

EJEMPLO 2:

URL:

https : //www.google.com/search?q=regex+platzi&oq=regex+platzi&aqs=chrome..69157j69160.6885j0j9&sourceid=chrome&ie=UTF-8

URL base extraída: https : //www.google.com/search

Variables extraídas: - q => regex+platzi

- oq => regex+platzi

- aqs => chrome..69157j69160.6885j0j9

- sourceid => chrome

- ie => UTF-8

EJEMPLO 3:

URL:

https : //co.search.yahoo.com/search?p=flickr&fr=yfp-t&fp=1&toggle=1&cop=mss&ei=UTF-8

URL base extraída: https : //co.search.yahoo.com/searchVariables extraídas: - p => flickr

- fr => yfp-t

- fp => 1

- toggle => 1

- cop => mss

- ei => UTF-8

Ingrid Katherine Hernández Aya

student•

gracias por explicar al detalle

Aldo Miguel Ortiz Parodi

student•

17. Mis apuntes sobre: "Uso de REGEX para descomponer querys GET"

Ejemplo de la clase:

\?&=([^&\n]+)

Francisco Garcia [C6]

student•

Otra forma de reemplazarlo

Find:

\?&=([^&\n]+)

Replace:

\n {variable:"$1", value:"$2"},

Gomez

student•

^?&=([^&\n]+) muy genial todo lo que se puede hacer con REGEX

Diego Adrián Sánchez Gutiérrez

student•

\?&=([^&\n]+)

Como romper un query en cada una de sus variables

Jaison Mora

student•

Con expresiones regulares se puede obtener una url con un método GET de http y despedazarlo entre cada variable y su valor. Esto se puede hacer mediante separar por agrupaciones la expresión y luego reemplazar todos los matches. La expresión regular puede ser esta: ?&=([^&]+)

Miguel Angel Reyes Moreno

student•

Para obtener los queries de las urls: \?&=([^&\n]+) y podemos descomponerlas con: \n $1 => $2

emanuel jesus urquiola amaro

student•

yo tube que usar la de manera distinta la expresion no se por que no me resulto igual que a beco si tambien estoy usando atom y me ha pasado en varios ejercicios en fin use esta expresion y me resulto asi :

expresion:
[\?&](\w+)=([^$\n]\w+)
direccion:
http://b3co.com/?s=fotografia&mode=search&module=blog
https://ve.search.yahoo.com/s earch?p=como+matar+a+maduro&fr=yfp-t&fp=1&toggle=1&cop=mss&ei=UTF-8
https://www.google.co.ve/search?safe=active&ei=vVI9W5XBFKWKgAaosZNQ&q=cuando+tu+te+vas&oq=cuando+tu+te+vas&gs_l=psy-ab.3..0i203k1l10.15957.18336.0.18666.16.10.0.0.0.0.397.1210.2-2j2.4.0....0...1.1.64.psy-ab..12.4.1205...35i39k1.0.3GDpASe7jjQ
resultado:
http://b3co.com/
- s => fotografia
- mode => search
- module => blog
https://ve.search.yahoo.com/s earch
- p => como+matar+a+maduro
- fr => yfp-t&fp=1&toggle=1
- cop => mss
- ei => UTF-8
https://www.google.co.ve/search
- safe => active
- ei => vVI9W5XBFKWKgAaosZNQ
- q => cuando+tu+te+vas
- oq => cuando+tu+te+vas
- gs_l => psy-ab.3..0i203k1l10.15957.18336.0.18666.16.10.0.0.0.0.397.1210.2-2j2.4.0....0...1.1.64.psy-ab..12.4.1205...35i39k1.0.3GDpASe7jjQ

con la expresion como la tiene beco me resulta asi

expresion:
[\?&](\w+)=([^$\n]+)
resultado:
http://b3co.com/
- s => fotografia&mode=search&module=blog
https://ve.search.yahoo.com/s earch
- p => como+matar+a+maduro&fr=yfp-t&fp=1&toggle=1&cop=mss&ei=UTF-8
https://www.google.co.ve/search
- safe => active&ei=vVI9W5XBFKWKgAaosZNQ&q=cuando+tu+te+vas&oq=cuando+tu+te+vas&gs_l=psy-ab.3..0i203k1l10.15957.18336.0.18666.16.10.0.0.0.0.397.1210.2-2j2.4.0....0...1.1.64.psy-ab..12.4.1205...35i39k1.0.3GDpASe7jjQ

me di cuenta que tambien funciona pero en mi caso lo debo hacer varias veces, por que?

emanuel jesus urquiola amaro

student•

y por el amor de dios O___O TUVE* no se como editar el comentario jajjajajaja

Jhon Fredy Beltrán León

student•

Si quieres puedes revisar mi repo Yo lo seguí usando atom y sublime indistintamente, algunas ejecuciones las tengo diferentes pero igual funcionaban las de beco

David Behar

student•

Esta parte no la entendí

([^&\n]+)

Carolina Acosta Muñoz

student•

El gorrito (^) es un not o negador, esa expresión quiere decir: Todo lo que no sea un & o un salto de línea \n

David Behar

student•

Entiendo eso, pero en el contexto no entendí qué es lo que le modifica a la expresión:

\?&=([^&\n]+)

Christian Roman

student•

Creo que lo único que le falta a este curso es un ejemplo de aplicación no solo usando Python, Java, Pearl o PHP sí no también hacerlo correr en PostgreSQL o MySQL por ejemplo. Se que hay formas de hacerlo y sería muy útil a la hora de construir consultas!!

Como analista de datos que soy, combinar la extrema potencia de RegEx con consultas SQL sería ideal.

Jeinfferson Bernal G

student•

Gianluca Aguilar

student•

Hola gente, no me quedo bien claro cuando hace ?&=.*& porque cuando hace $1 me sale solo smodule=blog ?

David Arias Fuentes

student•

Muestra cómo estás fabricando la expresión para la búsqueda.

Harold Andrés Burbano Acuña

student•

Mira en $1 guarda la primera parte (\w+) y en $2 guarda la segunda ([^&\n]+) Osea :

$1 = (\w+)
$2 = ([^&\n]+)

Luis Ariza

student•

Buen dia, les comparto mis notas(presiona Ctrl +Shift + L para el modo oscuro), espero que te sea util: https://languid-spring-631.notion.site/Expresiones-Regulares-c6a8bef1cdec4f03a854164724ffee9f

expresion:
[\?&](\w+)=([^$\n]\w+)
direccion:
http://b3co.com/?s=fotografia&mode=search&module=blog
https://ve.search.yahoo.com/s earch?p=como+matar+a+maduro&fr=yfp-t&fp=1&toggle=1&cop=mss&ei=UTF-8
https://www.google.co.ve/search?safe=active&ei=vVI9W5XBFKWKgAaosZNQ&q=cuando+tu+te+vas&oq=cuando+tu+te+vas&gs_l=psy-ab.3..0i203k1l10.15957.18336.0.18666.16.10.0.0.0.0.397.1210.2-2j2.4.0....0...1.1.64.psy-ab..12.4.1205...35i39k1.0.3GDpASe7jjQ
resultado:
http://b3co.com/
- s => fotografia
- mode => search
- module => blog
https://ve.search.yahoo.com/s earch
- p => como+matar+a+maduro
- fr => yfp-t&fp=1&toggle=1
- cop => mss
- ei => UTF-8
https://www.google.co.ve/search
- safe => active
- ei => vVI9W5XBFKWKgAaosZNQ
- q => cuando+tu+te+vas
- oq => cuando+tu+te+vas
- gs_l => psy-ab.3..0i203k1l10.15957.18336.0.18666.16.10.0.0.0.0.397.1210.2-2j2.4.0....0...1.1.64.psy-ab..12.4.1205...35i39k1.0.3GDpASe7jjQ

expresion:
[\?&](\w+)=([^$\n]+)
resultado:
http://b3co.com/
- s => fotografia&mode=search&module=blog
https://ve.search.yahoo.com/s earch
- p => como+matar+a+maduro&fr=yfp-t&fp=1&toggle=1&cop=mss&ei=UTF-8
https://www.google.co.ve/search
- safe => active&ei=vVI9W5XBFKWKgAaosZNQ&q=cuando+tu+te+vas&oq=cuando+tu+te+vas&gs_l=psy-ab.3..0i203k1l10.15957.18336.0.18666.16.10.0.0.0.0.397.1210.2-2j2.4.0....0...1.1.64.psy-ab..12.4.1205...35i39k1.0.3GDpASe7jjQ

Cómo extraer variables de URLs con regex

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares

Filtrar logs gigantes con expresiones regulares

Expresiones regulares para URLs HTTP

Regex para validar teléfonos con separadores y extensiones

Validación de emails con regex

Validación de coordenadas GPS con regex

Validar nombres propios con regex

Usos avanzados en Expresiones Regulares

Grupos de captura para transformar CSV a SQL

Expresiones Regulares en lenguajes de programación

Cómo extraer variables de URLs con regex

Regex en múltiples lenguajes con CSV real

Perl: CSV de fútbol en cero segundos

Expresiones regulares en PHP: preg_match con CSV

Extraer empates de archivos masivos con PHP

Python regex para análisis de archivos CSV

Lectura de archivos con BufferedReader en Java

Escapar regex en Java: doble barra

Validación de emails en JavaScript con regex

Grep: filtra archivos masivos con regex