Validar nombres propios con regex

Clase 18 de 29 • Curso de Expresiones Regulares

Contenido del curso

Introducción a las Expresiones Regulares

El lenguaje: caracteres, operadores, y construcciones

Uso práctico de Expresiones Regulares

Usos avanzados en Expresiones Regulares

19
Grupos de captura para transformar CSV a SQL
17:39 min

Expresiones Regulares en lenguajes de programación

Tomar examen

Resumen

Validar nombres propios con expresiones regulares es un reto que cambia entre países. Aun así, es posible partir de reglas simples: evitar dígitos, respetar mayúsculas y minúsculas y modelar espacios para nombres compuestos. Aquí verás cómo construir un patrón básico y cómo pensar en cuantificadores como +, ?, y los modos greedy y lazy.

¿Cómo validar nombres propios con regex en distintos países?

Empezar por lo local ayuda. La idea es reconocer si una línea contiene un nombre de persona de forma sencilla. Se asume que cada línea inicia con un nombre, que no hay dígitos y que la primera letra va en mayúscula. Luego se puede crecer hacia nombres compuestos y apellidos según la costumbre local.

¿Qué reglas básicas aplicar: mayúsculas, dígitos y espacios?

No usar dígitos: si hay números, es raro que sea un nombre.
Iniciar con mayúscula: primera letra A-Z.
Continuar en minúsculas: tres o más letras para longitudes de cuatro o más.
Manejar espacios con cuidado: "Juan Pablo" requiere un espacio opcional y otro bloque con mayúscula.
Reconocer excepciones: apellidos como McCarthy o McGregor tienen mayúsculas intermedias y complican el patrón.

Ejemplo de nombre simple (solo nombre, sin apellidos), asumiendo líneas que empiezan con el nombre:

^[A-Z][a-z]{3,}$

¿Cómo usar anclas y flags case-insensitive?

El ancla ^ fuerza a que la coincidencia empiece al inicio de la línea. Si se activa el flag insensitive (i), se ignoran mayúsculas/minúsculas; pero aquí se necesita respetar el caso: mayúscula inicial y resto en minúsculas. Por eso, el patrón se construye sin el flag i.

Con respeto a mayúsculas/minúsculas: se omite i.
Si se usa i por error: la mayúscula inicial dejaría de ser una condición confiable.

¿Qué cuantificadores escoger: +, ?, greedy o lazy?

{3,}: exige al menos tres minúsculas después de la inicial.
?: útil para marcar un bloque como opcional (por ejemplo, un segundo nombre).
+: suma uno o más caracteres cuando el bloque es obligatorio.
Greedy vs lazy: define si el patrón captura lo máximo o lo mínimo posible; al validar nombres, esto afecta cómo se expanden bloques opcionales.

Para un nombre compuesto como "Juan Pablo" (espacio opcional y segundo nombre con mayúscula):

^[A-Z][a-z]{3,}(?: [A-Z][a-z]*)?$

¿Cómo manejar nombres compuestos y apellidos con mayúsculas internas?

Los apellidos irlandeses como McCarthy o McGregor introducen mayúsculas en medio, lo que vuelve el patrón más complejo. Una estrategia práctica es resolver primero el nombre y, más adelante, extender a apellidos según la costumbre local. Si hay comas u otros separadores, conviene definir si se trabajará línea por línea o por campos.

Empezar por el nombre sin apellidos.
Añadir soporte para segundo nombre con bloque opcional.
Posponer reglas para apellidos con mayúsculas internas.
Evitar suposiciones fuertes cuando haya comas u otros separadores.

Ejemplo sin comas, con segundo nombre opcional (a partir de un nombre válido):

^[A-Z][a-z]{3,}(?: [A-Z][a-z]*)?$

¿Qué estrategia práctica seguir para mejorar la precisión?

La validación perfecta es difícil: el usuario puede escribir mal y hay variaciones culturales. Aun así, se puede aumentar la probabilidad de acierto combinando reglas y decisiones prácticas.

Capitalizar cuando sea posible: llevar la primera letra a mayúscula.
Validar contra el patrón: detectar si cumple estructura básica.
Usar una lista corta de nombres frecuentes (15–20) del país: aumentar la probabilidad de acierto en detección línea completa.
Iterar según la costumbre local: nombre o nombres y apellido o apellidos.
Probar diferentes cuantificadores: decidir cuándo va +, cuándo ?, y cómo afecta greedy/lazy a los matches.

Ejemplo de flujo simple:

1) Normalizar: capitalizar la primera letra.
2) Validar: aplicar ^[A-Z][a-z]{3,}(?: [A-Z][a-z]*)?$.
3) Comprobar: si se requiere, verificar si el nombre está en la lista local de más usados.

¿Tienes un caso real con nombres compuestos o apellidos particulares? Compártelo y probamos el patrón juntos.

Comentarios

Ivan Santiago

student•

Asi nomas quedo 😂

^([A-ZÑÁÉÍÓÚ][a-zñáéíóú]+\s?){3,4}$

Antonio Godoy

student•

En tu caso no cogería estos tres nombres:
Jhon Beltrán

Ándres Alberto

Andrés de Jesús Montes Rodríguez

Yo he usado:
^[A-zÁÉÍÓÚÑÇ]\w{1,}?\s?\w{1,}?\s?\w{1,}?\s?\w{1,}?\s?\w{1,}?$
Que supongo que se puede simplificar pero bueno xD

Michèle Däppen

student•

Podemos simplificarlo usando las posiciones en la tabla UTF-8 (\u+XXXX) . Esta expresion recoge los nombres que has mencionado

^([A-Z\u+00C0-\u+231a-z][a-z\u+00C0-\u+231]{1,}\s){1,}

Miguel Angel Reyes Moreno

student•

Solución: ^([A-Ú][a-ú]+\s?){1,5}$

Wilson Montenegro

student•

Elegante 🎯

Rafael Barrera

student•

Tienes razón, ese doble parentesis y las letras con tilde resuelven la expresión. Tome tu expresión y le añadí una variante para usar la dieresis y así podrían incluirse nombres islandeses, jeje

[A-ZÀ-úÄ-ü][a-zÀ-úÄ-ü]+ [A-ZÀ-úÄ-ü][a-zÀ-úÄ-ü]+(( [A-ZÀ-úÄ-ü][a-zÀ-úÄ-ü]+){1,})?

como: Ásbjörn García Reyes. XD

Pedro Muñoz Becerra

student•

Pedro Muñoz
Deyanira Molina
Brayatan Byron
Marantoni Núñez
Jenny Cortés
Ad9 hastra
Beethoven
J S Mastropiero
Éster Cervantes

^[A-ZÁÉÍÓÚ][a-záéíóú]{2,}\s[A-ZÁÉÍÓÚÑ][a-záéíóúñ]{2,}$

PD: Soy de Chile, acá los nombres imposibles existen.

Julián Cárdenas

student•

Chile is a mysterious place

Andrés Madrigal

student•

^([A-ñ]{2,}\s?){4,5}$
Use nombres que dieron en la sección de comentarios para testearlo

Rodrigo JimÃ©nez GutiÃ©rrez
Rodrigo Jiménez Gutiérrez
Jhon Beltrán
Jhon Fredy Beltrán
Jhon Fredy Beltrán León
Ándres Alberto
Juan Carlos Herrera Martínez
Andrés de Jesús Montes Rodríguez

Ernesto B

student•

Por si resulta útil, comparto un apunte con otro caso de uso de las expresiones que me ha parecido interesante. Se trata de utilizar complementos del navegador para buscar dentro de páginas web utilizando expresiones regulares. Dejó aquí el enlace a uno de ellos: Chrome Regex Search Se puede probar su funcionamiento buscando por el término expresiones regulares en Google y utilizando después esta expresión para buscar con el add-on instalado:

[E|e]xpresi[o?ó?]{1}n(es)?\s([R|e]egular)\1?

Así quedará resaltado el singular/plural de todas las apariciones del término Expresión Regular en la página de resultados o las web consultadas.

Diego Fernando Rojas Quintero

student•

¿Que expresión regular podría identificar nombres con que puedan ser Rusos, o japones?

Alejandro Urrea Giraldo

student•

La pregunta es interesante, aunque un poco compleja de responder.

Por defecto, las expresiones regulares que se usan en el curso aplican para cadenas de texto con codificación ASCII, es decir, usará el alfabeto latino sin acentos y sin la ñ.

Sin embargo existen otros alfabetos muy utilizados, como el alfabeto cirílico usado en Rusia, que tiene caracteres diferentes que no corresponden a la codificación ASCII.

La solución: extender las expresiones regulares a una codificación estándar mucho más amplia (como UTF-8), donde encontremos todos los caracteres y símbolos existentes, sin importar el idioma.

Dependiendo del lenguaje de programación, existirán diferentes formas de indicar cual será la codificación que se usará cuando se requiera usar una expresión regular. Sería necesario saber exactamente en que idioma se está buscando, y que lenguaje de programación se está usando

Finalmente, cabe destacar que el japonés, el mandarín y otros lenguajes de asia, no tienen un alfabeto como el de nosotros, sino que su escritura se basa en kanjis o ideogramas, que representan ideas, y no siempre se pronuncian igual (como pasa en nuestro idioma), sino que depende del contexto. Es decir, que aunque varias palabras empiecen con el mismo kanji, no necesariamente su pronunciación empezaría igual. Esto generaría inconvenientes, si realizamos una búsqueda igual a como la hacemos en español

Adicionalmente, en japonés los nombres tienen un tratamiento particular: Los nombres extranjeros se escriben usando un grupo de kanjis especiales llamado Katakana, mientras que los nombres japoneses se escriben usando Hiragana. Esto dificultaría aún más distinguir cuando nos referimos a un nombre de una persona. En este caso particular, se necesitaría conocer mucho más el idioma para poder brindar una solución aceptable

Espero haber aportado algo a comprender mejor el problema

German Tellez Vanegas

student•

Creo que eso es mejor hacerlo con una máquina de turing. Así fue como Turing descifró lo mensajes que se enviában las tropas alemanas sin saber alemán

Adriana Villalobos

student•

^([A-ZÁÉÍÓÚÑ]+[\w.]+ )+([A-ZÁÉÍÓÚÑ]+[\w.]+)$

No he usado \s porque incluye los saltos de línea, así que he puesto un espacio al final del primer paréntesis. Mi solución incluye todos estos posibles nombres (recopilados de los posteos de los compañeros):

Camilo Sarmiento Gálvez Alejandro Pliego Abasto Milagros Reyes Japón Samuel París Arrabal Juan Pablo Tafalla Axel Gálvez Velázquez Óscar Montreal Aparicio Jacobo Pozo Tassis Guillermo Ordóñez Espiga Eduardo Pousa Curbelo Ivanna Bienvenida Kevin Ada Tasis López Luciana Sáenz García Florencia Sainz Márquz Catarina Cazalla Lombarda Paloma Gallo Perro Margarita Quesada Florez Vicente Fox Quesada Asunción Carballar Constanza Muñoz Manuel Andres García Márquez Iris Graciani Miguel Ignacio Rodríguez Álvarez Heli Miguel Robles Álvarez Verónika Sánchez Ascón Jhony Ulloa Montalva Mijahil Barra Li Kevin David Saldaña Perez Josie Nathaly Calle Valdiviezo Paul Thomas Vargas Domínguez Rodrigo Jiménez Gutiérrez Jhon Beltrán Jhon Fredy Beltrán Jhon Fredy Beltrán León Ándres Alberto Juan Carlos Herrera Martínez Andrés de Jesús Montes Rodríguez Thais Armada de Medina María Julia Herrera de Perez Xi Ping Lu Jhonnie B. Good Jr Adriana Villalobos F.

Y no toma ni una línea de ejercicios pasados (dominios, mails, etc)

Samuel Rolon Cicciari

student•

Mi solucion original era esta:

^([a-zA-Z]{3,} ?)+$

Pero despues de ver tu base de datos de nombres y que contemplastes los acentos terminé con esta:

^([a-zA-ZáéíóúÁÉÍÓÚÑñ] ?)+$

Decidí no aceptar los puntos.

De tu base de datos, acepta todos menos los siguientes: Jhonnie B. Good Jr Adriana Villalobos F.

Otros ejemplos que no acepta: Runner94 lino_juni Maria Dolor3s

Otros ejemplos que si acepta: Estamos locos Juan Pablo Marcela juliana jose luis Mateo

Sebastián Ariel Cóceres

student•

^([a-zA-ZáéíóúÁÉÍÓÚÑñ] ?)+$ esta es excelente

si le agregas un punto al set también te ubicará los nombres que no te acepta. La que tienen números o caracteres raros podríamos obviarlos

Quedaria de la siguiente manera: ^([a-zA-ZáéíóúÁÉÍÓÚÑñ.] ?)+$

Carlos Felipe Saldarriaga Bejarano

student•

Para este reto apliqué la siguiente ER:

(?<=)([A-ZÀ-ú][a-zÀ-ú]+)

Me trae cada componente del nombre sin espacios.

Busqué ir más allá para hacer consultas diferentes de la siguiente manera:

Extraer primer nombre

^[A-ZÀ-ú][a-zÀ-ú]+

Extraer segundo componente (segundo nombre o primer apellido)

****(?<= )([A-ZÀ-ú][a-zÀ-ú]+)(?= )

pero dentro de la validación veo que algunos no los incluye (y en algunos casos va por el tercer componente):

¿se les ocurre porqué puede suceder esto?

José Joaquín Tripp Gudiño

student•

Tenía la misma duda :D Justo buscaba de que manera encontrar algo dentro de 2 valores, pero que estos no se tomen dentro del match, tal como lo muestras con el segundo nombre. Me gusta utilizar regex101 para practicar los ejercicios de la clase, porque a la derecha te muestra una explicación de cómo funciona tu parámetro y al probar, me arroja la siguiente descripción:

Regex:

(?<= )(.*)(?= )

También, en el siguiente link, hay una explicación más detallada sobre estos patrones de "lookahead" y "lookbehind" :D
https://www.rexegg.com/regex-lookarounds.html

Henry Alexander Velásquez Rosas

student•

Resumen / Apuntes / Notas

Dejo algunos 👉 apuntes en GitHub ✨ donde encontrarás ejemplos para entender las expresiones regulares sin tanto lío.

Carlos Alfredo López Zavarce

student•

Si buscaramos el nombre de Musk

^[A-Z]\s?[Æ]\s?[A-Za-z]{1,}[-]{1,}[0-9]{1,}\s?Musk

X Æ A-12 Musk

Carlos Alfredo López Zavarce

student•

El nombre del hijo de Elon Musk rompio paradigmas de las expresiones regulares =D

Gustavo Hernan Tiseira

student•

^([A-ZÁÉÍÓÚÑ][a-zzáéíóúñ]{1,}\s?){1,}

Jorge Sapiains

student•

En mi caso, Chile, son 2 nombres y dos apellidos

^[A-ZÑÁÉÍÓÚ][a-zñáéíóú]{2,} [A-ZÑÁÉÍÓÚ][a-zñáéíóú]{2,} [A-ZÑÁÉÍÓÚ][a-zñáéíóú]{2,} [A-ZÑÁÉÍÓÚ][a-zñáéíóú]{2,}$

Jesús Ignacio García Fernández

student•

Expression

^(A-ZÁÉÍÓÚÜÑ? )((de )?(del )?(la )?(el )?A-ZÁÉÍÓÚÜÑ? ?){1,7}$

Texto

María de Jesús Macias López
Antonio Argüelles Roncero
Ana Maria Rios del Baño
Francisco Ladrón de Guevara
Arantzatu Goicoetxea Urdaíz
Maria de la O

Luis Rogelio Reyes Hernandez

student•

Cosas incorrectas que los programadores asumimos acerca del nombre

Este reto es interesante para el curso, pero en la vida real para evitarse dolores de cabezas deben saber que muchas cosas que creen que son universales para los nombres son mentira y no aplican en todos los países del mundo.

un nombre no tiene caracteres especiales (mentira): X Æ A-Xii
Un nombre no tiene dígitos (mentira): Colombiano su nombre es "6"
Un nombre debe tener un mínimo de 2 o 3 caracteres (mentira): Li (como apellido) o aún más en su idioma original 李

Mientras más buscamos aceptar todos los nombres universalmente posibles de todos los idiomas que existen cada vez es más notorio que menos restricciones es quizás la unica opción que nos queda

Nestor Rios Garcia

student•

Mi solucion

^([A-Úa-ú]+\s?){2,}$

Marco Ochoa

student•

Alguien que me diga una expresion regular para encontrar un conjunto de palabras que empieza con una palabra y que termina en otra, alguien please?

Bryan Estiven Silva Mercado

student•

lo resolviste ?

Oscar Reyes

student•

Puedes probar con esto

^(primera_palabra)[\s]?.*?[\s](palabra_final)$

Alejandro Giraldo Londoño

student•

Reto: Para el siguiente conjunto de datos: Ruben Juan Pablo Marcela Anny Camila Rodrigo Kevin Z ert123 Ana Maria Gonzales E3422

^[A-Z][a-z].+\s?

Daniel Camacho

student•

Al validar(.+) estas diciendo que son validos tambien un simbolo o mas yo lo dejaria [a-z]+ hay si validas uno o mas caracter unicamente del alfabeto

Jhon Fredy Beltrán León

student•

Para los nombres como estos en Colombia:
Rodrigo Jiménez Gutiérrez
Jhon Beltrán
Jhon Fredy Beltrán
Jhon Fredy Beltrán León
Ándres Alberto
Juan Carlos Ándres Herrera Martinez (Gente con 3 Nombres)

Podemos usar esta:

^([A-ZÁÉÍÓÚ][a-zñáéíóúñ]{2,}\s?){2,5}$

Erick Leonardo Saenz Pardo

student•

Mi listado:

Erick Leonardo Sáenz Pardo
Camila Morales
Ginna Gomezaquira
Ángela María Bohorquez
Camilo Neita Niño
Nicolás Guzmán
Rodrigo Jiménez Gutiérrez

Mi expresion:

<^[A-ZÁÉÍÓÚ][a-záéíóúñ]+( [A-ZÁÉÍÓÚ][a-záéíóúñ]+){1,3}$>

Validar nombres propios con regex

Introducción a las Expresiones Regulares

Expresiones regulares sin misterio ni miedos

Por qué las regex son simples

Expresiones regulares: búsqueda por patrones

Cómo buscar teléfonos y tarjetas con regex

El lenguaje: caracteres, operadores, y construcciones

El punto en regex: selecciona cualquier carácter

\d \w \s: las 3 clases que localizan todo

Cuantificadores regex: *, + y ? en acción

Contadores en expresiones regulares

Greedy vs lazy en regex: cuándo usar cada uno

Negaciones con gorrito en expresiones regulares

Cómo detectar números telefónicos sin letras

Cómo procesar archivos CSV con millones de líneas

Uso práctico de Expresiones Regulares

Filtrar logs gigantes con expresiones regulares

Expresiones regulares para URLs HTTP

Regex para validar teléfonos con separadores y extensiones

Validación de emails con regex

Validación de coordenadas GPS con regex