Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Tomar examen

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Resumen

¿Cómo usar expresiones regulares en NLTK para analizar un corpus?

En el fascinante mundo de la lingüística computacional, las expresiones regulares juegan un papel crucial para realizar búsquedas avanzadas en grandes cantidades de texto, como un corpus. Si estás interesado en descubrir cómo construir patrones de búsqueda efectivos, estás en el lugar adecuado. En esta guía, desentrañamos el uso de las expresiones regulares con la librería NLTK (Natural Language Toolkit) y Python, desde lo básico hasta los patrones más sofisticados.

¿Qué es una expresión regular?

Las expresiones regulares son secuencias de caracteres que forman un patrón de búsqueda. Utilizadas en el procesamiento de texto, permiten navegar y filtrar información dentro de cadenas de texto para encontrar coincidencias específicas. Python cuenta con una poderosa librería llamada re que facilita su incorporación.

¿Cómo construir un arreglo filtrando palabras con expresiones regulares?

Comenzamos con la creación de un arreglo utilizando una expresión regular simple. A continuación, se muestra cómo definir patrones de búsqueda básicos y avanzados.

import re

# Ejemplo básico: Buscar palabras que contengan 'es'
AR = [w for w in flatten if re.search(r'es', w)]

En este fragmento de código, utilizamos la función re.search() de la librería de expresiones regulares de Python, especificando un patrón y evaluando cada palabra en la lista flatten. Si el patrón 'es' se encuentra en una palabra, esta se añade al nuevo arreglo AR.

¿Cómo redefinir patrones de búsqueda utilizando metacaracteres?

Los metacaracteres enriquecen las búsquedas con expresiones regulares al permitir una mayor especificidad, como buscar coincidencias al principio o al final de las palabras.

$: Marca el final de una cadena.

# Ejemplo: Solo palabras que terminan en 'es'
AR = [w for w in flatten if re.search(r'es$', w)]

^: Marca el inicio de una cadena.

# Ejemplo: Solo palabras que empiezan con 'es'
AR = [w for w in flatten if re.search(r'^es', w)]

¿Cómo utilizar rangos en las expresiones regulares?

Los rangos permiten definir un conjunto de caracteres que pueden ocupar una posición específica dentro de una cadena de texto:

# Ejemplo: Buscar palabras que comienzan con 'g', 'h' o 'i'
AR = [w for w in flatten if re.search(r'^[ghi]', w)]

En este ejemplo, creamos un arreglo donde filtramos palabras que empiezan con una letra ubicada entre 'g' y 'i'. Esto se logra definiendo un rango [ghi] como el primer carácter en las palabras seleccionadas en el arreglo.

¿Qué son las clausuras en las expresiones regulares?

Las clausuras especifican el número de repeticiones permitidas para un patrón dado:

*: Permite que un patrón se repita cero o más veces.

# Ejemplo: Patrones que pueden aparecer cero o más veces
AR = [w for w in flatten if re.search(r'^no*', w)]

+: Requiere que un patrón se repita al menos una vez.

# Ejemplo: Patrones que deben aparecer al menos una vez
AR = [w for w in flatten if re.search(r'^no+', w)]

Cómo seguir aprendiendo sobre expresiones regulares

¡Esto es solo el comienzo! Las expresiones regulares son una herramienta impresionante para aquellos apasionados por la computación y el análisis lingüístico. A medida que avances, podrás explorar cómo definir tokenizadores usando estas técnicas, ayudando a estructurar texto de manera más eficiente. No dudes en experimentar y seguir practicando para dominar su uso. Tu viaje en el ámbito del procesamiento de lenguaje natural será increíblemente enriquecedor. ¡Adelante!

Gabriel Obregón

Estudiante

🧠Expresiones Regulares con NLTK y Python

🔍 1. Qué son las expresiones regulares

Definición: Son patrones de búsqueda formados por secuencias de caracteres. Permiten encontrar, filtrar o manipular texto de manera automática y precisa.

💡 En Python: se utilizan con la librería re.

💬 En NLTK: ayudan a analizar texto dentro de corpus lingüísticos.

🧰 2. Herramientas necesarias

🧩 Librería re: maneja las expresiones regulares.

📘 Librería NLTK: analiza texto y corpus en el campo del Procesamiento del Lenguaje Natural (NLP).

🔗 Combinación ideal:

Usar NLTK + re para búsquedas y filtrados avanzados en textos.

💻 3. Ejemplo básico

import re

# Buscar palabras que contengan 'es'

AR = [w for w in flatten if re.search(r'es', w)]

📖 Qué hace:

Examina cada palabra en flatten.
Si encuentra “es”, la guarda en la lista AR.

📎 Resultado: obtienes solo las palabras que contienen el patrón “es”.

⚙️ 4. Metacaracteres esenciales

🔸 Inicio de cadena → ^

AR = [w for w in flatten if re.search(r'^es', w)]

➡️ Filtra palabras que empiezan con “es”.

🔸 Fin de cadena → $

AR = [w for w in flatten if re.search(r'es$', w)]

➡️ Filtra palabras que terminan con “es”.

🧠 Truco mental: Piensa en ^ como una “flecha hacia el inicio” y $ como una “marca final”.

🔤 5. Rangos de caracteres

Definen un conjunto de letras o símbolos permitidos en una posición.

# Palabras que empiezan con 'g', 'h' o 'i'

AR = [w for w in flatten if re.search(r'^[ghi]', w)]

🎯 Significado: El patrón [ghi] busca palabras que comiencen con alguna de esas letras.

📎 Ejemplo: “hola”, “idea”, “gato”.

🔁 6. Clausuras o repeticiones

Permiten indicar cuántas veces puede repetirse un patrón.

✴️ Cero o más repeticiones → *

AR = [w for w in flatten if re.search(r'^no*', w)]

🌀 Interpreta así: la palabra puede tener ninguna o varias “o” después de la “n”.

📍 Ejemplo: “n”, “no”, “noo”, “nooo”...

➕ Una o más repeticiones → +

AR = [w for w in flatten if re.search(r'^no+', w)]

🔥 Interpreta así: la palabra debe tener al menos una “o” después de la “n”.

📍 Ejemplo: “no”, “noo”, “nooo”... (pero no solo “n”).

Kevin Naranjo

Augusto Gonzalez

Cristian Andres Narvaez

Gabriel Salvador

Alejandro Sánchez Yalí

Nico Quiroz

Francisco Camacho

Profesor

Gabriel Missael Barco

jimmy ibañez

Miguel Angel Velazquez Romero

Anderson Steven Mendez Chipatecua

Edwin Moreno

Pablo Rosa

Diego Forero

Team Platzi

Jesús Gabriel Millán Corobo

rusbel bermúdez rivera

Cristian Tarazona

Massimo Di Berardino

Carlos Chavez

David Logacho

Jhon Freddy Tavera Blandon

Romel Manrique

Alejandro López

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab