Procesamiento de Lenguaje Natural con Python en Google Colab

Clase 4 de 24 • Curso de Fundamentos de Procesamiento de Lenguaje Natural con Python y NLTK

Contenido del curso

Introducción al Procesamiento de Lenguaje Natural

Fundamentos con NLTK

Perspectivas de lo que viene

24
Fundamentos del Procesamiento del Lenguaje Natural con NLTK
03:16 min

Resumen

Trabajar con procesamiento de lenguaje natural ya no requiere configuraciones complicadas ni instalaciones locales. Con NLTK y Google Colab puedes comenzar a explorar corpus de texto en español en cuestión de minutos, directamente desde tu navegador. A continuación se explican los pasos fundamentales para importar la librería, descargar un corpus y realizar las primeras operaciones de exploración sobre los datos.

¿Por qué usar Google Colab para procesamiento de lenguaje natural?

Google Colab es una plataforma que permite ejecutar notebooks tipo Jupyter sin instalar nada en tu computador [0:12]. Al abrir un navegador web ya tienes acceso a una instancia con RAM y disco asignados, e incluso puedes usar GPUs y TPUs para modelos más sofisticados. La gran ventaja para ciencia de datos y machine learning es que muchas librerías, incluyendo NLTK, ya vienen preinstaladas, lo que elimina la fricción inicial.

Cuando la marca verde de RAM y disco aparece en la parte superior del notebook, significa que la instancia está lista para soportar todos tus cálculos [0:42].

¿Cómo importar NLTK y descargar un corpus en español?

El primer paso es importar la librería con una sola línea:

python import nltk

Una vez importada, es necesario descargar el corpus que se quiere procesar. NLTK mantiene una base central con múltiples volúmenes de texto (corpus o corpora). Para obtener uno específico se utiliza nltk.download() indicando el nombre del recurso [1:17]:

python nltk.download('cess_esp')

El corpus cess_esp es una colección de texto en español compuesta por titulares de noticias que ya están tokenizados, es decir, cada palabra y signo de puntuación aparece como un elemento independiente dentro de listas [2:10].

¿Qué estructura tiene el corpus descargado?

Para cargar las oraciones del corpus y explorar su contenido se escribe:

python corpus = nltk.corpus.cess_esp.sents() print(corpus)

El resultado es una lista de listas (los corchetes cuadrados dobles lo confirman). Cada sublista representa un titular de noticia tokenizado [2:26]. Para conocer el tamaño del corpus basta con usar len():

python print(len(corpus))

Esto devuelve 6 030, lo que indica que el corpus contiene seis mil treinta titulares de noticias en español [3:05].

¿Qué significa aplanar una lista y para qué sirve?

El proceso de aplanar (o flatten) consiste en concatenar todas las sublistas en una sola lista grande. De esta forma se obtiene una secuencia continua de tokens en lugar de una estructura anidada [3:25].

python flatten = [w for l in corpus for w in l] print(len(flatten))

Esta sintaxis compacta equivale a un doble ciclo for: el ciclo exterior recorre cada lista dentro del corpus y el ciclo interior recorre cada palabra dentro de esa sublista [3:55]. El resultado arroja 192 685 tokens, que pueden ser palabras o signos de puntuación dependiendo de la estructura del corpus [4:50].

Para inspeccionar solo una porción se usa la notación de slicing:

python print(flatten[:20])

Esto muestra los primeros veinte elementos, que corresponden aproximadamente al primer titular completo [5:10]. Si se amplía el rango a cien, se pueden observar varios titulares concatenados, confirmando que el aplanamiento funcionó correctamente [5:35].

¿Qué papel juegan las expresiones regulares en el procesamiento de texto?

Las expresiones regulares son un lenguaje estandarizado para definir patrones de búsqueda dentro de cadenas de texto [1:55]. Python incluye la librería Re para trabajar con ellas:

python import re

La documentación oficial de la librería re está disponible directamente desde los notebooks del curso y cubre todo lo necesario para aplicar expresiones regulares en Python [2:00]. Aunque en esta sesión solo se introduce el concepto, en la siguiente clase se aplican funciones con expresiones regulares para encontrar patrones específicos dentro de los textos del corpus.

¿Ya probaste cargar el corpus cess_esp en tu propio notebook de Colab? Comparte en los comentarios qué otros corpus de NLTK te gustaría explorar y qué patrones de texto te interesaría buscar.

Comentarios

Miguel Angel Velazquez Romero

student•

Glosario:

Corpus lingüístico Un corpus lingüístico es un conjunto amplio y estructurado de ejemplos reales de uso de la lengua. Estos ejemplos pueden ser textos, o muestras orales. Un corpus lingüístico es un conjunto de textos relativamente grande, creado independientemente de sus posibles formas o usos.

Token Un token es un conjunto de caracteres que representan texto. También podemos decir que el token es la unidad análisis de texto, así como un número es la unidad del análisis matemático. Es fácil para nosotros pensar que un token es igual a una palabra, sin embargo esto no es correcto, puesto que la “palabra” es un elemento del lenguaje que posee significado por sí misma, mientras que el token se supone es un elemento abstracto. Dependiendo de la tarea que estemos afrontando, el token puede ser alguna de las siguientes:

Una sola palabra, como: “jóvenes”, “nivel” o “superior”,
Un número, como: “1”, “0”, o “10”,
Un solo caracter, como: “j”, “ó” o “v”,
Un símbolo, como “¿”, “?” o “#”,
Un conjunto de caracteres, como “nivel superior” o “escuela técnica”

Tokenización La tokenización es un paso que divide cadenas de texto más largas en piezas más pequeñas o tokens. Los trozos de texto más grandes pueden ser convertidos en oraciones, las oraciones pueden ser tokenizadas en palabras, etc. El procesamiento adicional generalmente se realiza después de que una pieza de texto ha sido apropiadamente concatenada. La tokenización también se conoce como segmentación de texto o análisis léxico. A veces la segmentación se usa para referirse al desglose de un gran trozo de texto en partes más grandes que las palabras (por ejemplo, párrafos u oraciones), mientras que la tokenización se reserva para el proceso de desglose que se produce exclusivamente en palabras.

Bibliografía:

colaboradores de Wikipedia. (2020, 6 agosto). Corpus lingüístico. Wikipedia, la enciclopedia libre. https://es.wikipedia.org/wiki/Corpus_ling%C3%BC%C3%ADstico
Introducción al análisis de texto. (2020, 16 agosto). 🌮 tacos de datos | Aprende visualización de datos en español. https://tacosdedatos.com/analisis-texto#:%7E:text=Un%20token%20es%20un%20conjunto,la%20unidad%20del%20an%C3%A1lisis%20matem%C3%A1tico.&text=Un%20conjunto%20de%20caracteres%2C%20como,superior%E2%80%9D%20o%20%E2%80%9Cescuela%20t%C3%A9cnica%E2%80%9D
Mayo, M. (2020, 12 marzo). Preprocesamiento de datos de texto: un tutorial en Python. Medium. https://medium.com/datos-y-ciencia/preprocesamiento-de-datos-de-texto-un-tutorial-en-python-5db5620f1767#:%7E:text=single%20curly%20braces.%7D-,Tokenizaci%C3%B3n,ser%20tokenizadas%20en%20palabras%2C%20etc.

Mario Alberto García Meza

teacher•

Para trabajar con tus textos propios puedes usar

path = 'dirección/de/tu/archivo.txt'

f = open(path, 'r')
raw = f.read() # Es el archivo en texto puro. No es usable por nltk aún
tokens = nltk.word_tokenize(raw) # Primero se extraen los tokens
text = nltk.Text(tokens) # Se genera el texto a partir de los tokens

Rodrigo Ramos Xochiteotzin

student•

Excelente aporte! Justo estaba buscando algo como esto en los comentarios hasta que te leí jajaja Sabía como leer el archivo pero no sabía cómo pasar de tokens a texto. Gracias!

SAMUEL ORTEGA CRUZ

student•

Genial justo lo que buscaba

Matias Alexander Ibarra Trujillo

student•

Cuando hace flatten[:20] tarda porque esta volviendo a ejecutar el ciclo for, para que no gasten recurso de mas pueden hacerlo en una celda aparte

Josue Farley Lopez Carvajal

student•

creo que el flatten se podría hacer más rápido con numpy.

Giovany samaca

student•

hola @josuelopezcarvajal como seria el Flatten con numpy???

Augusto Gonzalez

student•

Justamente me quede revisando la data disponible de NLTK. Incluso tiene modelos de entrenamiento. http://www.nltk.org/nltk_data/

John Freddy Barrantes Gama

student•

Muy practico, hay más de 100 archivos que se pueden descargar con los que se pueden trabajar y seguir practicando.

Gerson Italo Huarcaya Zapana

student•

graciaa

Miguel Angel Velazquez Romero

student•

Cómo usar NLKT en Google Colab

# Importamos la biblioteca
import nltk
# Descargamos nuestra base de datos de textos
nltk.download('cess_esp')

Expresiones Regulares

Constituyen un lenguaje estandalizado para definir cadenas de búsqueda de texto.
Biblioteca de operaciones con expresiones regulares de Python re.
Reglas para escribir expresiones regulares.

# Importamos una biblioteca para expresiones regulares. 
import re
# Definimos un corpus en Python 
corpus = nltk.corpus.cess_esp.sents()
# Vemos de que trata este contenido
print(corpus)
# Vemos el tamaño del nuestro corpus. 
print(len(corpus))

''' Aquí vamos a concatener todas esas sublistas en una lista grande, de modo de que ya no tendremos una lista de listas, si no una sola lista donde están 
todos los titulares seguidos uno tras otro '''  
flatten = [w for l in corpus for w in l]

# Imprimimos una parte de la estructura interna 
print(flatten[:100])

Giovany samaca

student•

una pregunta si yo tengo un archivo.txt con un texto corto (corpus) como lo subo a google colab y lo tranformo a un Flatten??

Diego Alejandro Lesmes

student•

Pues hay dos formas:

Opcion 1: Leerlo desde tu drive con:

from google.colab import drive
drive.mount('/content/drive')

y ya después lees con pandas y la ruta dentro de tu drive donde esta el .txt

Opcion 2: Leerlo desde tu máquina local, para esto hay que conectar colab a tu sistema de archivos: 2.1 Configuras dentro de tu ambiente local sea conda o pip lo siguiente

pip install --upgrade jupyter_http_over_ws>=0.0.7 && jupyter serverextension enable --py jupyter_http_over_ws

jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --port=8888 --NotebookApp.port_retries=0

cierras la pestaña de browser que abrio jupyter rapidamente

2.2 Copias el token de la consola que se genero al lanzar jupyter 2.3 Abres el panel para conectar local, en la parte superior derecha de colab

2.4 Pegas el token, copiado anteriormente, reemplazando el que sale por defecto

2.5 Con pandas lees el .txt en la ubicación local donde se encuentra ubicado

Para el flatten haces el list comprehension doble que enseño el profe

Giovany samaca

student•

gracias @dlesmes

JUAN CARLOS QUELCA VELASQUEZ

student•

Excelente muy didáctico y clara la explicación

Henry Mendiburu Díaz

student•

Una alternativa en NumPy para FLATTEN

Corpus = np.array(corpus)
Flatten = Corpus.flatten()

Sergio Fernandez

student•

No me funcionó, utilicé esto pero:

import numpy as np
np_corpus = np.array(corpus, dtype=object)
np_flatten = np.hstack(np_corpus)
print(np_flatten)
print(np_flatten.shape)

Alejandro López

student•

Por el momento nada nuevo, la potencia de las list comprehension. Y con split se tokeniza texto. Sigo bien con el IDLE nativo de python y mi ambiente virtual.

Gabriel Missael Barco

student•

Configurara ambiente de trabajo

nltk ya tiene varios corpus y corpora para trabajar 😄. Para usar una, debemos descargarla. Usaremos un corpus en español nltk.download("cess_esp"). Este corpus consiste de titulares de noticas en español.
Se recomienda tomar el curso de expresiones regulares 👀. Python tiene una librería de expresiones regulares llamada re. Las expresiones regulares son un lenguaje estandarizado para definir cadenas de búsqueda de texto.

re - Regular expression operations - Python 3.9.7 documentation
Hay una operación llamada flatten, donde aplanamos una lista, de tal manera que no tenemos una lista de listas, si no una sola lista con una secuencia de tokens larga 👀.

Alejandro Sánchez Yalí

student•

La flatten se puede optimizar un poco con:

import functools
import operator
flatten = functools.reduce(operator.iconcat, corpus, [])

Eber Laurente Lliuyacc

student•

Buen aporte 💪🏽

Gabriel Obregón

student•

🧠Procesamiento de Lenguaje Natural con Python en Google Colab

🌍 1. Introducción

Objetivo principal:

👉 Iniciar en el Procesamiento de Lenguaje Natural (PLN) con Python y Google Colab.

Por qué usar Colab:

✨ 100% en la nube (no necesitas instalar nada).

📦 Incluye librerías como NLTK preinstaladas.

💪 Compatible con GPU y TPU.

🧩 Ideal para análisis de texto y proyectos de machine learning.

💻 2. Primeros pasos en Google Colab

Qué es: Un entorno interactivo tipo Jupyter Notebook para escribir y ejecutar código en tiempo real.

⚙️ Cómo comenzar

🟢 1. Conecta el entorno:

import nltk

➡️ Colab se activará automáticamente (verás un punto verde).

🧠 2. Usa recursos avanzados: Activa GPU o TPU desde Entorno de ejecución → Cambiar tipo de hardware.

📘 3. Aprende más: Curso recomendado → Introducción a Machine Learning (Platzi).

📚 3. Importar y preparar un corpus con NLTK

NLTK = Natural Language Toolkit Permite acceder a corpus de texto como CESS_ESP (titulares en español).

🔹 Descargar corpus

import nltk

nltk.download('cess_esp')

🔹 Cargar y explorar datos

from nltk.corpus import cess_esp as corpus

print(len(corpus.sents())) # Número de frases o titulares

📊 Resultado: sabrás cuántos textos contiene el corpus antes de analizarlos.

🧩 4. Procesamiento básico con expresiones regulares

Expresiones regulares (regex) → detectan patrones en texto. Usan la librería re:

import re

🌀 Aplanar el corpus (listas de listas → lista única)

flatten = [w for l in corpus.sents() for w in l]

print(len(flatten)) # Cantidad total de tokens

👀 Visualizar los primeros tokens

print(flatten[:20])

🔍 Objetivo: entender la estructura del texto tokenizado.

🧠 5. Importancia de las expresiones regulares

⚡ Las regex permiten:

Detectar patrones complejos (fechas, emails, nombres…). Limpiar o normalizar texto.
Extraer información precisa.

📘 Siguiente paso: profundizar con cursos de regex y PLN.

Gabriela Chamorro Legarda

student•

Hola, Veo que el corpus que descargamos para procesar ya tiene palabras unidas por _, en caso de que yo tenga un texto propio como podría agrupar estas palabras para que tengan mas sentido? Por ejemplo: aparece un token "Electricidad_Águila_de_Altamira2, pero si al principio hacemos un split seguro queda "Electricidad Águila de Altamira" serian 6 tokens no uno.

SAMUEL ORTEGA CRUZ

student•

y ¿cómo podría trabajar con mi propia fuente de .txt para analizarlo?

Jhon David Vanegas Guerrero

student•

Hola, no me dejo imprimir ni

print(corpus)

print(len(corpus))

No me permitio imprimirlos, pero sin embargo yo escribi la variable sin el print, la ejecutaba y me soltaba la respuesta del contenido sin problemas, que podra ser?

Lily Alonso

student•

Me encanta, todo muy bien explicado Francisco Lo puedo realizar en Visual Code, muchas gracias

Anthony Ismael Manotoa Moreno

student•

¡Qué gusto que lo estés entendiendo! :D

Si tienes cualquier duda, déjala en los comentarios e intentaremos responderla lo antes posible

Mario Alberto García Meza

teacher•

Hola! Para usarlo con mi propio texto desde un archivo txt, cómo lo tengo que importar con python?

Diego Alejandro Lesmes

student•

Mira acá propuse dos formas, como te quede más fácil

Jefferson Archivos

student•

otras librerías en 2020?

Francisco Camacho

teacher•

puedes seguir revisando estas librerías: Gensim, TextBlob y en particular Spacy y Stanza.

Jhon Freddy Tavera Blandon

student•

Crear el Entorno Virtual Perfeccionar

Sergio Andres Rios Gomez

student•

Estos cursos los deberían hacer con Anaconta, Colab es muy academico y no se utiliza a nivel laboral.

Jhon Freddy Tavera Blandon

student•

Configurar ambiente de trabajo

path = 'dirección/de/tu/archivo.txt'

f = open(path, 'r')
raw = f.read() # Es el archivo en texto puro. No es usable por nltk aún
tokens = nltk.word_tokenize(raw) # Primero se extraen los tokens
text = nltk.Text(tokens) # Se genera el texto a partir de los tokens

# Importamos una biblioteca para expresiones regulares. 
import re
# Definimos un corpus en Python 
corpus = nltk.corpus.cess_esp.sents()
# Vemos de que trata este contenido
print(corpus)
# Vemos el tamaño del nuestro corpus. 
print(len(corpus))

''' Aquí vamos a concatener todas esas sublistas en una lista grande, de modo de que ya no tendremos una lista de listas, si no una sola lista donde están 
todos los titulares seguidos uno tras otro '''  
flatten = [w for l in corpus for w in l]

# Imprimimos una parte de la estructura interna 
print(flatten[:100])

pip install --upgrade jupyter_http_over_ws>=0.0.7 && jupyter serverextension enable --py jupyter_http_over_ws

jupyter notebook --NotebookApp.allow_origin='https://colab.research.google.com' --port=8888 --NotebookApp.port_retries=0

Procesamiento de Lenguaje Natural con Python en Google Colab

Introducción al Procesamiento de Lenguaje Natural

Fundamentos del Procesamiento de Lenguaje Natural con Python y NLTK

Evolución y Técnicas del Procesamiento del Lenguaje Natural

Procesamiento del Lenguaje Natural con Python y NLTK

Fundamentos con NLTK

Procesamiento de Lenguaje Natural con Python en Google Colab

Expresiones Regulares en Python: Patrones de Búsqueda Avanzados

Tokenización de Texto con Expresiones Regulares en Python

Estadística para Procesamiento del Lenguaje: Riqueza Léxica y Métricas

Cálculo de frecuencias con NLTK y diccionarios en Python

Filtrado y Visualización de Frecuencias de Palabras con NLTK y NumPy

Estadísticas de Ennegramas y Colocaciones en Textos

Extracción de Ngramas y Bigramas con NLTK en Python

Análisis de Colocaciones con NLTK y Pandas en Python

Visualización de Colocaciones en Textos con Pandas y Plotly

Identificación de Colocaciones en Textos con NLTK y PMI

Recursos Léxicos: Uso y Aplicación en Procesamiento del Lenguaje

Recursos Léxicos en Python: Vocabularios, Frecuencias y Stopwords

Traducción de palabras con Swadesh en procesamiento de lenguaje natural

Uso de WarNet para Procesamiento del Lenguaje Natural

Análisis de Sinsets e Hipónimos con NLTK y WordNet en Google Colab

Medición de Similitud Semántica con WordNet en Python

Extracción y Procesamiento de Texto desde Páginas Web con NLTK

Organización de Código en Google Colab con Funciones y Módulos

Funciones y Buenas Prácticas en Google Colab y Python

Perspectivas de lo que viene

Fundamentos del Procesamiento del Lenguaje Natural con NLTK