Cursos Empresas Blog Live Conf Precios

Clasificación de Texto con Machine Learning

Clase 1 de 26 • Curso de Algoritmos de Clasificación de Texto

Contenido del curso

Desambiguación y etiquetado de palabras

Modelos Markovianos Latentes (HMM)

Algoritmo de Viterbi

Modelos Markovianos de máxima entropía (MEMM)

Clasificación de texto con NLTK

Implementación de un modelo de clasificación de texto

Resumen

Resolver la ambigüedad del lenguaje humano es uno de los retos más fascinantes del procesamiento de lenguaje natural. Cuando una máquina recibe un texto, necesita entender que una misma palabra puede cambiar completamente de significado según el contexto que la rodea. Este segundo curso de NLP, guiado por Francisco Camacho, se enfoca en aplicar modelos de machine learning a la clasificación de textos, partiendo de las bases construidas con NLTK en el curso anterior.

¿Por qué el lenguaje humano es tan difícil de procesar para las máquinas?

El lenguaje humano es difuso y dependiente del contexto [0:44]. Para nosotros, distinguir significados es casi automático, pero para un algoritmo representa un problema complejo. Consideremos el ejemplo clásico: "Debo ir al banco para retirar dinero" frente a "¿Te puedes sentar en ese banco para descansar?" [1:07]. La misma palabra refiere en un caso a una entidad financiera y en otro a un asiento. Esta capacidad de una palabra para adoptar múltiples significados es lo que se conoce como ambigüedad del lenguaje.

Otro ejemplo revelador aparece con la palabra noble [1:41]: "Mi hermano es una persona muy noble" la convierte en un adjetivo que describe una cualidad. Pero en "El noble del castillo no quiere ayudar a su pueblo", funciona como sustantivo, refiriéndose a alguien de la realeza. Estas diferencias están vinculadas a lo que en gramática llamamos categorías gramaticales.

¿Cuántos tipos de ambigüedad existen en el lenguaje?

Se identifican al menos tres tipos principales [2:30]:

Ambigüedad por agrupamiento: depende de cómo se agrupan las palabras. "Pepe vio a Pablo enfurecido" cambia de sentido con una simple coma: "Pepe vio a Pablo, enfurecido".
Ambigüedad funcional: no puede resolverse solo con el texto. "La gallina está lista para comer" admite dos lecturas —la gallina come o alguien come la gallina— y necesita contexto externo para desambiguarse [3:13].
Ambigüedad léxica: depende de la categoría gramatical que adquiere una palabra según su contexto, como el ejemplo de "noble" [4:04].

En este curso, el foco está en las ambigüedades de tipo léxico, porque son las que los algoritmos de machine learning pueden atacar al analizar el contexto textual que rodea cada palabra.

¿Qué es Part of Speech tagging y cómo funciona?

El problema central que se aborda es el etiquetado POS (Part of Speech), que consiste en asignar a cada palabra su categoría gramatical correcta: verbo, sustantivo, adjetivo, determinante, entre otras [4:28]. Para ilustrarlo, se utiliza la API de Google Natural Language, que ofrece una versión demo en línea donde se puede analizar cualquier texto.

Al introducir la frase "El noble del castillo" en la API [5:16], el sistema devuelve etiquetas como:

DET (determinant): para "el".
NOUN (noun): para "noble".
ADP (adposition): para "del".
NOUN: para "castillo".

Estas etiquetas siguen una convención universal que se estudia con más detalle a lo largo del curso. Lo importante es que la API demuestra que es posible construir sistemas que identifiquen automáticamente la función gramatical de cada palabra.

¿Por qué no empezar directamente con deep learning?

La API de Google utiliza modelos de aprendizaje profundo (deep learning) de última generación [6:07]. Sin embargo, antes de llegar a redes neuronales, es fundamental comprender los algoritmos base que las preceden. Este curso comienza con modelos que no involucran redes neuronales pero que siguen siendo muy potentes para tareas de clasificación.

¿Qué aplicaciones tiene la clasificación de texto en el mundo real?

Las aplicaciones del etiquetado y la clasificación de texto son amplias [6:30]:

Mejorar motores de búsqueda y plataformas de e-commerce.
Automatizar CRMs de forma eficiente.
Implementar sistemas de moderación de contenido en redes sociales.
Ordenar datos no estructurados, transformando texto libre en información procesable.

Este curso se posiciona como el segundo bloque dentro del roadmap de NLP, incorporando NLTK junto con herramientas como SpaCy [7:00]. Si te interesa construir tus propios modelos de clasificación de texto en Python, comparte qué tipo de ambigüedad te resulta más desafiante y cómo la resolverías.

Obtén respuestas inmediatasProfundiza lo que acabas de ver

Comentarios

Pablo Rosa

student•

un grande el profe

Joel Eduardo Gaspar

student•

Tengo la intención de desarrollar un chatbot-asistente para un proyecto personal. Me supongo que las bases que se adquieren en el curso y anterior y éste son de ayuda para dicho propósito, no?

Miguel Angel Velazquez Romero

student•

No, este curso es para aprender como funcionan y después crearlos o implementar nuevas soluciones más aficientes. Para desarrollar, están los servicios adiministrados como Google Dialogflow o IBM Watson.

Jorge Francesco Ferdinand Meza Mallma

student•

¿Cómo te fue?

Marcelo Sánchez

student•

Grande profe, espero que este curso este tan bueno como el anterior :)

Humberto Guardado

student•

ütz ninna' wetamanik chi runa'onik ri mayab' ch'ab'al. Me parece bien aprender estas técnicas para aplicarlas en mis estudios de idiomas mayas.

oscar CHH

student•

Me ilucioné no se puede ver el vídeo

Jorge Francesco Ferdinand Meza Mallma

student•

Intenta si se puede

Nico Quiroz

student•

Empezamos! :)

Matias Alexander Ibarra Trujillo

student•

Al fiiiiin

Daniel Enrique Astudillo Guzmán

student•

Siii por fiiin :D

Francisco Garcia [C6]

student•

Excelente, que interesante

Christian Sanclemente

student•

Muy interesante.

Juan Ventrone

student•

OOOHHHHHHHHHHH!! SIIIII QUE BESTIAL!!!!, QUE SUPER ENGANCHADO CON EL PRIMERO!!!!

Juan Ventrone

student•

Que bestial!, yo quede super emocionado con el primero!!

Maximiliano Sancari

student•

Grande Camacho!!

Gabriel Obregón

student•

🧠Procesamiento de Lenguaje Natural (PLN)

🎓 1️⃣ ¿Qué aprenderás en este curso?

🔹 Adentrarte en el mundo del Procesamiento de Lenguaje Natural (PLN).

🔹 Aplicar machine learning al análisis de texto.

🔹 Construir modelos para clasificación de texto.

🔹 Comprender y resolver la ambigüedad del lenguaje.

🔹 Aprender cómo las máquinas interpretan el contexto humano.

🎯 Objetivo: Obtener herramientas prácticas para crear aplicaciones que procesen y comprendan el lenguaje humano.

💬 2️⃣ ¿Por qué el lenguaje humano es ambiguo?

🌀 El lenguaje humano no siempre tiene un solo significado. Una misma palabra puede representar cosas diferentes según el contexto.

Ejemplo:

👉 “Voy al banco a sacar dinero.”

👉 “Nos sentamos en el banco del parque.”

➡️ Banco tiene dos significados distintos.

🔍 Tipos de ambigüedad

✳️ Por agrupamiento: depende de la puntuación o estructura.
✳️ Funcional: se entiende solo con el contexto.
✳️ Léxica: una palabra cambia de categoría gramatical según su uso.

💡 Desafío para las máquinas: interpretar estas diferencias sin información adicional.

🧩 3️⃣ Resolución de ambigüedades gramaticales

🧠 Meta: Asignar la etiqueta correcta a cada palabra según su contexto.

Herramientas y pasos:

⚙️ Uso de la API de Google de PLN para analizar oraciones.
📊 Ejemplos prácticos con resultados reales.
🧮 Inicio con algoritmos simples (sin redes neuronales).
🤖 Posterior avance hacia el deep learning.

Fabian Mauricio Siza Paladines

student•

que mal toca inscirbir tarjeta con dinero o no dejara la prueba gratis del cloud :/

Brayan Buitrago

student•

Viendo que eres de Colombia, podrías usar la app de Nequi, es fácil sacar una tarjeta virtual allí, la recargas con 5mil y ya queda funcional para registrarse en las pruebas gratuitas de diferentes plataformas

Samuel Zurisaday Rivera Bravo

student•

La **desambiguación** en el contexto de los algoritmos de clasificación de texto en Python se refiere al proceso de resolver ambigüedades en el significado de palabras o frases dentro de un texto. Esto es especialmente importante en tareas de procesamiento de lenguaje natural (NLP), donde una misma palabra puede tener múltiples significados dependiendo del contexto.

### Ejemplo de ambigüedad:

La palabra "banco" puede referirse a:

1. Una entidad financiera (ej: "Depositó dinero en el banco").

2. Un mueble para sentarse (ej: "Se sentó en el banco del parque").

3. Un conjunto de datos (ej: "banco de imágenes").

### Desambiguación en clasificación de texto:

En los algoritmos de clasificación de texto, la desambiguación ayuda a mejorar la precisión del modelo al asegurarse de que las palabras se interpreten correctamente según el contexto. Esto puede lograrse mediante técnicas como:

1. **Análisis del contexto**: Usar palabras circundantes para inferir el significado correcto.

2. **Uso de embeddings contextuales**: Modelos como BERT o GPT generan representaciones de palabras que dependen del contexto, lo que ayuda a resolver ambigüedades.

3. **Reglas o diccionarios**: Definir reglas basadas en el dominio o usar diccionarios de sinónimos y significados.

### Ejemplo en Python:

Supongamos que queremos clasificar un texto que contiene la palabra "banco". Podemos usar un modelo preentrenado como BERT para desambiguar:


from transformers import pipeline



\# Cargar un modelo de desambiguación (por ejemplo, BERT)

nlp = pipeline("fill-mask", model="bert-base-uncased")



\# Texto de ejemplo

texto = "Depositó dinero en el banco."



\# Desambiguar la palabra "banco"

resultados = nlp(f"Depositó dinero en el {nlp.tokenizer.mask\_token}.")

for resultado in resultados:

&#x20;   print(f"Palabra: {resultado\['token\_str']}, Puntuación: {resultado\['score']}")

En este caso, el modelo podría asignar una alta probabilidad a "banco" como entidad financiera, dado el contexto.

### Aplicaciones:

- Clasificación de documentos.

- Análisis de sentimientos.

- Traducción automática.

- Sistemas de preguntas y respuestas.

En resumen, la desambiguación es crucial para mejorar la precisión y efectividad de los algoritmos de clasificación de texto en Python, especialmente en tareas complejas de NLP.

Jhon Freddy Tavera Blandon

student•

Tipos de Desambiguación:

Desambiguación de Palabras: Se centra en palabras que tienen más de un significado (polisemia). Por ejemplo, "banco" puede referirse a una entidad financiera o a un lugar para sentarse.

Desambiguación de Sentido: Se refiere a determinar el significado correcto de una frase o expresión que puede ser interpretada de varias maneras.

Métodos de Desambiguación:

Desambiguación Basada en Reglas: Utiliza un conjunto de reglas lingüísticas para determinar el significado correcto. Esto puede incluir el análisis sintáctico y semántico del texto.

Desambiguación Estadística: Se basa en modelos probabilísticos que utilizan corpus de texto grandes para aprender qué significados son más probables en ciertos contextos.

Desambiguación Supervisada: Utiliza algoritmos de aprendizaje automático, entrenados con ejemplos etiquetados, para predecir el significado correcto.

Desambiguación No Supervisada: Utiliza técnicas como agrupamiento o aprendizaje profundo sin necesidad de ejemplos etiquetados.

Técnicas y Algoritmos:

Word Sense Disambiguation (WSD): Algoritmos específicos para resolver la ambigüedad de palabras, como el algoritmo de Lesk.

Word Embeddings: Representaciones vectoriales de palabras que capturan sus significados en función del contexto. Modelos como Word2Vec y GloVe son ejemplos.

Aplicaciones:

Motores de Búsqueda: Mejora la precisión de los resultados al entender el contexto de la consulta.

Asistentes Virtuales: Permiten una mejor comprensión del lenguaje natural al interpretar correctamente las intenciones del usuario.

Traducción Automática: Ayuda a traducir palabras con múltiples significados de manera más precisa.

Kenyi Julberht Hancco Quispe

student•

wow, que interesante estará todo esto

Diego Alejandro Hernandez Londono

student•

Pero entonces sería más bien, el pollo está listo para comer

Carlos Arturo López Sánchez

student•

hola soy nuevo xd