Introducción al Procesamiento de Lenguaje Natural

1

Procesamiento de Lenguaje Natural con Python y NLTK

2

Creación de chatbots con NLTK y spaCy

3

Procesamiento de Texto con NLTK en Python

Fundamentos con NLTK

4

Procesamiento de Texto en Python con Expresiones Regulares

5

Expresiones Regulares: Patrones de Búsqueda en Texto

6

Tokenización de texto con expresiones regulares en Python

7

Estadísticas en Procesamiento de Lenguaje Natural con Python

8

Diccionarios y Frecuencia de Palabras en Python

9

Análisis de texto con NLTK: Filtrado y visualización de frecuencia

10

Análisis de Ennegramas y Colocaciones en Textos

11

Extracción de N-gramas y Agregación de Frecuencias con NLTK

12

Identificación estadística de colocaciones en textos usando Pandas y NLTK

13

Análisis de Bigramas con Plotly: Visualiza Frecuencias y PMI

14

Extracción de colocaciones en textos usando NLTK

15

Recursos Léxicos en Procesamiento de Lenguaje Natural

16

Recursos Léxicos en Python: Vocabularios y Stopwords

17

Traducción de Palabras con Swadesh en Python

18

Sinsets y su uso en Procesamiento de Lenguaje Natural

19

Sinsets: Uso de WordNet en Python para manejo de sinónimos

20

Medición de Similitud Semántica con WordNet

21

Extracción y preprocesamiento de texto en páginas web HTML

22

Funciones Modulares en Google Colab: Organiza Tu Código Eficientemente

23

Procesamiento de texto con expresiones regulares en Python

Perspectivas de lo que viene

24

Modelos de Clasificación de Texto: Análisis de Sentimientos

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Análisis de Ennegramas y Colocaciones en Textos

10/24
Recursos

¿Qué son los ennegramas y cómo se utilizan en el procesamiento de texto?

Los ennegramas son una herramienta fundamental en el procesamiento del lenguaje natural, crucial para analizar y entender el texto de manera más efectiva. Son secuencias de n palabras consecutivas en un texto, donde n puede ser dos o más. Los ennegramas permiten extraer patrones y tendencias que pueden ser utilizados para realizar análisis de texto más precisos. Vamos a explorar algunos ejemplos y su implementación básica en Python.

Ejemplos de ennegramas: bigramas y trigramas

Los bigramas son un tipo específico de ennegramas donde n es igual a dos, es decir, son secuencias de dos palabras consecutivas en un texto. Por ejemplo, en la frase "estoy aprendiendo cosas increíbles", podemos extraer los siguientes bigramas:

bigramas = [("estoy", "aprendiendo"), ("aprendiendo", "cosas"), ("cosas", "increíbles")]

Por otro lado, los trigramas son secuencias de tres palabras consecutivas. De la misma frase, podemos obtener:

trigramas = [("estoy", "aprendiendo", "cosas"), ("aprendiendo", "cosas", "increíbles")]

Estos son solo ejemplos simples para ilustrar cómo se forman los ennegramas. Se pueden construir estructuras más complejas como tetragramas o pentagramas según se necesite.

¿Qué son las colocaciones en lingüística?

Las colocaciones son asociaciones de palabras que suelen aparecer juntas con más frecuencia de la que se esperaría en base a su uso independiente. Son fenómenos lingüísticos que no siguen reglas gramaticales explícitas, pero se observan debido a tendencias culturales y de uso en un lenguaje dado.

Ejemplos ilustrativos de colocaciones

Para entender las colocaciones, consideremos las siguientes frases:

  1. "Le dieron ganas de dormir" frente a "Le introdujeron ganas de dormir": Aunque ambas frases buscan transmitir la misma idea, la primera suena más natural en muchas versiones del español en Latinoamérica. Esto es un ejemplo de colocación, ya que "dieron" y "ganas de dormir" suelen ir juntas por razones culturales, no gramaticales.

  2. "Ventilar secretos": En algunos países hispanohablantes, esta expresión se usa para referirse a contar secretos que no deberían divulgarse. Aunque "ventilar" en un contexto formal tiene otro significado, la combinación se ha normalizado en el lenguaje coloquial.

Estas colocaciones reflejan el uso cultural de las palabras y requieren un entendimiento profundo del contexto para ser identificadas correctamente.

¿Cómo se pueden identificar colocaciones con programación?

Identificar colocaciones de manera precisa es un desafío debido a su naturaleza cultural y no gramatical. Sin embargo, mediante herramientas estadísticas y programación, es posible reconocer patrones numéricos que indican la presencia de colocaciones. Este proceso implica el uso de modelos matemáticos para analizar la frecuencia y contexto de las palabras.

Algunas de las técnicas más comunes incluyen:

  • Frecuencia de palabras: Analizar cuántas veces aparecen ciertas palabras en un texto.
  • Análisis de co-ocurrencia: Medir cómo y con qué frecuencia palabras específicas aparecen juntas.
  • Modelos de lenguaje probabilístico: Emplear algoritmos que calculen la probabilidad de que ciertas palabras aparezcan juntas más allá de lo esperable por azar.

Las estadísticas y el aprendizaje automático son aliados poderosos para este tipo de análisis, permitiendo a las máquinas aprender y predecir patrones lingüísticos complejos. Así, podemos descubrir colocaciones de manera más sistemática y útil para diversas aplicaciones en procesamiento de textos.

Aportes 11

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Esta clase me recordó a cuando estudiaba colocaciones en la gramática del ingles, en las que una preposición, adverbio, adjetivo, sustantivo o verbo, sonaba mejor con alguna palabra a la que estuviera de alguna manera enlazada y en general era la forma mas aceptada.
Ejemplo:
Incorrecta: it depends of you
Correcta: it depends on you
Interesante momento para aplicar este conocimiento.

El lenguaje es TAN complejo cuando ves estos ejemplos… Qué increíble todo lo que hay que hacer para explicarle a un computador algo que nosotros entendemos tan “naturalmente”.

N-gramas y colocaciones del lenguaje

  • ¿Qué es un N-grama? Es una secuencia de N palabras consecutivas. Por ejemplo, un digrama serían dos palabras consecutivas. 👀
  • ¿Qué son las colocaciones? Las colocaciones de una palabra son sentencias que indican los lugares que acostumbra a tomar esa palabra en el lenguaje (sin seguir las reglas del lenguaje). 🎚️
    • Por ejemplo, se escucha bien le dieron ganas de dormir pero se escucha raro le introdujeron ganas de dormir.

“le dieron ganas de dormir”. es mucho mas corto y facil decir “dieron” que la palabra “introdujeron”. Si tiene explicación, la pereza y el siempre buscar la forma mas facil de hacer algo

💚
“Las colocaciones de una palabra son sentencias que indican los lugares que esa palabra acostumbra a tomar en el lenguaje (sin seguir las reglas del lenguaje)”

En lingüística, una colocación es una combinación estable de palabras que se emplea de manera preferente, en lugar de otras también posibles, para referirse a un determinado objeto o estado de cosas de la realidad extralingüística. Se trata de combinaciones como vino tinto, pronunciar un discurso, asquerosamente rico o fracasar estrepitosamente, que a cualquier hablante nativo le resultan conocidas, pero que, como veremos, no son en modo alguno evidentes.
BLOG DE LENGUA

# **N-gramas** Un **n-grama** es una secuencia de **n** elementos (palabras o caracteres) consecutivos en un texto. Los n-gramas permiten capturar relaciones entre palabras, lo cual es útil para comprender patrones, estructuras y contexto dentro de los textos. # **Colocaciones** Una **colocación** es un conjunto de dos o más palabras que aparecen juntas con una frecuencia mayor de lo esperado por azar. A diferencia de los n-gramas, que solo consideran la secuencia de palabras, las colocaciones identifican combinaciones que tienen un significado especial cuando se usan juntas.

Yo he sido profesor de inglés por mucho tiempo, y este es un tema difícil (cuando aprendí inglés también me costó mucho), ya que tendemos a traducir directamente desde nuestra lengua nativa L1. Algunas colocaciones que se me ocurren en este momento:

be interested in
be focused on
be good at
look forward to
think about/of
worry about
agree on
be fed up with
Etc.

Qué interesante ver cómo dos disciplinas se pueden mezclar de esta manera.

Con este curso me introdujeron ganas de aprender…
ja

ja

venitlé un secreto

  • N-gramas

    Son la frecuencia de ocurrencia para palabras, es decir una secuencia de palabras conseecutivas

    • Bi-gramas

    • Tri-gramas

  • Colocaciones

    Son las palabras que en una sentencia tienden a usarse, esta ligado a la cultura y no hay una regla en el lenguaje formar

Definición n-gramas