Jhon Freddy Tavera Blandon
Conceptos más importantes NLP
Tokenización
Definición: Proceso de dividir un texto en unidades más pequeñas, como palabras o frases. Estas unidades se llaman tokens.
Ejemplo: La frase "El gato negro" puede ser tokenizada en ["El", "gato", "negro"].
Uso: Es el primer paso en la mayoría de las tareas de NLP, ya que facilita el análisis posterior del texto.
Stemming y Lematización
Stemming: Es el proceso de reducir una palabra a su raíz o "stem". Se hace eliminando sufijos o prefijos. Ejemplo: "corriendo", "corre" → "corr".
Lematización: Similar al stemming, pero más avanzado. Se basa en encontrar la forma base o lema de una palabra, teniendo en cuenta el contexto gramatical. Ejemplo: "corriendo" → "correr".
Uso: Estas técnicas se usan para reducir la complejidad del análisis del lenguaje, unificando variaciones de una palabra a su forma base.
Stopwords
Definición: Son palabras comunes como "el", "la", "de", que no aportan mucho valor semántico en el análisis de texto.
Uso: En muchas aplicaciones de NLP, estas palabras son eliminadas para centrarse en términos más relevantes para el análisis.
Frecuencia de Palabras (TF-IDF)
TF (Term Frequency): Es la frecuencia con la que aparece un término en un documento.
IDF (Inverse Document Frequency): Es una medida que disminuye el peso de los términos comunes y aumenta el peso de los términos raros.
TF-IDF: Combina ambas medidas para destacar las palabras más importantes en un documento, en comparación con otras en una colección de textos.
Part-of-Speech Tagging (POS Tagging)
Definición: Es el proceso de etiquetar cada palabra de un texto con su tipo gramatical, como sustantivo, verbo, adjetivo, etc.
Uso: POS Tagging ayuda a entender la estructura gramatical de una oración y permite realizar análisis más profundos, como la identificación de nombres, acciones, o descripciones.
N-grams
Definición: Son secuencias de N palabras consecutivas en un texto. Por ejemplo, un bigram sería una secuencia de dos palabras ("gato negro"), un trigram sería una secuencia de tres palabras.
Uso: Los N-grams se utilizan para modelar el contexto en el que aparecen las palabras, lo que es útil en aplicaciones como la predicción de texto o la detección de frases comunes.
Análisis Sintáctico (Parsing)
Definición: Es el proceso de analizar la estructura gramatical de una oración, es decir, cómo las palabras se relacionan entre sí para formar oraciones válidas.
Árboles Sintácticos: Representan las relaciones jerárquicas entre palabras en una oración, ayudando a comprender la estructura interna de una frase.
Uso: Parsing es esencial para tareas que requieren entender cómo las palabras interactúan a nivel gramatical.
Semántica
Definición: Se refiere al significado de las palabras y oraciones. El análisis semántico trata de capturar el significado de los textos más allá de la sintaxis.
Ejemplo: La frase "El gato negro" se puede analizar sintácticamente, pero su significado (un animal con un color específico) es una cuestión semántica.
Uso: Es importante en tareas como la extracción de información, donde se necesita comprender el contenido del texto.
Named Entity Recognition (NER)
Definición: Es el proceso de identificar y clasificar entidades mencionadas en un texto, como nombres de personas, lugares, organizaciones, fechas, etc.
Ejemplo: En la oración "Bill Gates fundó Microsoft en 1975", "Bill Gates" sería reconocido como una persona, "Microsoft" como una organización y "1975" como una fecha.
Uso: Es clave en la extracción de información y en aplicaciones como el análisis de noticias o la detección de eventos.
Análisis de Sentimientos
Definición: Es el proceso de determinar si un texto expresa una opinión positiva, negativa o neutral.
Ejemplo: "Me encanta este producto" sería etiquetado como positivo, mientras que "No me gustó el servicio" sería negativo.
Uso: Muy utilizado en análisis de redes sociales, encuestas de clientes, y monitoreo de marca.
Embeddings de Palabras
Definición: Son representaciones vectoriales de palabras que capturan su significado en un espacio numérico. Word2Vec, GloVe, y FastText son ejemplos de algoritmos populares para generar embeddings.
Uso: Los embeddings permiten que las palabras con significados similares tengan representaciones vectoriales cercanas, lo que mejora el rendimiento en tareas como la clasificación de texto y el modelado de lenguaje.
Modelos de Lenguaje
Definición: Un modelo de lenguaje predice la probabilidad de una secuencia de palabras. Los modelos como GPT-3 y BERT han avanzado significativamente en este campo.
Uso: Estos modelos son la base para muchas tareas modernas de NLP, como la generación de texto, traducción automática y chatbots.
![Curso de NLP con Python y NLTK [Empieza Gratis]](https://static.platzi.com/media/courses/Opengraph-Fundamentos-Procesamiento-Lenguaje-Natural-Python.png)