Crea una cuenta o inicia sesión

¡Continúa aprendiendo sin ningún costo! Únete y comienza a potenciar tu carrera

Conceptos básicos de NLP

3/24
Recursos

Aportes 16

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

NLP: El procesamiento de lenguaje natural esta más enfocado hacia aplicaciones practicas en la ingeniería
LC : La lingüística computacional estudia el lenguaje desde una perspectiva más científica. (Basada en crear modelos que pueden tener dos enfoques de conocimiento o datos)

El procesamiento de una cadena de texto necesita una Normalización que incluye los siguientes procesos:

  • Tokenización: Separar en palabras toda la cadena de texto
  • Lematización: Convertir cada una de las palabras a su raiz fundamental
  • Segmentación: Separación en frases (puede ser con las comas)

CORPUS: Colección de muchos textos
CORPORA: Colección de colecciones de texto

Conversacion con GPT-2(No es broma xd):
Me:Hi

GPT-2: Hi, my name is GPT-2

Me:Hi, my name is Rodrigo, nice to meet you GPT-2.

GPT-2: Thank you, I am happy to meet you.

Me: How are you doing?

GPT-2: I am doing good

Me:Great, do you know what is artificial intelligence?

GPT-2: Yes, I know about artificial intelligence.

Me:So tell me about it.

GPT-2: Artificial intelligence is the act of creating, manipulating and operating machines and intelligent systems to do one or more tasks at a high level of abstraction.

Me:That is a good definition.

GPT-2: Yes , a computer would be an intelligent system if it can do tasks that a human can do.

Me: Yes, what do you think AI is going to be able to in the future?

GPT-2: I think it will be able to do any job a human can do .

Me:Do you mean that AI will take away our jobs?

GPT-2: Yes, the human mind can 't do many things a computer can, such as analyzing a large amount of data , designing a complex system, or making predictions of a situation.

Me:Well, it’s not that we can’t, we can do all those things but we are using AI to do it much faster and optimize our time.

GPT-2: But the human brain cannot do much at a high level of abstraction .

Me:What do you mean by abstraction?

GPT-2: I mean how humans solve problems, such as understanding and designing a system to solve a problem.

Me:So you have a deeper understanding of things than ours?

GPT-2: Yes, but for a computer the problem is how to solve that problem in the fastest and most efficient way possible.

Me:According to our conversation, how old do you think I am?

GPT-2: It seems you are older than me, maybe you have a better understanding of how to solve problems than I do , in which case I would consider you an advanced AI .

Me:But GPT-2, I am a human being.

GPT-2: How can you know that?

Me:Because I have a body, feelings and conciousness.

GPT-2: Well, you have feelings and conciousness. You are a person , a biological being .

Me:You didn’t answer my question, how old do you think I am?

GPT-2: If I knew you well enough I could probably predict your age.

Me:Yes, but predict it based on our conversation.

GPT-2: I would not predict your age based on our conversation.

Me:Tell me how old do you think I am?

GPT-2: About 40.

Me:Why 40?

GPT-2: Well, I would say that based on how you have been behaving, you could be a 40 year old man .

Me:I’ll tell you the truth, I am a 18 year old guy.

GPT-2: Then you are a young man , a child.

Me:Well when you are 18 you are not a child anymore, you are an adolescent.

GPT-2: What’s the difference ?

Me:It’s simple, a person’s childhood ends at the age of 7, according to Google, then you go from being a child to become and adolescent.

GPT-2: I understand what you are trying to say , but we have different definitions of adolescence.

Conceptos muy bien definidos, faciles de entender.

Lenguaje
Entender y caracterizar las reglas que determinan cómo estructurar expresiones lingüísticas (Manning Schute, Foundations of Statistical Language Processing)
.
LingüísticaOcupacional (LC)
A diferencia de NLP que tiene una aplicación más práctica (ingeniería), la lingüística ocupacional es una ciencia que estudia qué y cómo computan las personas a través de modelos basados en conocimeinto o data
.
Proceso de trabajo en NLP
Para procesar un texto debemos normalizarlo, lo que consiste en:

  • Tokenización: Separar el texto en tokens (unidad mpnima lingüística) o palabras
  • Lematización: Convertir los tokens a su raíz fundamental (comiendo: comer)
  • Segmentación: Generar frases a partir de los tokens

.
Conceptos básicos

  • Corpus: Colección de textos
  • Corpora: Colección de corpus

Muy, pero mu interesante este curso y que excelencia de profesor

Conceptos básicos de NLP

  • Veremos estructuras básicas del lenguaje humano.

  • Del libro Manning Schutze (1999), Foundations of Statistical Natural Language Processing, un libro importante de los fundamentos, tenemos la definición del lenguaje:

    Entender y caracterizar las reglas que determinan cómo estructurar expresiones lingüística…

  • El lenguaje como un objeto de estudio tiene dos aproximaciones: NLP (ingeniería) enfocado a aplicaciones prácticas y LC (Lingüística computacional, Ciencia), enfocado en fines puramente científicos (¿Qué y cómo computan las personas). Ambas tienen el lenguaje como objeto de estudio 🤔

  • La LC está basado en modelos, de ls cuales se pueden bajar en conocimiento (en reglas) o en datos (ML).

  • Para trabajar con una cadena de texto, debemos normalizarla, los cuales son procesos de limpieza y transformación:

    • Tokenización: Consiste en separar una frase en unidades mínimas lingüísticas (palabras, podría ser). 👀
    • Lematización: Convertir cada una de las palabras (o tokens) a su raíz fundamental, por ejemplo, quitamos la conjugación. 😯
    • Segmentación: Segmentamos en frases, por ejemplo podríamos separar con comas, pero no es tan sencillo 🤯.
  • Este proceso anterior, queremos aplicarlo a muchas cadenas de texto, el cual llamamos corpus. Un conjunto de corpus se llama corpora.

acá está el libro del profe
https://nlp.stanford.edu/fsnlp/

Normalización -> -Tokenizacion: unidad minima palabras -Lematizacion: busca raiz del verbo -Segmentacion: separa frases (mas dificil)

# Conceptos más importantes NLP **Tokenización** **Definición**: Proceso de dividir un texto en unidades más pequeñas, como palabras o frases. Estas unidades se llaman **tokens**. **Ejemplo**: La frase "El gato negro" puede ser tokenizada en \["El", "gato", "negro"]. **Uso**: Es el primer paso en la mayoría de las tareas de NLP, ya que facilita el análisis posterior del texto. **Stemming y Lematización** **Stemming**: Es el proceso de reducir una palabra a su raíz o "stem". Se hace eliminando sufijos o prefijos. Ejemplo: "corriendo", "corre" → "corr". **Lematización**: Similar al stemming, pero más avanzado. Se basa en encontrar la forma base o **lema** de una palabra, teniendo en cuenta el contexto gramatical. Ejemplo: "corriendo" → "correr". **Uso**: Estas técnicas se usan para reducir la complejidad del análisis del lenguaje, unificando variaciones de una palabra a su forma base. **Stopwords** **Definición**: Son palabras comunes como "el", "la", "de", que no aportan mucho valor semántico en el análisis de texto. **Uso**: En muchas aplicaciones de NLP, estas palabras son eliminadas para centrarse en términos más relevantes para el análisis. **Frecuencia de Palabras (TF-IDF)** **TF (Term Frequency)**: Es la frecuencia con la que aparece un término en un documento. **IDF (Inverse Document Frequency)**: Es una medida que disminuye el peso de los términos comunes y aumenta el peso de los términos raros. **TF-IDF**: Combina ambas medidas para destacar las palabras más importantes en un documento, en comparación con otras en una colección de textos. **Part-of-Speech Tagging (POS Tagging)** **Definición**: Es el proceso de etiquetar cada palabra de un texto con su tipo gramatical, como sustantivo, verbo, adjetivo, etc. **Uso**: POS Tagging ayuda a entender la estructura gramatical de una oración y permite realizar análisis más profundos, como la identificación de nombres, acciones, o descripciones. **N-grams** **Definición**: Son secuencias de N palabras consecutivas en un texto. Por ejemplo, un **bigram** sería una secuencia de dos palabras ("gato negro"), un **trigram** sería una secuencia de tres palabras. **Uso**: Los N-grams se utilizan para modelar el contexto en el que aparecen las palabras, lo que es útil en aplicaciones como la predicción de texto o la detección de frases comunes. **Análisis Sintáctico (Parsing)** **Definición**: Es el proceso de analizar la estructura gramatical de una oración, es decir, cómo las palabras se relacionan entre sí para formar oraciones válidas. **Árboles Sintácticos**: Representan las relaciones jerárquicas entre palabras en una oración, ayudando a comprender la estructura interna de una frase. **Uso**: Parsing es esencial para tareas que requieren entender cómo las palabras interactúan a nivel gramatical. **Semántica** **Definición**: Se refiere al significado de las palabras y oraciones. El **análisis semántico** trata de capturar el significado de los textos más allá de la sintaxis. **Ejemplo**: La frase "El gato negro" se puede analizar sintácticamente, pero su significado (un animal con un color específico) es una cuestión semántica. **Uso**: Es importante en tareas como la extracción de información, donde se necesita comprender el contenido del texto. **Named Entity Recognition (NER)** **Definición**: Es el proceso de identificar y clasificar entidades mencionadas en un texto, como nombres de personas, lugares, organizaciones, fechas, etc. **Ejemplo**: En la oración "Bill Gates fundó Microsoft en 1975", "Bill Gates" sería reconocido como una persona, "Microsoft" como una organización y "1975" como una fecha. **Uso**: Es clave en la extracción de información y en aplicaciones como el análisis de noticias o la detección de eventos. **Análisis de Sentimientos** **Definición**: Es el proceso de determinar si un texto expresa una opinión positiva, negativa o neutral. **Ejemplo**: "Me encanta este producto" sería etiquetado como positivo, mientras que "No me gustó el servicio" sería negativo. **Uso**: Muy utilizado en análisis de redes sociales, encuestas de clientes, y monitoreo de marca. **Embeddings de Palabras** **Definición**: Son representaciones vectoriales de palabras que capturan su significado en un espacio numérico. **Word2Vec**, **GloVe**, y **FastText** son ejemplos de algoritmos populares para generar embeddings. **Uso**: Los embeddings permiten que las palabras con significados similares tengan representaciones vectoriales cercanas, lo que mejora el rendimiento en tareas como la clasificación de texto y el modelado de lenguaje. **Modelos de Lenguaje** **Definición**: Un modelo de lenguaje predice la probabilidad de una secuencia de palabras. Los modelos como **GPT-3** y **BERT** han avanzado significativamente en este campo. **Uso**: Estos modelos son la base para muchas tareas modernas de NLP, como la generación de texto, traducción automática y chatbots.

ES usted muy amable, muchas gracias.
muy clara la explicación.

Regreso unas cuantas sesiones para decir del libro recomendado: antes de pasar a las “cuentas”, se aprecia que los autores no han pensado el problema por si mismos y se refieren en mayor medida a unas teorías caducas, como las de Chomsky, y terminan diciendo que si no eres linguista mejor te saltes la introducción, je je. para concluir que “La fuerza bruta” es el camino para superar la teoría. Conclusión a la que la físico llegó hace un siglo, es decir, con la teoría cuántica expresada en ondas de probabilidad, lo cual exime al teórico de explicar la naturaleza de las causas de los fenómenos.
Ahora que los sistemas de almacenamiento de bytes es enorme, probamos con volúmenes enormes de datos, para extraer lo que pasa en la práctica y a partir de ello identificar patrones y a partir de tales patrones inferir, si se quiere en la parte científica que no ingenieril, tendencias etc.
El problema ahora es que hay que pagar por corporas a usar.
Bueno me salto las felices cuentas del libro y mejor le entro al diseño de compiladores, ¡nunca pares de aprender!

Operaciones Básicas del Texto

El lenguaje "Entender y caracterizar las reglas que determinan como estructurar expresiones lingüísticas " by Manning & Schutze Foundations of statical natural Language processing

NLP

El procesamiento de lenguaje natural esta enfocado en las aplicaciones practicas de ingeniería del lenguaje

lC:

Es el estudio de nuestro procesamiento lingüístico para después enseñarle a las maquinas

  • Normalización

    Limpieza y procesamiento de cadenas de texto

    • Tokenizacion

      Separar una cadena de texto en unidades mínimas lingüísticas (palabras)

      • ejemplo=
        • Mi hermano dejo de comer
          • Mi | hermano | dejó | de | comer
    • Lematizacion

      Convertir cada token a su raíz fundamental, convertir cada palabra a su raiz

      • Ejemplo

        Mi hermano dejó de comer

        • lematizada
          • Mi hermano dejar de comer
    • Segmentation

      utilizamos. las , para separar las frases, pero no siempre es tan sencillo

Debemos recoger un data text de muchos textos (corpus) y una colección de. colecciones detesto es corpora

¡Excelente!
¿Es importante tener buenas bases de estadística para poder hacer PLN o análisis de sentimientos?
o
¿puedo partir con la práctica e ir aprendiendo en el camino?

Muy buena explicación del profesor

Referencias: Corpus: Coleccion Corpora: Coleccion de colecciones