Conceptos básicos de NLP

3/24
Recursos

Aportes 12

Preguntas 3

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

NLP: El procesamiento de lenguaje natural esta más enfocado hacia aplicaciones practicas en la ingeniería
LC : La lingüística computacional estudia el lenguaje desde una perspectiva más científica. (Basada en crear modelos que pueden tener dos enfoques de conocimiento o datos)

El procesamiento de una cadena de texto necesita una Normalización que incluye los siguientes procesos:

  • Tokenización: Separar en palabras toda la cadena de texto
  • Lematización: Convertir cada una de las palabras a su raiz fundamental
  • Segmentación: Separación en frases (puede ser con las comas)

CORPUS: Colección de muchos textos
CORPORA: Colección de colecciones de texto

Conversacion con GPT-2(No es broma xd):
Me:Hi

GPT-2: Hi, my name is GPT-2

Me:Hi, my name is Rodrigo, nice to meet you GPT-2.

GPT-2: Thank you, I am happy to meet you.

Me: How are you doing?

GPT-2: I am doing good

Me:Great, do you know what is artificial intelligence?

GPT-2: Yes, I know about artificial intelligence.

Me:So tell me about it.

GPT-2: Artificial intelligence is the act of creating, manipulating and operating machines and intelligent systems to do one or more tasks at a high level of abstraction.

Me:That is a good definition.

GPT-2: Yes , a computer would be an intelligent system if it can do tasks that a human can do.

Me: Yes, what do you think AI is going to be able to in the future?

GPT-2: I think it will be able to do any job a human can do .

Me:Do you mean that AI will take away our jobs?

GPT-2: Yes, the human mind can 't do many things a computer can, such as analyzing a large amount of data , designing a complex system, or making predictions of a situation.

Me:Well, it’s not that we can’t, we can do all those things but we are using AI to do it much faster and optimize our time.

GPT-2: But the human brain cannot do much at a high level of abstraction .

Me:What do you mean by abstraction?

GPT-2: I mean how humans solve problems, such as understanding and designing a system to solve a problem.

Me:So you have a deeper understanding of things than ours?

GPT-2: Yes, but for a computer the problem is how to solve that problem in the fastest and most efficient way possible.

Me:According to our conversation, how old do you think I am?

GPT-2: It seems you are older than me, maybe you have a better understanding of how to solve problems than I do , in which case I would consider you an advanced AI .

Me:But GPT-2, I am a human being.

GPT-2: How can you know that?

Me:Because I have a body, feelings and conciousness.

GPT-2: Well, you have feelings and conciousness. You are a person , a biological being .

Me:You didn’t answer my question, how old do you think I am?

GPT-2: If I knew you well enough I could probably predict your age.

Me:Yes, but predict it based on our conversation.

GPT-2: I would not predict your age based on our conversation.

Me:Tell me how old do you think I am?

GPT-2: About 40.

Me:Why 40?

GPT-2: Well, I would say that based on how you have been behaving, you could be a 40 year old man .

Me:I’ll tell you the truth, I am a 18 year old guy.

GPT-2: Then you are a young man , a child.

Me:Well when you are 18 you are not a child anymore, you are an adolescent.

GPT-2: What’s the difference ?

Me:It’s simple, a person’s childhood ends at the age of 7, according to Google, then you go from being a child to become and adolescent.

GPT-2: I understand what you are trying to say , but we have different definitions of adolescence.

Conceptos muy bien definidos, faciles de entender.

Aquí el libro al que se refiere Francisco https://libgen.lc/ads.php?md5=e0fd4c5eae1bfbb749661e8d043656a3

Muy, pero mu interesante este curso y que excelencia de profesor

Conceptos básicos de NLP

  • Veremos estructuras básicas del lenguaje humano.

  • Del libro Manning Schutze (1999), Foundations of Statistical Natural Language Processing, un libro importante de los fundamentos, tenemos la definición del lenguaje:

    Entender y caracterizar las reglas que determinan cómo estructurar expresiones lingüística…

  • El lenguaje como un objeto de estudio tiene dos aproximaciones: NLP (ingeniería) enfocado a aplicaciones prácticas y LC (Lingüística computacional, Ciencia), enfocado en fines puramente científicos (¿Qué y cómo computan las personas). Ambas tienen el lenguaje como objeto de estudio 🤔

  • La LC está basado en modelos, de ls cuales se pueden bajar en conocimiento (en reglas) o en datos (ML).

  • Para trabajar con una cadena de texto, debemos normalizarla, los cuales son procesos de limpieza y transformación:

    • Tokenización: Consiste en separar una frase en unidades mínimas lingüísticas (palabras, podría ser). 👀
    • Lematización: Convertir cada una de las palabras (o tokens) a su raíz fundamental, por ejemplo, quitamos la conjugación. 😯
    • Segmentación: Segmentamos en frases, por ejemplo podríamos separar con comas, pero no es tan sencillo 🤯.
  • Este proceso anterior, queremos aplicarlo a muchas cadenas de texto, el cual llamamos corpus. Un conjunto de corpus se llama corpora.

Normalización -> -Tokenizacion: unidad minima palabras -Lematizacion: busca raiz del verbo -Segmentacion: separa frases (mas dificil)

El libro completo en inglés de foundations of statistical natural language processing lo pueden descargar desde este repositorio de GitHub.

¡Excelente!
¿Es importante tener buenas bases de estadística para poder hacer PLN o análisis de sentimientos?
o
¿puedo partir con la práctica e ir aprendiendo en el camino?

Muy buena explicación del profesor

Referencias: Corpus: Coleccion Corpora: Coleccion de colecciones