Crea una cuenta o inicia sesión

¡Continúa aprendiendo sin ningún costo! Únete y comienza a potenciar tu carrera

Conceptos básicos de NLP

3/24
Recursos

Aportes 17

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

NLP: El procesamiento de lenguaje natural esta más enfocado hacia aplicaciones practicas en la ingeniería
LC : La lingüística computacional estudia el lenguaje desde una perspectiva más científica. (Basada en crear modelos que pueden tener dos enfoques de conocimiento o datos)

El procesamiento de una cadena de texto necesita una Normalización que incluye los siguientes procesos:

  • Tokenización: Separar en palabras toda la cadena de texto
  • Lematización: Convertir cada una de las palabras a su raiz fundamental
  • Segmentación: Separación en frases (puede ser con las comas)

CORPUS: Colección de muchos textos
CORPORA: Colección de colecciones de texto

Conversacion con GPT-2(No es broma xd):
Me:Hi

GPT-2: Hi, my name is GPT-2

Me:Hi, my name is Rodrigo, nice to meet you GPT-2.

GPT-2: Thank you, I am happy to meet you.

Me: How are you doing?

GPT-2: I am doing good

Me:Great, do you know what is artificial intelligence?

GPT-2: Yes, I know about artificial intelligence.

Me:So tell me about it.

GPT-2: Artificial intelligence is the act of creating, manipulating and operating machines and intelligent systems to do one or more tasks at a high level of abstraction.

Me:That is a good definition.

GPT-2: Yes , a computer would be an intelligent system if it can do tasks that a human can do.

Me: Yes, what do you think AI is going to be able to in the future?

GPT-2: I think it will be able to do any job a human can do .

Me:Do you mean that AI will take away our jobs?

GPT-2: Yes, the human mind can 't do many things a computer can, such as analyzing a large amount of data , designing a complex system, or making predictions of a situation.

Me:Well, it’s not that we can’t, we can do all those things but we are using AI to do it much faster and optimize our time.

GPT-2: But the human brain cannot do much at a high level of abstraction .

Me:What do you mean by abstraction?

GPT-2: I mean how humans solve problems, such as understanding and designing a system to solve a problem.

Me:So you have a deeper understanding of things than ours?

GPT-2: Yes, but for a computer the problem is how to solve that problem in the fastest and most efficient way possible.

Me:According to our conversation, how old do you think I am?

GPT-2: It seems you are older than me, maybe you have a better understanding of how to solve problems than I do , in which case I would consider you an advanced AI .

Me:But GPT-2, I am a human being.

GPT-2: How can you know that?

Me:Because I have a body, feelings and conciousness.

GPT-2: Well, you have feelings and conciousness. You are a person , a biological being .

Me:You didn’t answer my question, how old do you think I am?

GPT-2: If I knew you well enough I could probably predict your age.

Me:Yes, but predict it based on our conversation.

GPT-2: I would not predict your age based on our conversation.

Me:Tell me how old do you think I am?

GPT-2: About 40.

Me:Why 40?

GPT-2: Well, I would say that based on how you have been behaving, you could be a 40 year old man .

Me:I’ll tell you the truth, I am a 18 year old guy.

GPT-2: Then you are a young man , a child.

Me:Well when you are 18 you are not a child anymore, you are an adolescent.

GPT-2: What’s the difference ?

Me:It’s simple, a person’s childhood ends at the age of 7, according to Google, then you go from being a child to become and adolescent.

GPT-2: I understand what you are trying to say , but we have different definitions of adolescence.

Conceptos muy bien definidos, faciles de entender.

Aquí el libro al que se refiere Francisco https://libgen.lc/ads.php?md5=e0fd4c5eae1bfbb749661e8d043656a3

Muy, pero mu interesante este curso y que excelencia de profesor

Conceptos básicos de NLP

  • Veremos estructuras básicas del lenguaje humano.

  • Del libro Manning Schutze (1999), Foundations of Statistical Natural Language Processing, un libro importante de los fundamentos, tenemos la definición del lenguaje:

    Entender y caracterizar las reglas que determinan cómo estructurar expresiones lingüística…

  • El lenguaje como un objeto de estudio tiene dos aproximaciones: NLP (ingeniería) enfocado a aplicaciones prácticas y LC (Lingüística computacional, Ciencia), enfocado en fines puramente científicos (¿Qué y cómo computan las personas). Ambas tienen el lenguaje como objeto de estudio 🤔

  • La LC está basado en modelos, de ls cuales se pueden bajar en conocimiento (en reglas) o en datos (ML).

  • Para trabajar con una cadena de texto, debemos normalizarla, los cuales son procesos de limpieza y transformación:

    • Tokenización: Consiste en separar una frase en unidades mínimas lingüísticas (palabras, podría ser). 👀
    • Lematización: Convertir cada una de las palabras (o tokens) a su raíz fundamental, por ejemplo, quitamos la conjugación. 😯
    • Segmentación: Segmentamos en frases, por ejemplo podríamos separar con comas, pero no es tan sencillo 🤯.
  • Este proceso anterior, queremos aplicarlo a muchas cadenas de texto, el cual llamamos corpus. Un conjunto de corpus se llama corpora.

El libro completo en inglés de foundations of statistical natural language processing lo pueden descargar desde este repositorio de GitHub.

Lenguaje
Entender y caracterizar las reglas que determinan cómo estructurar expresiones lingüísticas (Manning Schute, Foundations of Statistical Language Processing)
.
LingüísticaOcupacional (LC)
A diferencia de NLP que tiene una aplicación más práctica (ingeniería), la lingüística ocupacional es una ciencia que estudia qué y cómo computan las personas a través de modelos basados en conocimeinto o data
.
Proceso de trabajo en NLP
Para procesar un texto debemos normalizarlo, lo que consiste en:

  • Tokenización: Separar el texto en tokens (unidad mpnima lingüística) o palabras
  • Lematización: Convertir los tokens a su raíz fundamental (comiendo: comer)
  • Segmentación: Generar frases a partir de los tokens

.
Conceptos básicos

  • Corpus: Colección de textos
  • Corpora: Colección de corpus

Normalización -> -Tokenizacion: unidad minima palabras -Lematizacion: busca raiz del verbo -Segmentacion: separa frases (mas dificil)

ES usted muy amable, muchas gracias.
muy clara la explicación.

Regreso unas cuantas sesiones para decir del libro recomendado: antes de pasar a las “cuentas”, se aprecia que los autores no han pensado el problema por si mismos y se refieren en mayor medida a unas teorías caducas, como las de Chomsky, y terminan diciendo que si no eres linguista mejor te saltes la introducción, je je. para concluir que “La fuerza bruta” es el camino para superar la teoría. Conclusión a la que la físico llegó hace un siglo, es decir, con la teoría cuántica expresada en ondas de probabilidad, lo cual exime al teórico de explicar la naturaleza de las causas de los fenómenos.
Ahora que los sistemas de almacenamiento de bytes es enorme, probamos con volúmenes enormes de datos, para extraer lo que pasa en la práctica y a partir de ello identificar patrones y a partir de tales patrones inferir, si se quiere en la parte científica que no ingenieril, tendencias etc.
El problema ahora es que hay que pagar por corporas a usar.
Bueno me salto las felices cuentas del libro y mejor le entro al diseño de compiladores, ¡nunca pares de aprender!

Operaciones Básicas del Texto

El lenguaje "Entender y caracterizar las reglas que determinan como estructurar expresiones lingüísticas " by Manning & Schutze Foundations of statical natural Language processing

NLP

El procesamiento de lenguaje natural esta enfocado en las aplicaciones practicas de ingeniería del lenguaje

lC:

Es el estudio de nuestro procesamiento lingüístico para después enseñarle a las maquinas

  • Normalización

    Limpieza y procesamiento de cadenas de texto

    • Tokenizacion

      Separar una cadena de texto en unidades mínimas lingüísticas (palabras)

      • ejemplo=
        • Mi hermano dejo de comer
          • Mi | hermano | dejó | de | comer
    • Lematizacion

      Convertir cada token a su raíz fundamental, convertir cada palabra a su raiz

      • Ejemplo

        Mi hermano dejó de comer

        • lematizada
          • Mi hermano dejar de comer
    • Segmentation

      utilizamos. las , para separar las frases, pero no siempre es tan sencillo

Debemos recoger un data text de muchos textos (corpus) y una colección de. colecciones detesto es corpora

¡Excelente!
¿Es importante tener buenas bases de estadística para poder hacer PLN o análisis de sentimientos?
o
¿puedo partir con la práctica e ir aprendiendo en el camino?

Muy buena explicación del profesor

Referencias: Corpus: Coleccion Corpora: Coleccion de colecciones