Crea una cuenta o inicia sesi贸n

隆Contin煤a aprendiendo sin ning煤n costo! 脷nete y comienza a potenciar tu carrera

Conceptos b谩sicos de NLP

3/24
Recursos

Aportes 17

Preguntas 3

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

NLP: El procesamiento de lenguaje natural esta m谩s enfocado hacia aplicaciones practicas en la ingenier铆a
LC : La ling眉铆stica computacional estudia el lenguaje desde una perspectiva m谩s cient铆fica. (Basada en crear modelos que pueden tener dos enfoques de conocimiento o datos)

El procesamiento de una cadena de texto necesita una Normalizaci贸n que incluye los siguientes procesos:

  • Tokenizaci贸n: Separar en palabras toda la cadena de texto
  • Lematizaci贸n: Convertir cada una de las palabras a su raiz fundamental
  • Segmentaci贸n: Separaci贸n en frases (puede ser con las comas)

CORPUS: Colecci贸n de muchos textos
CORPORA: Colecci贸n de colecciones de texto

Conversacion con GPT-2(No es broma xd):
Me:Hi

GPT-2: Hi, my name is GPT-2

Me:Hi, my name is Rodrigo, nice to meet you GPT-2.

GPT-2: Thank you, I am happy to meet you.

Me: How are you doing?

GPT-2: I am doing good

Me:Great, do you know what is artificial intelligence?

GPT-2: Yes, I know about artificial intelligence.

Me:So tell me about it.

GPT-2: Artificial intelligence is the act of creating, manipulating and operating machines and intelligent systems to do one or more tasks at a high level of abstraction.

Me:That is a good definition.

GPT-2: Yes , a computer would be an intelligent system if it can do tasks that a human can do.

Me: Yes, what do you think AI is going to be able to in the future?

GPT-2: I think it will be able to do any job a human can do .

Me:Do you mean that AI will take away our jobs?

GPT-2: Yes, the human mind can 't do many things a computer can, such as analyzing a large amount of data , designing a complex system, or making predictions of a situation.

Me:Well, it鈥檚 not that we can鈥檛, we can do all those things but we are using AI to do it much faster and optimize our time.

GPT-2: But the human brain cannot do much at a high level of abstraction .

Me:What do you mean by abstraction?

GPT-2: I mean how humans solve problems, such as understanding and designing a system to solve a problem.

Me:So you have a deeper understanding of things than ours?

GPT-2: Yes, but for a computer the problem is how to solve that problem in the fastest and most efficient way possible.

Me:According to our conversation, how old do you think I am?

GPT-2: It seems you are older than me, maybe you have a better understanding of how to solve problems than I do , in which case I would consider you an advanced AI .

Me:But GPT-2, I am a human being.

GPT-2: How can you know that?

Me:Because I have a body, feelings and conciousness.

GPT-2: Well, you have feelings and conciousness. You are a person , a biological being .

Me:You didn鈥檛 answer my question, how old do you think I am?

GPT-2: If I knew you well enough I could probably predict your age.

Me:Yes, but predict it based on our conversation.

GPT-2: I would not predict your age based on our conversation.

Me:Tell me how old do you think I am?

GPT-2: About 40.

Me:Why 40?

GPT-2: Well, I would say that based on how you have been behaving, you could be a 40 year old man .

Me:I鈥檒l tell you the truth, I am a 18 year old guy.

GPT-2: Then you are a young man , a child.

Me:Well when you are 18 you are not a child anymore, you are an adolescent.

GPT-2: What鈥檚 the difference ?

Me:It鈥檚 simple, a person鈥檚 childhood ends at the age of 7, according to Google, then you go from being a child to become and adolescent.

GPT-2: I understand what you are trying to say , but we have different definitions of adolescence.

Conceptos muy bien definidos, faciles de entender.

Aqu铆 el libro al que se refiere Francisco https://libgen.lc/ads.php?md5=e0fd4c5eae1bfbb749661e8d043656a3

Muy, pero mu interesante este curso y que excelencia de profesor

Encontr茅 el libro Foundations of Statistical NLP

Conceptos b谩sicos de NLP

  • Veremos estructuras b谩sicas del lenguaje humano.

  • Del libro Manning Schutze (1999), Foundations of Statistical Natural Language Processing, un libro importante de los fundamentos, tenemos la definici贸n del lenguaje:

    Entender y caracterizar las reglas que determinan c贸mo estructurar expresiones ling眉铆stica鈥

  • El lenguaje como un objeto de estudio tiene dos aproximaciones: NLP (ingenier铆a) enfocado a aplicaciones pr谩cticas y LC (Ling眉铆stica computacional, Ciencia), enfocado en fines puramente cient铆ficos (驴Qu茅 y c贸mo computan las personas). Ambas tienen el lenguaje como objeto de estudio 馃

  • La LC est谩 basado en modelos, de ls cuales se pueden bajar en conocimiento (en reglas) o en datos (ML).

  • Para trabajar con una cadena de texto, debemos normalizarla, los cuales son procesos de limpieza y transformaci贸n:

    • Tokenizaci贸n: Consiste en separar una frase en unidades m铆nimas ling眉铆sticas (palabras, podr铆a ser). 馃憖
    • Lematizaci贸n: Convertir cada una de las palabras (o tokens) a su ra铆z fundamental, por ejemplo, quitamos la conjugaci贸n. 馃槸
    • Segmentaci贸n: Segmentamos en frases, por ejemplo podr铆amos separar con comas, pero no es tan sencillo 馃く.
  • Este proceso anterior, queremos aplicarlo a muchas cadenas de texto, el cual llamamos corpus. Un conjunto de corpus se llama corpora.

El libro completo en ingl茅s de foundations of statistical natural language processing lo pueden descargar desde este repositorio de GitHub.

Lenguaje
Entender y caracterizar las reglas que determinan c贸mo estructurar expresiones ling眉铆sticas (Manning Schute, Foundations of Statistical Language Processing)
.
Ling眉铆sticaOcupacional (LC)
A diferencia de NLP que tiene una aplicaci贸n m谩s pr谩ctica (ingenier铆a), la ling眉铆stica ocupacional es una ciencia que estudia qu茅 y c贸mo computan las personas a trav茅s de modelos basados en conocimeinto o data
.
Proceso de trabajo en NLP
Para procesar un texto debemos normalizarlo, lo que consiste en:

  • Tokenizaci贸n: Separar el texto en tokens (unidad mpnima ling眉铆stica) o palabras
  • Lematizaci贸n: Convertir los tokens a su ra铆z fundamental (comiendo: comer)
  • Segmentaci贸n: Generar frases a partir de los tokens

.
Conceptos b谩sicos

  • Corpus: Colecci贸n de textos
  • Corpora: Colecci贸n de corpus

Normalizaci贸n -> -Tokenizacion: unidad minima palabras -Lematizacion: busca raiz del verbo -Segmentacion: separa frases (mas dificil)

ES usted muy amable, muchas gracias.
muy clara la explicaci贸n.

Regreso unas cuantas sesiones para decir del libro recomendado: antes de pasar a las 鈥渃uentas鈥, se aprecia que los autores no han pensado el problema por si mismos y se refieren en mayor medida a unas teor铆as caducas, como las de Chomsky, y terminan diciendo que si no eres linguista mejor te saltes la introducci贸n, je je. para concluir que 鈥淟a fuerza bruta鈥 es el camino para superar la teor铆a. Conclusi贸n a la que la f铆sico lleg贸 hace un siglo, es decir, con la teor铆a cu谩ntica expresada en ondas de probabilidad, lo cual exime al te贸rico de explicar la naturaleza de las causas de los fen贸menos.
Ahora que los sistemas de almacenamiento de bytes es enorme, probamos con vol煤menes enormes de datos, para extraer lo que pasa en la pr谩ctica y a partir de ello identificar patrones y a partir de tales patrones inferir, si se quiere en la parte cient铆fica que no ingenieril, tendencias etc.
El problema ahora es que hay que pagar por corporas a usar.
Bueno me salto las felices cuentas del libro y mejor le entro al dise帽o de compiladores, 隆nunca pares de aprender!

Operaciones B谩sicas del Texto

El lenguaje "Entender y caracterizar las reglas que determinan como estructurar expresiones ling眉铆sticas " by Manning & Schutze Foundations of statical natural Language processing

NLP

El procesamiento de lenguaje natural esta enfocado en las aplicaciones practicas de ingenier铆a del lenguaje

lC:

Es el estudio de nuestro procesamiento ling眉铆stico para despu茅s ense帽arle a las maquinas

  • Normalizaci贸n

    Limpieza y procesamiento de cadenas de texto

    • Tokenizacion

      Separar una cadena de texto en unidades m铆nimas ling眉铆sticas (palabras)

      • ejemplo=
        • Mi hermano dejo de comer
          • Mi | hermano | dej贸 | de | comer
    • Lematizacion

      Convertir cada token a su ra铆z fundamental, convertir cada palabra a su raiz

      • Ejemplo

        Mi hermano dej贸 de comer

        • lematizada
          • Mi hermano dejar de comer
    • Segmentation

      utilizamos. las , para separar las frases, pero no siempre es tan sencillo

Debemos recoger un data text de muchos textos (corpus) y una colecci贸n de. colecciones detesto es corpora

隆Excelente!
驴Es importante tener buenas bases de estad铆stica para poder hacer PLN o an谩lisis de sentimientos?
o
驴puedo partir con la pr谩ctica e ir aprendiendo en el camino?

Muy buena explicaci贸n del profesor

Referencias: Corpus: Coleccion Corpora: Coleccion de colecciones