Curso de Algoritmos de Clasificación de Texto

Curso de Algoritmos de Clasificación de Texto

Instruido por:
Francisco Camacho
Francisco Camacho
Avanzado
5 horas de contenido
Ver la ruta de aprendizaje
Sistema de clasificación de textos
Proyecto del curso
Sistema de clasificación de textos

Con todo lo aprendido en el curso podrás crear tu propio sistema para clasificar tanto palabras, frases y documentos. Así podrás saber el grupo léxico al que pertenecen, su género e identificar si un mensaje es spam o no.

Curso de Algoritmos de Clasificación de Texto

Curso de Algoritmos de Clasificación de Texto

Progreso del curso:0/26contenidos(0%)

Contenido del Curso
Tutoriales de estudiantes
Preguntas de estudiantes

Progreso del curso:0/26contenidos(0%)

Desambiguación y etiquetado de palabras

Material Thumbnail

Introducción a la desambiguación

09:56 min

Material Thumbnail

Etiquetado rápido en Python: español e inglés

12:10 min

Material Thumbnail

Etiquetado rápido en Python: Stanza (Stanford NLP)

05:59 min

Modelos Markovianos Latentes (HMM)

Material Thumbnail

Cadenas de Markov

10:18 min

Material Thumbnail

Modelos Markovianos latentes (HMM)

08:43 min

Material Thumbnail

Entrenando un HMM

13:25 min

Material Thumbnail

Fases de entrenamiento de un HMM

07:51 min

Material Thumbnail

Entrenando un HMM en Python

12:19 min

Algoritmo de Viterbi

Material Thumbnail

El algoritmo de Viterbi

07:19 min

Material Thumbnail

Cálculo de las probabilidades de Viterbi

09:08 min

Material Thumbnail

Carga del modelo HMM y distribución inicial

14:45 min

Material Thumbnail

Implementación de algoritmo de Viterbi en Python

17:50 min

Material Thumbnail

Entrenamiento directo de HMM con NLTK

12:55 min

Modelos Markovianos de máxima entropía (MEMM)

Material Thumbnail

Modelos Markovianos de máxima entropia (MEMM)

09:14 min

Material Thumbnail

Algoritmo de Viterbi para MEMM

03:51 min

Material Thumbnail

Reto: construye un MEMM en Python

03:23 min

Clasificación de texto con NLTK

Material Thumbnail

El problema general de la clasificación de texto

04:27 min

Material Thumbnail

Tareas de clasificación con NLTK

10:37 min

Material Thumbnail

Modelos de clasificación en Python: nombres

15:32 min

Material Thumbnail

Modelos de clasificación en Python: documentos

19:33 min

Implementación de un modelo de clasificación de texto

Material Thumbnail

Naive Bayes en Python: preparación de los datos

07:43 min

Material Thumbnail

Naive Bayes en Python: construcción del modelo

17:02 min

Material Thumbnail

Naive Bayes en Python: ejecución del modelo

13:40 min

Material Thumbnail

Métricas para algoritmos de clasificación

07:32 min

Material Thumbnail

Reto final: construye un modelo de sentimientos

07:02 min

nuevosmás votadossin responder
carlosarturocarlosarturo
carlosarturocarlosarturo
Estudiante

Yo tengo un dataset, formato csv. Como puedo crear un dataset como el que muestran (.conllu), con mis propios datos ?

0
JAVIER SANTIAGO SALGADO
JAVIER SANTIAGO SALGADO
Estudiante

Me surgió esta pregunta
¿En estos procesos de entrenamiento que tan influyente es el sesgo propio, al clasificar un texto, es decir a mi me parece un comentario X es políticamente incorrecto pero a otra persona quizás no?

0
Jaime Escobar
Jaime Escobar
Estudiante

Hola, me gustaría saber la razón de ese supuesto en la implementación de la solución: por cada contexto ‘word,prevtag’ suman 1.0.

No me queda muy claro

1
Rodrigo Schneer
Rodrigo Schneer
Estudiante

Viendo en Platzi Day, día Domingo 1:07 am 28 de Marzo 2.021. Muchas Gracias a Team Platzi y en especial al profesor Francisco Camacho!

1
Gabriel Salvador
Gabriel Salvador
Estudiante

En el MEMM las probabilidades de viterbi para la primera columna de la matriz son las mismas que en HMM?

1
Juan Jose Tovar
Juan Jose Tovar
Estudiante

¿Por qué al incrementar el numero de datos en el fset de 500 a 2000 o 3000, en vez de mejorar la precisión, ésta empeora?. Creí que el modelo entre mas datos de entrenamiento tuviera mas acertado iba a ser.

1
Javier Guevara
Javier Guevara
Estudiante

Cuando ejecuto el accuracy_test me da un error de inconsistencia en el tamaño de los datos. También corrí el archivo de los enlaces y me da el mismo error.

/usr/local/lib/python3.6/dist-packages/sklearn/utils/validation.pyincheck_consistent_length(*arrays)210if len(uniques) > 1:
    211         raise ValueError("Found input variables with inconsistent numbers of"
--> 212" samples: %r" % [int(l) for l in lengths])
    213214ValueError: Found input variables with inconsistent numbers ofsamples: [518, 1036]```
2
Ariel sharpe
Ariel sharpe
Estudiante

Alguien conoce algún repo. de donde poder sacar muchos mas corpus tipo conllu?

2
Javier Guevara
Javier Guevara
Estudiante

Estoy usando el mismo código de la clase pero obtengo un diccionario vacío para transitionDict. El resto funcional perfecto. ¿Alguien sabe donde está el error?

tagCountDict =  {}
emissionDict =  {}
transitionDict =  {}

tagtype = 'upos'
data_file = open("UD_Spanish-AnCora/es_ancora-ud-dev.conllu", "r", encoding="utf-8")

for tokenlist in parse_incr(data_file):
  fortokenin tokenlist:
    prevtag = None

    # C(tag)
    tag = token[tagtype]
    if tag in tagCountDict.keys():
      tagCountDict[tag] +=1else:
      tagCountDict[tag] = 1# C(word|tag)
    wordtag = token['form'].lower()+'|' + token[tagtype] #(word|tag)if wordtag in emissionDict.keys():
      emissionDict[wordtag] += 1else:
      emissionDict[wordtag] = 1# C(tag|tag(previo)) -> probabilidades transiciónif prevtag is None:
      prevtag = tag
      continue
    
    transitiontags = tag +'|' + prevtag
    if transtiontags in transitionDict.keys():
      transitionDict[transitiontags] = transitionDict[transitiontags] + 1else:
      transitionDict[transitiontags] = 1
    
    prevtag = tag```
0
Javier Guevara
Javier Guevara
Estudiante

A mi me sale este error:

LookupError: 
**********************************************************************
  Resource cess_esp not found.
  Please use the NLTK Downloader to obtain the resource:

  >>> import nltk
  >>> nltk.download('cess_esp')```
0