No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

16 Días
3 Hrs
32 Min
54 Seg

Naive Bayes en Python: preparación de los datos

22/26
Recursos

Aportes 4

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Librerías para NLP

NLTK: Esta es la lib con la que todos empiezan, sirve mucho para pre-procesamiento, crear los tokens, stemming, POS tagging, etc
https://www.nltk.org/

TextBlob: fue creada encima de NLYK y es fácil de usar. Incluye algunas funcionalidades adicionales como análisis de sentimiento y spell check.
https://textblob.readthedocs.io/en/dev/

Gensim: contruida específicamente para modelado de temas e incluye multiples técnicas (LDA y LSI). También calcula similitud de documentos.
https://radimrehurek.com/gensim/

SpaCy: Puede hacer muchísimas cosas al estilo de NLTK pero es bastante más rápido.
https://spacy.io/

Yo use adapte el código de la clase de SPAM para diferenciar entre textos de diseño y técnicos, conseguí un 88% de eficiencia, me pregunto si conseguiré mas con el código de las siguientes clases.

from sklearn.feature\_extraction.text import CountVectorizerfrom sklearn.model\_selection import train\_test\_splitfrom sklearn.naive\_bayes import MultinomialNBfrom sklearn.metrics import accuracy\_score \# Datos de ejemplodocuments = \['Este es un documento de ejemplo',             'El clima es agradable hoy',             'Spam correo electrónico está llegando',             'Este es un mensaje importante, no es spam'] labels = \['ham', 'ham', 'spam', 'ham'] vectorizer = CountVectorizer()X = vectorizer.fit\_transform(documents)y = labels X\_train, X\_test, y\_train, y\_test = train\_test\_split(X, y, test\_size=0.2, random\_state=42) classifier = MultinomialNB()classifier.fit(X\_train, y\_train) y\_pred = classifier.predict(X\_test)accuracy = accuracy\_score(y\_test, y\_pred) print(f'Precisión del modelo: {accuracy:.2f}')

Excelente