Contenido del curso
Técnicas Tradicionales de NLP para Documentos Empresariales
- 4

Tokenización con NLTK y SpaCy en español
06:51 min - 5

Stemming vs lematización en nubes de palabras
05:07 min - 6

Bag of Words y TF-IDF para representación vectorial de texto
05:32 min - 7

Análisis LDA para detectar temas ocultos en reseñas de texto
03:08 min - 8

Naive Bayes para clasificar reseñas con TF-IDF
07:41 min
Introducción y Profundización en Transformers para Aplicaciones Empresariales
Proyecto Final y Estrategia Comercial B2B
Cómo detectar marcas y lugares con NER
Resumen
El reconocimiento de entidades nombradas, conocido como NER (Named Entity Recognition), te permite detectar y clasificar automáticamente nombres de productos, marcas, lugares y fechas dentro de un texto. Es una técnica clave cuando quieres saber de qué hablan tus usuarios, desde dónde lo hacen y qué productos mencionan, sin tener que leer cada reseña una por una.
¿Qué es NER y para qué sirve en análisis de reseñas?
NER es una tarea de procesamiento de lenguaje natural que identifica entidades dentro de un texto y las clasifica en categorías. En el contexto de un negocio, te ayuda a monitorear menciones de marcas, ubicar regiones donde se habla de tu producto y detectar fechas relevantes para automatizar el análisis posterior.
¿Qué hace exactamente un modelo NER? Lee el texto, encuentra palabras que representan entidades (organizaciones, lugares, productos, fechas) y les asigna una etiqueta con un porcentaje de certeza.
Las tres etiquetas más comunes que vas a ver son:
- ORG: organizaciones, empresas o instituciones.
- LOC: ubicaciones como ciudades, regiones o países.
- MISC: entidades misceláneas como productos, eventos, obras de arte o conceptos abstractos.
¿Cómo implementar NER en español con Hugging Face?
El flujo arranca importando el pipeline de Transformers y definiéndolo con la tarea NER. Como trabajas con reseñas en español, debes elegir un modelo entrenado en ese idioma: en este caso un BERT spanish especializado en NER, que ya trae su propio tokenizer incorporado [01:00].
Una recomendación práctica: cuando trabajes con Transformers, usa GPU siempre que puedas. La diferencia en velocidad es notable, sobre todo si vas a procesar volúmenes grandes de texto.
¿Cómo se interpretan las etiquetas B, I y los hashtags?
Acá viene la parte interesante. Cuando le pasas una reseña como "El producto de Samsung Galaxy S21 llegó el 12 de marzo y superó mis expectativas", el modelo te devuelve un diccionario con varios tokens fragmentados [02:10].
Cada token trae una marca:
- B (begin): indica el inicio de una entidad. Por ejemplo, en
Samarranca una organización con 99 % de certeza. - I (intermediate): marca la continuación de esa entidad.
- # (numeral o hashtag): señala que ese fragmento se une al token anterior sin espacio.
Por eso ves piezas como Sam, ##su, ##ng, Galaxy, S21. Para reconstruir la entidad real, juntas los fragmentos eliminando los hashtags y obtienes Samsung Galaxy S21 como una sola organización.
¿Qué tipos de entidades puede detectar el modelo?
El modelo discrimina según la naturaleza de cada palabra. Veamos cómo se comporta con distintos ejemplos extraídos directamente del flujo de pruebas.
¿Cómo identifica marcas y ubicaciones en una misma frase?
Con la reseña "Compré el portátil HP en Madrid y el servicio de atención al cliente fue excelente", el modelo separa dos entidades [03:30]:
- HP se etiqueta como miscelánea, reconstruida desde los tokens
Hy##P. - Madrid se etiqueta como
LOC, ubicación.
Eso te permite focalizar el análisis en lo que importa: qué producto y dónde, sin procesar todo el texto.
¿Funciona con productos específicos como cámaras o relojes?
Sí. Con "La cámara Canon EOS Rebel tiene una calidad de imagen impresionante", el modelo detecta Canon EOS Rebel como miscelánea. Lo mismo ocurre con "el reloj Casio": identifica Casio como entidad miscelánea, reconociendo el nombre de marca aunque no sea una organización formal en el sentido estricto.
¿Cuál es la diferencia entre ORG y MISC? ORG agrupa empresas e instituciones reconocidas. MISC se usa para productos, modelos, eventos o nombres que no encajan como organización ni como lugar.
¿Puede NER detectar nombres y marcas que salieron recientemente?
Una duda válida: si el modelo se entrenó hace tiempo, ¿reconoce términos nuevos? La prueba se hace con DeepSeek, un modelo de IA que salió hace muy poco [05:00].
Al pasarle una frase con esa palabra, el NER la clasifica como miscelánea sin haberla visto antes en su entrenamiento. ¿Cómo lo logra? Porque no memoriza palabras, sino que aprende patrones contextuales: mayúsculas iniciales, posición en la oración, palabras que la rodean. Eso lo vuelve útil para detectar:
- Trending topics que aparecen en redes sociales.
- Nuevas marcas o startups recién lanzadas.
- Nombres de productos que tu competencia acaba de anunciar.
¿Para qué usar NER en tu empresa? Para automatizar el monitoreo de menciones de marca, identificar fechas clave en reclamos y rastrear nombres emergentes sin revisar texto manualmente.
La potencia real está en combinar la detección con un pipeline de análisis posterior: una vez que tienes las entidades aisladas, puedes contar frecuencias, mapear ubicaciones o cruzarlas con sentimiento. ¿Ya pensaste qué entidades te interesa rastrear en tu producto? Cuéntame en los comentarios.