Text Analytics: Extracción y Análisis de Texto en Documentos

Clase 5 de 27 • Curso de Azure Cognitive Services

Contenido del curso

Introducción

Lenguaje

Voz

Visión

LUIS

Conclusiones

27
Servicios Cognitivos en Azure: Conceptos y Aplicaciones
00:49 min

Tomar examen

Resumen

Analizar texto de forma automática para extraer ideas clave, detectar idiomas, reconocer entidades y evaluar sentimientos ya no requiere construir modelos desde cero. Text Analytics, uno de los servicios cognitivos de Azure, ofrece estas cuatro capacidades como un modelo de inteligencia artificial preentrenado, listo para consumirse a través de un API REST o mediante SDKs. A continuación se explica cómo funciona, cuáles son sus límites y de qué manera integrarlo en tus proyectos.

¿Qué características ofrece Text Analytics?

Text Analytics agrupa cuatro funcionalidades principales que se pueden invocar de manera independiente [0:27]:

Extracción de frases clave: identifica las key phrases o ideas más importantes dentro de un texto, similar a subrayar ideas principales en un documento.
Detección de idioma: determina con un porcentaje de confianza en qué idioma está escrito el texto enviado. Incluso si el contenido mezcla varios idiomas, el servicio señala cuál es el idioma predominante [1:10].
Reconocimiento de entidades: clasifica elementos del texto en categorías como fechas, lugares, personas u organizaciones, soportando hasta veinte tipos distintos de entidades [1:30].
Análisis de sentimientos: evalúa si una frase tiene connotación positiva, negativa o neutral, devolviendo los porcentajes asociados a cada categoría [1:55].

Estas capacidades pueden combinarse con otros servicios cognitivos. Por ejemplo, se puede usar OCR para convertir una imagen en texto y luego pasar ese resultado por Text Analytics, o bien convertir voz a texto y después analizarlo [2:12].

¿Cómo es el flujo de trabajo típico para consumir el servicio?

El proceso sigue un patrón sencillo porque los servicios cognitivos son modelos preentrenados que no requieren personalización inicial [2:55]:

Crear el recurso de Text Analytics en Azure y obtener la llave de suscripción y el endpoint [3:40].
Enviar un request en formato JSON con el texto a analizar hacia el endpoint del servicio.
Recibir la respuesta en JSON y manipular los resultados en tu aplicación.

Un concepto importante es que los servicios cognitivos son idempotentes [4:15]: cada vez que envías los mismos parámetros de entrada obtienes el mismo resultado. Además, la respuesta no se almacena en el servicio; funciona como un servicio stateless donde no se guarda estado de sesión.

¿Es necesario saber programar para usar Text Analytics?

No. Aunque el servicio se expone como un API REST, también puede integrarse con herramientas low-code como Power Automate, Microsoft Flow o Power BI [4:50]. Por ejemplo, podrías extraer información de Excel, enviarla a Text Analytics mediante un flujo automatizado y visualizar los sentimientos de los comentarios directamente en un dashboard. La aplicación Intelligent Kiosk también permite probar el servicio sin escribir código [5:20].

¿Cuáles son los límites de tamaño y frecuencia?

Es fundamental conocer las restricciones antes de diseñar una solución [5:45]:

Cada solicitud admite un máximo de 5,120 caracteres. Si el texto es más extenso, debe dividirse en fragmentos más pequeños.
El tamaño máximo del request completo es de 1 MB.
En la capa gratuita solo se permite una instancia por suscripción.
En capas estándar, la frecuencia varía: S1 permite 200 requests por segundo y 300 por minuto, mientras que S3 y S4 soportan hasta 1,000 por segundo y 1,000 por minuto [6:30].

Cuando se alcanza el límite de requests por minuto, el servicio devuelve un error de tipo too many requests y es necesario esperar al siguiente minuto para que el contador se reinicie [7:00].

¿Qué estrategias ayudan a manejar los límites del servicio?

Una técnica común en programación es implementar un balanceador de carga con estrategia round robin [7:15]. La idea es distribuir las peticiones entre múltiples endpoints de servicios cognitivos para evitar que un solo recurso se sature y alcance el límite de frecuencia.

Para textos extensos, la recomendación es segmentar el contenido en partes más pequeñas. En Text Analytics, un documento se define simplemente como una cadena de caracteres de texto que se envía dentro del request [7:45].

Si ya tienes curiosidad por ver estos conceptos aplicados, comparte en los comentarios qué caso de uso te gustaría explorar primero con Text Analytics.

Comentarios

Carlos Daniel Revetti Narvaez

student•

Procesamiento de texto:

Extracción de texto: identifica palabras y temas claves.
Detección de idiomas: reconoce los idiomas utilizados y trabaja en base al de mayor porcentaje.
Reconocimiento de entidades: extrae mas de 20 tipos de identidades en los distintos idiomas.
Analisis de sentimientos: reconocimiento de sentimiento (positivo y/o negativo).

¿Qué son las identidades?

Jesús Ignacio García Fernández

student•

Flujo de trabajo típico

Se envían datos para sus análisis.
Se controla el resultado en el código.
Los analizadores se consumen tal cual, sin configuración o personalización adicional.

Los servicios cognitivos son modelos de inteligencia artificial preentrenados

Crea un recurso (servicio) en Azure del tipo Text Analytics y obtén la llave de suscripción.
Formula una solicitud en JSON que contenga los datos a analizar (parámetro de entrada)
Envía el request POST al endpoint.
Almacena y analiza la respuesta como un formato JSON

Flexibilidad de uso

Para utilizar Text Analytics no requiere mucha experiencia en programación.

Algunos escenarios incluyen:

Extracción de información utilizando Excel y Power Automate.
Uso de Text Analytics y Microsoft Flow.
Integración con Power BI para analizar comentarios.

Límites de tamaño y de frecuencia

Tamaño

Tamaño máximo de un documento individual.
- 5120 carecteres medidos por StringInfo.LengthInTextElements.
Tamaño máximo de un documento individual (punto de conexión de analyse).
- 125000 caracteres medidos por StringInfo.LenghtInTextElements.
Tamaño máximo de la solicitud completa.
- 1 MB.

Frecuencia

Nivel: S / Varios servicios
- S/seg 1000
- S/min 1000
Nivel: S0 / F0
- S/seg 100
- S/min 300
Nivel: S1
- S/seg 200
- S/min 300
Nivel: S2
- S/seg 300
- S/min 300
Nivel: S3
- S/seg 500
- S/min 500
Nivel: S4
- S/seg 1000
- S/min 1000

Notas

Si necesitas analizar documentos con un tamaño superior al límite, considera dividir el texto en fragmentos más pequeños antes de enviarlos a la API
Un documento es una sola cadena de caracteres de texto.

Jesús Ignacio García Fernández

student•

Procesamiento de texto

¿Qué es Azure Text Analytics?

Extracción de fases clave
- Identifica temas y palabras claves en los documentos analizados (equivalente textos subrayados en la escuela)
Detección de idioma
- Reconoce el idioma utilizado Emigh el texto, soportando hasta más de 100 idiomas (idioma predominante)
Reconocimiento de entidades
- Extrae más de 20 tipo de entidades en diferentes idiomas
Análisis de sentimientos
- Reconocimiento de sentimientos para identificar que tan positivo o negativo resulta el texto analizado

Usos

Imagen a texto
voz a texto
otros

Herramientas

SDK
API
Contenedores

Ricardo Gomez

student•

Esta opción es excelente, lo probé en la pagina del leaf de Microsoft

Juan Pablo Lagos Idrobo

student•

Con estas herramientas se hace mas fácil las tareas.

Luis Carlos Zapata García

student•

No hay que saber programar para usar este servicio cognitivo.

Text Analytics: Extracción y Análisis de Texto en Documentos

Introducción

Servicios Cognitivos de Microsoft: Implementación Práctica

Uso de Servicios Cognitivos de Microsoft en Aplicaciones

Configuración de Ambiente para Servicios Cognitivos en Azure

Seguridad y Autenticación en Servicios Cognitivos de Azure

Lenguaje