Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas

Curso de Azure Cognitive Services

Contenido del curso

Introducción

Lenguaje

Voz

Visión

LUIS

Conclusiones

27
Servicios Cognitivos en Azure: Conceptos y Aplicaciones
00:49 min

Tomar examen

Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas

Resumen

El análisis automático de imágenes se ha convertido en una pieza fundamental para organizaciones que buscan extraer valor de sus activos visuales. El servicio de Visión Computacional de Microsoft (Computer Vision) ofrece un conjunto robusto de capacidades que permiten identificar objetos, personas, texto y mucho más a partir de una simple fotografía. A continuación se exploran sus características principales y los escenarios donde puede aportar mayor valor.

¿Qué permite hacer el servicio de Computer Vision?

Este servicio proporciona acceso a algoritmos que analizan imágenes y devuelven metadata detallada sobre su contenido [0:25]. Entre las capacidades más destacadas se encuentran:

Identificar qué tipo de objetos están presentes en la imagen.
Generar descripciones automáticas del contexto visual.
Asignar tags o etiquetas que categorizan el contenido.
Reconocer sitios emblemáticos o landmarks.
Detectar personas conocidas o celebridades.
Contar cuántas caras aparecen en una fotografía.

Una característica adicional muy potente es el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés). Con esta funcionalidad es posible fotografiar un cartel, un póster o escanear una factura y extraer el texto contenido en la imagen [1:14]. Este texto extraído puede integrarse con otros servicios cognitivos como Text Analytics, lo que permite analizar las palabras principales o determinar si una frase tiene connotación positiva, negativa o neutral [1:35].

¿Cómo se aplica en la administración de activos digitales?

Uno de los usos más relevantes de Computer Vision está relacionado con la administración de activos digitales (Digital Asset Management), que se refiere a la organización y gestión de archivos e imágenes dentro de una organización, incluyendo la gestión de derechos digitales [1:58].

Gracias a este servicio es posible categorizar imágenes de forma automatizada basándose en logotipos, caras, colores y ubicaciones [2:17]. Este mismo principio se aplica en servicios de uso cotidiano: plataformas de almacenamiento en la nube que agrupan fotografías según las personas que aparecen, o redes sociales que sugieren etiquetar a alguien de manera automática [2:30].

¿Qué requisitos deben cumplir las imágenes de entrada?

Todo servicio cognitivo requiere una entrada específica. En el caso de Computer Vision, las imágenes deben cumplir con estos requisitos [2:57]:

Formatos aceptados: JPG, PNG, GIF o BMP.
Tamaño máximo: 4 megabytes.
Resolución mínima: 50 x 50 píxeles para que el servicio pueda extraer metadatos, etiquetas e identificar objetos correctamente.

¿Qué escenarios de uso tiene Computer Vision?

Los escenarios prácticos son amplios y variados [3:30]:

Interpretar una imagen y sugerir un título de forma automática.
Categorizar imágenes mediante etiquetas para facilitar su almacenamiento y búsqueda.
Identificar objetos específicos, como edificios o escenas exteriores, según las etiquetas que resulten más relevantes para cada caso.
Integrarse con Cognitive Search, un servicio de búsqueda enriquecida que aprovecha la metadata generada por Computer Vision para potenciar las búsquedas [3:56].

¿Qué otras capacidades ofrece en reconocimiento visual?

Más allá del análisis general, el servicio puede devolver las coordenadas exactas dentro de la imagen donde identifica cada objeto [4:25]. Por ejemplo, al analizar una fotografía en blanco y negro de una ciudad, el servicio reconoce que se trata de un exterior urbano con edificios y señala la posición de cada uno dentro del JSON de respuesta.

Otra funcionalidad valiosa es la detección de marcas. Existe una amplia base de datos de marcas reconocidas a nivel mundial, lo que permite validar si una imagen contiene logotipos registrados [4:48]. Un ejemplo claro sería identificar el logo de Microsoft en la fotografía de una laptop Surface.

Finalmente, el servicio incluye detección de caras [5:13], que va más allá de simplemente contar personas. Permite estimar el rango de edad de cada persona y los sentimientos que está expresando en la fotografía. Esto ofrece insights completos de una imagen con un solo servicio.

Si te interesa conocer cómo implementar estas llamadas y sacar el máximo provecho a Computer Vision, comparte tus dudas y experiencias en los comentarios.

Jesús Ignacio García Fernández

Estudiante

¿Qué es visión computacional?

Proporciona acceso a algoritmos avanzados que procesan imágenes y devuelven información basada en las características visuales de interés.

Servicio: Análisis de imágenes. Descripción: Extrae características visuales de las imágenes, como objetos, caras, contenido para adultos y descripciones de texto generadas automáticamente.
Servicio: Reconocimiento óptico de caracteres (OCR). Descripción: Extrae el texto de las imágenes incluyendo el texto impreso y manuscrito de imágenes y documentos. Usa modelos basados en aprendizaje profundo y funciona con texto en diversas superficies y fondos. Entre estos se incluyen documentos de la empresa, facturas, recibos,pósteres, tarjetas de presentación, cartas y pizarras.

¿Para qué sirve?

Puede ayudar en muchos escenarios de administración de activos digitales (DAM) permitiendo a las empresas la organización, almacenamiento, gestión de permisos y derechos digitales. Ejemplo: Agrupar e identificar imágenes basadas en logotipos, caras, colores, ubicaciones.

Requisitos de imagen

Es necesario que las imágenes cumplan los siguientes requisitos:

Formato JPEG, PNG, GIF o BMP.
El tamaño de la imagen debe ser inferior a 4 MB.
Las dimensiones de la imagen deben ser mayores a 50 x 50 píxeles.

Escenarios de uso

Interpretación de imágenes y sugerencia de título.
Sugerir etiquetas para indexar imágenes.
Categorizar imágenes.
Identificar objetos en las imágenes.
Reconocer personas famosas y sitios emblemáticos en una imagen.
Leer el texto de una imagen.

Descripción de una imagen

Ejemplo: análisis de una imagen del Empire State Building de Nueva York. Resultados del análisis:

Foto en blanco y negro de una ciudad.
Foto en blanco y negro de una ciudad grande.
Edificio blanco grande en una ciudad.

Detección de objetos

Permite devolver las coordenadas de los objetos detectados en una imagen analizada.

Detección de marcas

Permite identificar marcas comerciales utilizando una base de datos existente de miles de logotipos reconocidos globalmente. Ejemplo: 'Microsoft' (Confidence: 68%).

Detección de caras

Permite detectar y analizar caras humanas en una imagen, además, tiene la capacidad de estimar la edad y detectar el área en la imagen donde se localizan caras.

Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas

Introducción

Servicios Cognitivos de Microsoft: Implementación Práctica

Uso de Servicios Cognitivos de Microsoft en Aplicaciones

Configuración de Ambiente para Servicios Cognitivos en Azure

Seguridad y Autenticación en Servicios Cognitivos de Azure

Lenguaje

Text Analytics: Extracción y Análisis de Texto en Documentos

Escenarios de Uso de Servicios Cognitivos en Análisis de Datos

Análisis de Sentimiento con APIs de Azure: Uso y Configuración

Detección de Idiomas con Servicios Cognitivos Azure

Desarrollo de Aplicación de Consola con Text Analytics en C#

Voz

Servicios de Voz en Cognitive Services: Conversión y Aplicaciones

Conversión de Texto a Voz con Azure Cognitive Services

Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio

Implementación de Traducción de Voz en Visual Studio

Implementación de Reconocimiento de Voz con Visual Studio

Visión