Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas

Clase 15 de 27Curso de Azure Cognitive Services

Contenido del curso

Resumen

El análisis automático de imágenes se ha convertido en una pieza fundamental para organizaciones que buscan extraer valor de sus activos visuales. El servicio de Visión Computacional de Microsoft (Computer Vision) ofrece un conjunto robusto de capacidades que permiten identificar objetos, personas, texto y mucho más a partir de una simple fotografía. A continuación se exploran sus características principales y los escenarios donde puede aportar mayor valor.

¿Qué permite hacer el servicio de Computer Vision?

Este servicio proporciona acceso a algoritmos que analizan imágenes y devuelven metadata detallada sobre su contenido [0:25]. Entre las capacidades más destacadas se encuentran:

  • Identificar qué tipo de objetos están presentes en la imagen.
  • Generar descripciones automáticas del contexto visual.
  • Asignar tags o etiquetas que categorizan el contenido.
  • Reconocer sitios emblemáticos o landmarks.
  • Detectar personas conocidas o celebridades.
  • Contar cuántas caras aparecen en una fotografía.

Una característica adicional muy potente es el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés). Con esta funcionalidad es posible fotografiar un cartel, un póster o escanear una factura y extraer el texto contenido en la imagen [1:14]. Este texto extraído puede integrarse con otros servicios cognitivos como Text Analytics, lo que permite analizar las palabras principales o determinar si una frase tiene connotación positiva, negativa o neutral [1:35].

¿Cómo se aplica en la administración de activos digitales?

Uno de los usos más relevantes de Computer Vision está relacionado con la administración de activos digitales (Digital Asset Management), que se refiere a la organización y gestión de archivos e imágenes dentro de una organización, incluyendo la gestión de derechos digitales [1:58].

Gracias a este servicio es posible categorizar imágenes de forma automatizada basándose en logotipos, caras, colores y ubicaciones [2:17]. Este mismo principio se aplica en servicios de uso cotidiano: plataformas de almacenamiento en la nube que agrupan fotografías según las personas que aparecen, o redes sociales que sugieren etiquetar a alguien de manera automática [2:30].

¿Qué requisitos deben cumplir las imágenes de entrada?

Todo servicio cognitivo requiere una entrada específica. En el caso de Computer Vision, las imágenes deben cumplir con estos requisitos [2:57]:

  • Formatos aceptados: JPG, PNG, GIF o BMP.
  • Tamaño máximo: 4 megabytes.
  • Resolución mínima: 50 x 50 píxeles para que el servicio pueda extraer metadatos, etiquetas e identificar objetos correctamente.

¿Qué escenarios de uso tiene Computer Vision?

Los escenarios prácticos son amplios y variados [3:30]:

  • Interpretar una imagen y sugerir un título de forma automática.
  • Categorizar imágenes mediante etiquetas para facilitar su almacenamiento y búsqueda.
  • Identificar objetos específicos, como edificios o escenas exteriores, según las etiquetas que resulten más relevantes para cada caso.
  • Integrarse con Cognitive Search, un servicio de búsqueda enriquecida que aprovecha la metadata generada por Computer Vision para potenciar las búsquedas [3:56].

¿Qué otras capacidades ofrece en reconocimiento visual?

Más allá del análisis general, el servicio puede devolver las coordenadas exactas dentro de la imagen donde identifica cada objeto [4:25]. Por ejemplo, al analizar una fotografía en blanco y negro de una ciudad, el servicio reconoce que se trata de un exterior urbano con edificios y señala la posición de cada uno dentro del JSON de respuesta.

Otra funcionalidad valiosa es la detección de marcas. Existe una amplia base de datos de marcas reconocidas a nivel mundial, lo que permite validar si una imagen contiene logotipos registrados [4:48]. Un ejemplo claro sería identificar el logo de Microsoft en la fotografía de una laptop Surface.

Finalmente, el servicio incluye detección de caras [5:13], que va más allá de simplemente contar personas. Permite estimar el rango de edad de cada persona y los sentimientos que está expresando en la fotografía. Esto ofrece insights completos de una imagen con un solo servicio.

Si te interesa conocer cómo implementar estas llamadas y sacar el máximo provecho a Computer Vision, comparte tus dudas y experiencias en los comentarios.