Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas

Clase 15 de 27 • Curso de Azure Cognitive Services

Resumen

¿Qué es el servicio de visión computacional de Microsoft?

El servicio de visión computacional de Microsoft, conocido como Computer Vision, es una herramienta revolucionaria que permite a los usuarios analizar imágenes de manera efectiva. Utilizando avanzados algoritmos, este servicio se centra en identificar información significativa de las imágenes. Desde la metadata hasta la detección de objetos y personas, Computer Vision facilita el acceso a un análisis detallado y automático de las imágenes, lo que resulta invaluable en diversos contextos y aplicaciones.

¿Cómo funciona el reconocimiento óptico de caracteres?

Una de las características más destacadas de Computer Vision es su capacidad para realizar el reconocimiento óptico de caracteres (OCR). Esta función permite extraer texto de imágenes, como fotografías de carteles o documentos escaneados, transformando la información visual en texto digital. Este texto extraído puede integrarse con otros servicios cognitivos de Microsoft, como Text Analytics, permitiendo un análisis más profundo del contenido textual para obtener insights sobre emociones o temáticas.

¿Para qué se utiliza el servicio Computer Vision?

El servicio Computer Vision tiene una variedad de aplicaciones prácticas. Entre ellas, destaca su utilidad en la administración de activos digitales y la gestión de derechos, ya que permite categorizar y organizar imágenes basadas en logotipos, caras, colores y ubicaciones. Estos son algunos de los usos más frecuentes:

Redes sociales: Automatiza el proceso de etiquetar personas en fotos, mejorando la experiencia del usuario.
Almacenamiento personal: Ayuda a categorizar y organizar imágenes identificando rostros, temas y otros elementos.
Empresas: Facilita la gestión de grandes volúmenes de imágenes, asegurando un acceso eficiente y organizado.
Identificación de marcas: Permite detectar y verificar la presencia de logotipos de marcas mundialmente conocidas en las imágenes.

¿Cuáles son los requerimientos para utilizar Computer Vision?

Para aprovechar las capacidades de Computer Vision, las imágenes deben cumplir ciertos criterios de formato y tamaño. Se aceptan formatos como JPG, PNG, GIF y BMP, con un tamaño máximo de cuatro megabytes. Adicionalmente, las imágenes deben tener un mínimo de 50x50 píxeles para garantizar un análisis efectivo. Estas especificaciones aseguran que el servicio pueda extraer metadata, etiquetas y contextos de las imágenes de forma precisa.

¿Qué otros usos creativos tiene Computer Vision?

Computer Vision va más allá de la simple identificación, proporcionando nuevas formas de interacción con el contenido visual. Algunos usos creativos incluyen la generación de títulos automáticos para imágenes basados en su análisis, la detección de emociones y el reconocimiento de celebridades o sitios emblemáticos. Esta capacidad para ofrecer insights detallados a partir de una simple imagen transforma la forma en que interactuamos con el contenido visual, siendo una herramienta poderosa para desarrolladores y empresas.

En conclusión, el servicio de visión computacional de Microsoft abre un mundo de posibilidades al permitir un análisis detallado y avanzado de imágenes, que va desde el reconocimiento de textos y caras hasta la identificación de marcas y objetos en fotos. Con requisitos sencillos y múltiples aplicaciones, Computer Vision es una herramienta esencial para cualquier persona o empresa que busque maximizar el valor de sus activos visuales. ¡Explora sus posibilidades y descubre cómo puede transformar tu interacción con las imágenes!

Jesús Ignacio García Fernández

student•

¿Qué es visión computacional?

Proporciona acceso a algoritmos avanzados que procesan imágenes y devuelven información basada en las características visuales de interés.

Servicio: Análisis de imágenes. Descripción: Extrae características visuales de las imágenes, como objetos, caras, contenido para adultos y descripciones de texto generadas automáticamente.
Servicio: Reconocimiento óptico de caracteres (OCR). Descripción: Extrae el texto de las imágenes incluyendo el texto impreso y manuscrito de imágenes y documentos. Usa modelos basados en aprendizaje profundo y funciona con texto en diversas superficies y fondos. Entre estos se incluyen documentos de la empresa, facturas, recibos,pósteres, tarjetas de presentación, cartas y pizarras.

¿Para qué sirve?

Puede ayudar en muchos escenarios de administración de activos digitales (DAM) permitiendo a las empresas la organización, almacenamiento, gestión de permisos y derechos digitales. Ejemplo: Agrupar e identificar imágenes basadas en logotipos, caras, colores, ubicaciones.

Requisitos de imagen

Es necesario que las imágenes cumplan los siguientes requisitos:

Formato JPEG, PNG, GIF o BMP.
El tamaño de la imagen debe ser inferior a 4 MB.
Las dimensiones de la imagen deben ser mayores a 50 x 50 píxeles.

Escenarios de uso

Interpretación de imágenes y sugerencia de título.
Sugerir etiquetas para indexar imágenes.
Categorizar imágenes.
Identificar objetos en las imágenes.
Reconocer personas famosas y sitios emblemáticos en una imagen.
Leer el texto de una imagen.

Descripción de una imagen

Ejemplo: análisis de una imagen del Empire State Building de Nueva York. Resultados del análisis:

Foto en blanco y negro de una ciudad.
Foto en blanco y negro de una ciudad grande.
Edificio blanco grande en una ciudad.

Detección de objetos

Permite devolver las coordenadas de los objetos detectados en una imagen analizada.

Detección de marcas

Permite identificar marcas comerciales utilizando una base de datos existente de miles de logotipos reconocidos globalmente. Ejemplo: 'Microsoft' (Confidence: 68%).

Detección de caras

Permite detectar y analizar caras humanas en una imagen, además, tiene la capacidad de estimar la edad y detectar el área en la imagen donde se localizan caras.

Juan David Rueda Quiroga

student•

Es posible que me audite un archivo PDF para verificar si cumple con los parámetros requeridos?

Luis Carlos Zapata García

student•

Imagenes en Computer Vision deben ser: Tamaño menor a 4 Mb dimensiones dee 50 *50 pixeles.

Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas

Introducción

Servicios Cognitivos de Microsoft: Implementación Práctica

Uso de Servicios Cognitivos de Microsoft en Aplicaciones

Configuración de Ambiente para Servicios Cognitivos en Azure

Seguridad y Autenticación en Servicios Cognitivos de Azure

Lenguaje

Text Analytics: Extracción y Análisis de Texto en Documentos

Escenarios de Uso de Servicios Cognitivos en Análisis de Datos

Análisis de Sentimiento con APIs de Azure: Uso y Configuración

Detección de Idiomas con Servicios Cognitivos Azure

Desarrollo de Aplicación de Consola con Text Analytics en C#

Voz

Servicios de Voz en Cognitive Services: Conversión y Aplicaciones

Conversión de Texto a Voz con Azure Cognitive Services

Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio

Implementación de Traducción de Voz en Visual Studio

Implementación de Reconocimiento de Voz con Visual Studio

Visión