Contenido del curso
Lenguaje
- 5

Text Analytics: Extracción y Análisis de Texto en Documentos
10:30 min - 6

Escenarios de Uso de Servicios Cognitivos en Análisis de Datos
07:04 min - 7

Análisis de Sentimiento con APIs de Azure: Uso y Configuración
09:37 min - 8

Detección de Idiomas con Servicios Cognitivos Azure
07:26 min - 9

Desarrollo de Aplicación de Consola con Text Analytics en C#
15:53 min
Voz
- 10

Servicios de Voz en Cognitive Services: Conversión y Aplicaciones
06:53 min - 11

Conversión de Texto a Voz con Azure Cognitive Services
11:38 min - 12

Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio
13:33 min - 13

Implementación de Traducción de Voz en Visual Studio
10:14 min - 14

Implementación de Reconocimiento de Voz con Visual Studio
13:37 min
Visión
- 15

Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas
Viendo ahora - 16

Creación de un Servicio de Computer Vision en Azure y su Implementación
11:56 min - 17

Servicio OCR: Conversión de Imágenes a Texto Usando Azure
08:46 min - 18

Reconocimiento Facial: Detección y Análisis de Rasgos Humanos
08:50 min - 19

Detección y Análisis de Rostros con Face API
04:44 min - 20

Uso de la API Face para Detección y Verificación de Rostros
16:53 min
LUIS
- 21

Implementación de Luis para Comprensión del Lenguaje Natural
11:39 min - 22

Creación de Modelos e Intenciones en Aplicaciones de Luis
11:52 min - 23

Desarrollo de Aplicaciones en LUIS desde Cero
12:09 min - 24

Uso de Modelos Prediseñados en Aplicaciones de Luis
07:25 min - 25

Entrenamiento y Publicación de Modelos en LUIS
16:34 min - 26

Integración del modelo Luis en aplicaciones con SDK de C#
08:28 min
Conclusiones
Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas
Resumen
El análisis automático de imágenes se ha convertido en una pieza fundamental para organizaciones que buscan extraer valor de sus activos visuales. El servicio de Visión Computacional de Microsoft (Computer Vision) ofrece un conjunto robusto de capacidades que permiten identificar objetos, personas, texto y mucho más a partir de una simple fotografía. A continuación se exploran sus características principales y los escenarios donde puede aportar mayor valor.
¿Qué permite hacer el servicio de Computer Vision?
Este servicio proporciona acceso a algoritmos que analizan imágenes y devuelven metadata detallada sobre su contenido [0:25]. Entre las capacidades más destacadas se encuentran:
- Identificar qué tipo de objetos están presentes en la imagen.
- Generar descripciones automáticas del contexto visual.
- Asignar tags o etiquetas que categorizan el contenido.
- Reconocer sitios emblemáticos o landmarks.
- Detectar personas conocidas o celebridades.
- Contar cuántas caras aparecen en una fotografía.
Una característica adicional muy potente es el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés). Con esta funcionalidad es posible fotografiar un cartel, un póster o escanear una factura y extraer el texto contenido en la imagen [1:14]. Este texto extraído puede integrarse con otros servicios cognitivos como Text Analytics, lo que permite analizar las palabras principales o determinar si una frase tiene connotación positiva, negativa o neutral [1:35].
¿Cómo se aplica en la administración de activos digitales?
Uno de los usos más relevantes de Computer Vision está relacionado con la administración de activos digitales (Digital Asset Management), que se refiere a la organización y gestión de archivos e imágenes dentro de una organización, incluyendo la gestión de derechos digitales [1:58].
Gracias a este servicio es posible categorizar imágenes de forma automatizada basándose en logotipos, caras, colores y ubicaciones [2:17]. Este mismo principio se aplica en servicios de uso cotidiano: plataformas de almacenamiento en la nube que agrupan fotografías según las personas que aparecen, o redes sociales que sugieren etiquetar a alguien de manera automática [2:30].
¿Qué requisitos deben cumplir las imágenes de entrada?
Todo servicio cognitivo requiere una entrada específica. En el caso de Computer Vision, las imágenes deben cumplir con estos requisitos [2:57]:
- Formatos aceptados: JPG, PNG, GIF o BMP.
- Tamaño máximo: 4 megabytes.
- Resolución mínima: 50 x 50 píxeles para que el servicio pueda extraer metadatos, etiquetas e identificar objetos correctamente.
¿Qué escenarios de uso tiene Computer Vision?
Los escenarios prácticos son amplios y variados [3:30]:
- Interpretar una imagen y sugerir un título de forma automática.
- Categorizar imágenes mediante etiquetas para facilitar su almacenamiento y búsqueda.
- Identificar objetos específicos, como edificios o escenas exteriores, según las etiquetas que resulten más relevantes para cada caso.
- Integrarse con Cognitive Search, un servicio de búsqueda enriquecida que aprovecha la metadata generada por Computer Vision para potenciar las búsquedas [3:56].
¿Qué otras capacidades ofrece en reconocimiento visual?
Más allá del análisis general, el servicio puede devolver las coordenadas exactas dentro de la imagen donde identifica cada objeto [4:25]. Por ejemplo, al analizar una fotografía en blanco y negro de una ciudad, el servicio reconoce que se trata de un exterior urbano con edificios y señala la posición de cada uno dentro del JSON de respuesta.
Otra funcionalidad valiosa es la detección de marcas. Existe una amplia base de datos de marcas reconocidas a nivel mundial, lo que permite validar si una imagen contiene logotipos registrados [4:48]. Un ejemplo claro sería identificar el logo de Microsoft en la fotografía de una laptop Surface.
Finalmente, el servicio incluye detección de caras [5:13], que va más allá de simplemente contar personas. Permite estimar el rango de edad de cada persona y los sentimientos que está expresando en la fotografía. Esto ofrece insights completos de una imagen con un solo servicio.
Si te interesa conocer cómo implementar estas llamadas y sacar el máximo provecho a Computer Vision, comparte tus dudas y experiencias en los comentarios.