Resumen

Construir aplicaciones cognitivas que analicen documentos no estructurados y devuelvan información enriquecida es posible con pocos pasos gracias a Watson Discovery. Este servicio de IBM Cloud permite ingestar, almacenar, enriquecer y consultar datos de forma sencilla, combinando capacidades de procesamiento de lenguaje natural con un motor de búsqueda potente que acepta tanto consultas estructuradas como en lenguaje natural.

¿Qué es Watson Discovery y cómo funciona el flujo de datos?

Watson Discovery habilita la creación de aplicaciones cognitivas en la nube y facilita el enriquecimiento, la importación y la exportación de datos [0:10]. El flujo de trabajo sigue una secuencia clara:

  • Ingesta de datos: acepta formatos como HTML, Word, JSON y PDF. La carga puede hacerse mediante drag and drop o conectando un object storage preintegrado [0:38].
  • Almacenamiento e indexación: una vez ingestados, los documentos se organizan en una colección con índices automáticos [0:50].
  • Consultas: se pueden realizar en Discovery Query Language o en lenguaje natural, tanto desde la interfaz gráfica como desde el API [0:56].

Esta arquitectura permite que en pocos minutos tengas datos no estructurados listos para ser consultados con resultados enriquecidos.

¿Cómo se integra Watson Discovery con Watson Assistant?

Watson Discovery se conecta con Watson Assistant a través de un componente llamado habilidad de búsqueda (search skill), disponible exclusivamente en Watson Assistant Plus [1:14]. Cuando un usuario hace una pregunta al chatbot que no está contemplada en su entrenamiento, la habilidad de búsqueda consulta los documentos indexados en Discovery y devuelve una respuesta relevante [1:24]. Esto extiende enormemente la capacidad de respuesta del asistente virtual sin necesidad de invertir horas adicionales de entrenamiento [1:42].

¿Qué es Watson Discovery News y qué enriquecimientos ofrece?

Watson Discovery News es un set de datos previamente enriquecido e indexado que contiene noticias de medios [1:54]. Incluye enriquecimientos idénticos a los de NLU: keyword extraction, extracción de entidades, análisis de sentimiento y detección de conceptos. En español cuenta con aproximadamente sesenta mil nuevos artículos diarios y permite búsquedas históricas de hasta sesenta días [2:14].

Desde la interfaz se pueden ejecutar queries predefinidos como las diez compañías con sentimiento más positivo en los medios [3:06]. Cada resultado incluye metadatos completos: autor, fecha, URL, host y el texto analizado.

¿Cómo consumir Watson Discovery News desde el API?

Cada consulta ejecutada en la interfaz gráfica genera una URL de query que puede copiarse y ejecutarse externamente [3:42]. Para hacer la petición desde herramientas como Postman:

  • Se configura una petición GET con la URL del query.
  • En autorización se utiliza Basic Auth: el username es apikey y el password es la clave API del servicio [4:08].
  • La respuesta devuelve un JSON con agregaciones, resultados y la metadata de cada noticia [4:40].

También se pueden ejecutar consultas en lenguaje natural directamente, como por ejemplo buscar "Cancún travel" y obtener resultados relevantes con su metadata adjunta [5:18].

¿Cómo crear una colección privada con documentos propios?

Para analizar documentos propios, basta con dar clic en upload your own data desde la interfaz principal y configurar la colección [5:50]. Un detalle crítico: seleccionar correctamente el idioma de la colección, ya que si se elige uno incorrecto, el enriquecimiento no funcionará aunque los demás pasos sean correctos [6:46].

En el ejemplo práctico se cargan reseñas en PDF del Castillo de Chapultepec obtenidas de TripAdvisor [6:20]. Cada documento contiene fecha, usuario, puntuación y texto de la reseña. Una vez procesados, Discovery extrae automáticamente:

  • Entidades: México, personas mencionadas, referencias históricas como Luis XV [7:24].
  • Sentimiento: distribución positiva, negativa y neutral del conjunto de documentos [7:18].
  • Conceptos: Ciudad de México, arquitectura, astronomía [7:22].

¿Qué tipos de consultas se pueden ejecutar sobre colecciones privadas?

Existen tres formas de consultar los datos. La primera usa queries predefinidos de la interfaz. La segunda permite consultas en lenguaje natural desde la barra de búsqueda [8:56]. La tercera utiliza Discovery Query Language, donde se construyen filtros personalizados; por ejemplo, filtrar documentos cuyo sentiment score sea mayor a cero para obtener solo reseñas positivas [9:06].

En el caso práctico, seis de los diez documentos resultaron tener sentimiento positivo [9:18]. Este tipo de análisis sirve para mejorar servicios filtrando comentarios negativos por categoría, o para decidir qué contenido mostrar en una página web o aplicación [9:30].

Experimenta con tus propios documentos, prueba distintos queries y comparte tus resultados. En la siguiente sesión se aborda Knowledge Studio, la herramienta para crear modelos personalizados tanto para Discovery como para NLU [9:50].