Discovery

Clase 9 de 25 • Curso de Inteligencia Artificial con IBM Watson

Contenido del curso

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Aprende el manejo del lenguaje natural con Watson

Watson Studio: Ciencia de Datos y Más

Integración

Tomar examen

Resumen

Construir aplicaciones cognitivas que analicen documentos no estructurados y devuelvan información enriquecida es posible con pocos pasos gracias a Watson Discovery. Este servicio de IBM Cloud permite ingestar, almacenar, enriquecer y consultar datos de forma sencilla, combinando capacidades de procesamiento de lenguaje natural con un motor de búsqueda potente que acepta tanto consultas estructuradas como en lenguaje natural.

¿Qué es Watson Discovery y cómo funciona el flujo de datos?

Watson Discovery habilita la creación de aplicaciones cognitivas en la nube y facilita el enriquecimiento, la importación y la exportación de datos [0:10]. El flujo de trabajo sigue una secuencia clara:

Ingesta de datos: acepta formatos como HTML, Word, JSON y PDF. La carga puede hacerse mediante drag and drop o conectando un object storage preintegrado [0:38].
Almacenamiento e indexación: una vez ingestados, los documentos se organizan en una colección con índices automáticos [0:50].
Consultas: se pueden realizar en Discovery Query Language o en lenguaje natural, tanto desde la interfaz gráfica como desde el API [0:56].

Esta arquitectura permite que en pocos minutos tengas datos no estructurados listos para ser consultados con resultados enriquecidos.

¿Cómo se integra Watson Discovery con Watson Assistant?

Watson Discovery se conecta con Watson Assistant a través de un componente llamado habilidad de búsqueda (search skill), disponible exclusivamente en Watson Assistant Plus [1:14]. Cuando un usuario hace una pregunta al chatbot que no está contemplada en su entrenamiento, la habilidad de búsqueda consulta los documentos indexados en Discovery y devuelve una respuesta relevante [1:24]. Esto extiende enormemente la capacidad de respuesta del asistente virtual sin necesidad de invertir horas adicionales de entrenamiento [1:42].

¿Qué es Watson Discovery News y qué enriquecimientos ofrece?

Watson Discovery News es un set de datos previamente enriquecido e indexado que contiene noticias de medios [1:54]. Incluye enriquecimientos idénticos a los de NLU: keyword extraction, extracción de entidades, análisis de sentimiento y detección de conceptos. En español cuenta con aproximadamente sesenta mil nuevos artículos diarios y permite búsquedas históricas de hasta sesenta días [2:14].

Desde la interfaz se pueden ejecutar queries predefinidos como las diez compañías con sentimiento más positivo en los medios [3:06]. Cada resultado incluye metadatos completos: autor, fecha, URL, host y el texto analizado.

¿Cómo consumir Watson Discovery News desde el API?

Cada consulta ejecutada en la interfaz gráfica genera una URL de query que puede copiarse y ejecutarse externamente [3:42]. Para hacer la petición desde herramientas como Postman:

Se configura una petición GET con la URL del query.
En autorización se utiliza Basic Auth: el username es apikey y el password es la clave API del servicio [4:08].
La respuesta devuelve un JSON con agregaciones, resultados y la metadata de cada noticia [4:40].

También se pueden ejecutar consultas en lenguaje natural directamente, como por ejemplo buscar "Cancún travel" y obtener resultados relevantes con su metadata adjunta [5:18].

¿Cómo crear una colección privada con documentos propios?

Para analizar documentos propios, basta con dar clic en upload your own data desde la interfaz principal y configurar la colección [5:50]. Un detalle crítico: seleccionar correctamente el idioma de la colección, ya que si se elige uno incorrecto, el enriquecimiento no funcionará aunque los demás pasos sean correctos [6:46].

En el ejemplo práctico se cargan reseñas en PDF del Castillo de Chapultepec obtenidas de TripAdvisor [6:20]. Cada documento contiene fecha, usuario, puntuación y texto de la reseña. Una vez procesados, Discovery extrae automáticamente:

Entidades: México, personas mencionadas, referencias históricas como Luis XV [7:24].
Sentimiento: distribución positiva, negativa y neutral del conjunto de documentos [7:18].
Conceptos: Ciudad de México, arquitectura, astronomía [7:22].

¿Qué tipos de consultas se pueden ejecutar sobre colecciones privadas?

Existen tres formas de consultar los datos. La primera usa queries predefinidos de la interfaz. La segunda permite consultas en lenguaje natural desde la barra de búsqueda [8:56]. La tercera utiliza Discovery Query Language, donde se construyen filtros personalizados; por ejemplo, filtrar documentos cuyo sentiment score sea mayor a cero para obtener solo reseñas positivas [9:06].

En el caso práctico, seis de los diez documentos resultaron tener sentimiento positivo [9:18]. Este tipo de análisis sirve para mejorar servicios filtrando comentarios negativos por categoría, o para decidir qué contenido mostrar en una página web o aplicación [9:30].

Experimenta con tus propios documentos, prueba distintos queries y comparte tus resultados. En la siguiente sesión se aborda Knowledge Studio, la herramienta para crear modelos personalizados tanto para Discovery como para NLU [9:50].

Comentarios

Nicolas Enrique Duque Aguirre

student•

Esta interesante el servicio, sobre todo porque no se necesita programar nada, solo llamar, iniciar, adjuntar documentos y correr, pero por otro lado esta clase a mi como usuario principiante me deja muchos sin sabores, qué es un texto enriquecido? qué es json? y para qué es importante conocerlo, gracias por decir que existe un curso de postman pero una breve introducción no estaba mal, el proceso de instanciamiento de la colección estuve esperando por 2 horas y no funcionó, nisiquiera en la segunda oportunidad que espere otra hora, y eso que solo son 10 documentos, ya se que este curso es avanzado y me van a recomendar otros cursos y si de hecho los voy hacer, pero tengo una ruta que cumplir y me estoy limitando a seguirla, parte del conflicto es quienes diseñaron la ruta, y si voy a buscar mas info y seguir aprendiendo, pero platzi debe poner mas de su parte en el seguimiento de sus estudiantes, ya que lo viven promovimiento en sus videos de youtube y otras publicaciones y ahora que estoy acá no lo estoy viendo, al menos existen los comentarios que obvio lo implemento platzi, pero muchas veces las respuestas aunque utiles son mas dadas por la experimentación de alguien que resolvío su error y no por un criterio técnico como si lo podría explicar un tutor o el mismo profesor con un comentario, digo esto porque quiero que la plataforma mejore.

Luis David Arias Manjarrez

student•

Hola nicolás, JSON es algo que te vas a encontrar en muchos cursos si piensas continuar con la programación (ya que esto se ha vuelto casi un estándar en la industria).

Su principal objetivo es que los datos se puedan presentar en un formato que se pueda leer en casi cualquier lenguaje de programación (Imagínate si tuviéramos que leer archivos de word o excel, sería una locura las compatibilidades)

Según lo que has aprendido en la ruta de aprendizaje, un JSON es como un diccionario de Python, la estructura es muy parecida

Ejemplo de un JSON llamado data.json

{
	"nombre": "Nicolás",
	"apellidos": "Duque Aguirre",
	"cursos_completados": 3
}

Ejemplo de acceder a un dato del JSON anterior en python

#Se carga el archivo llamado data.json
with open('data.json') as file:
	data = json.load(file)

	#Se accede a algun dato como si fuera un diccionario
	print(data['nombre'])

Esto retornaría

"Nicolás"

Ahora, no necesariamente los JSON son archivos de texto, JSON es un formato. Si repasas un poco sobre REST, te darás cuenta que podemos hacer peticiones http (con una app web o con postman) a servidores para que nos retornen inmediatamente una cadena escrita en formato JSON.

Nicolas Enrique Duque Aguirre

student•

Hola compañero @dvariaz, increible tu aporte muchas gracias, este curso lo complete ayer, a medida que avanzo fui profundizando en temas y conocimiendo mas, hoy aun hay mucho que aprender pero sin duda se sabe un poco mas, un concejo que te doy para que no tarde eternidades en instanciarce los modelos es extraer los archivos de los zips, no le hagas drag and drop desde dentro del zip porque te pasaria lo que ami, si lo extraes y lo guardas en una carpeta se cargada mucho mas rapido en el IBM Cloud.

Gracias

William Schnaider Torres Bermon

student•

Curioso la cantidad de articulos en español bajó drasticamente:

Edwin Jorge Arroyo

student•

Super curioso!

Nicoll Idaly Angulo Mejia

student•

También es importante ver como a crecido lo negativos :c

Jimmy Buriticá Londoño

student•

Discovery añade un motor de búsqueda cognitiva y análisis de contenido a las aplicaciones para identificar patrones, tendencias y conocimientos útiles que permitan una mejor toma de decisiones.

Jhon Jaiver Supelano Rojas

student•

aqui esta el postman para descargar y poder seguir con la clase

Jonathan Alexander Ramos Martínez

student•

Gracias!

Wilman Hermenegildo Jiménez Moreno

student•

William Condori

student•

Gracias por el aporte😁😁

Nicolas Enrique Duque Aguirre

student•

Las primeras veces que cargue los documentos abri el zip y las copie desde ahi, sin extraer los documentos, pero nunca funciono; finalmente decidi extraer los documentos y colocarlos en el escritorio y volverlos a cargar desde ahi y en este caso si funciono, por lo que si no les funciona les recomiendo intentar esto, poque ademas en la clase de Knowledge studio se vuelve a usar este discovery para el enriquecimiento de entidades que se crean en esa clase.

Javier Humberto Cuadros Picon

student•

Comparto link de interes comparativo IBM Watson, AWS y Google.

https://www.altexsoft.com/blog/datascience/comparing-machine-learning-as-a-service-amazon-microsoft-azure-google-cloud-ai-ibm-watson/

Principalmente dejo los servicios similares de Watson Assitant para AWS y Google:

Amazon Lex. The Lex API is created to embed chatbots in your applications as it contains automatic speech recognition (ASR) and natural language processing (NLP) capacities. These are based on deep learning models. The API can recognize written and spoken text and the Lex interface allows you to hook the recognized inputs to various back-end solutions. Obviously, Amazon encourages use of its Lambda cloud environment. So, prior to subscribing to Lex, get acquainted with Lambda as well. Besides standalone apps, Lex currently supports deploying chatbots for Facebook Messenger, Slack, and Twilio.

Dialogflow. With various chatbots topping today’s trends, Google also has something to offer. Dialogflow is powered by NLP technologies and aims at defining intents in the text, and interpreting what a person wants. The API can be tweaked and customized for needed intents using Java, Node.js, and Python.

Espero sea de su agrado.

Luis Alvaro Cárdenas Gómez

student•

Parece que su aplicación se limita a búsquedas básicas o depuración superficial ¿Alguien ha tenido experiencia con esta herramienta en textos más complejos?

Massimo Di Berardino

student•

Hola @luchein, en el curso avanzado de IBM Watson, se ven casos mas complejos.

Loren Johanna Vásquez Rivera

student•

Súper interesante esta herramienta para el análisis de textos.

Eric Bula Tapias

student•

Interesante herramienta. Sin embargo en el ejemplo de caso de uso se utilizo documentos ya preparadas... pero lo aplicamos directamente desde la fuente de Trippadvisor digamos que con un tag de "cancún"? ..o desde Twitter por ejemplo?

Dina Luz Silva Villalba

student•

Es interesante todos los recursos disponibles que ya existen

David Jaramillo Saldarriaga

student•

¿Qué tan bueno puede llegar a ser discovery news para realizar estudios de mercado sobre algún sector comercial en particular?

Edwin Jorge Arroyo

student•

Pienso que puede ser tan bueno como nosotros lo podamos "entrenar". Recuerda que somos nosotros como usuarios de Discovery, los que le damos los límites de operación adicional a los que posee como servicio de inteligencia artificial de IBM.

Hugo Montoya Diaz

student•

Rafael Vilches

student•

Ya no hay capa gratuita 😥

Josue Caycho Bardalez

student•

Camilo Andrés Patiño Restrepo

student•

¿Qué formato interno debe tener la información en el archivo que se sube a discovery?

Jeinner Daniel Báez Mantilla

student•

Que buen tema

Guillermo Parejo

student•

Una clase espectacular

Usuario anónimo

user•

Muy informativa, gracias.

Usuario anónimo

user•

gracias

Rafael Antonio Chica Pretelt

student•

wow, un método fácil de análisis!

Discovery

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Introducción de Watson

Configuración del entorno de trabajo

Instalar cURL en Windows

Arquitectura REST

Aprende el manejo del lenguaje natural con Watson

Uso de Watson Personality Insights via CURL

Uso de Watson Personality Insights via SDK

Watson Natural Language Classifier

Watson Natural Language Understanding

Discovery

Introducción a Watson Knowledge Studio

Entrenamiento de Watson Knowledge Studio

Introducción a Watson Assistant

Implementación de Watson Assistant

Funciones en Javascript

Watson Speech to Text

Watson Text to Speech

Watson Voice Agent

Watson Studio: Ciencia de Datos y Más

Introducción a Machine Learning y Watson Studio

Entrenamiento de modelo en Watson Studio

Entrenamiento de clusterización en Watson Studio

Reconocimiento Visual

Integración

Functions + Cloudant

Exposición de funciones a través de una API

Proyecto final

Conclusiones