Entrenamiento de Watson Knowledge Studio

Clase 11 de 25 • Curso de Inteligencia Artificial con IBM Watson

Contenido del curso

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Aprende el manejo del lenguaje natural con Watson

Watson Studio: Ciencia de Datos y Más

Integración

Tomar examen

Resumen

Entrenar un modelo de machine learning personalizado es solo la mitad del trabajo. El verdadero valor aparece cuando ese modelo se despliega en servicios como Watson Discovery o Natural Language Understanding (NLU) para enriquecer documentos y extraer entidades personalizadas de forma automática. A continuación se explica paso a paso cómo lograrlo, desde la aceptación de anotaciones hasta el consumo del modelo mediante cURL.

¿Cómo se aceptan las anotaciones y se genera el ground truth?

Una vez que los anotadores completan su trabajo, el administrador revisa el progreso en la sección Annotation Tasks [0:12]. Desde ahí se selecciona la tarea finalizada y se da clic en aceptar. Al hacerlo, las anotaciones se convierten en lo que se conoce como ground truth, es decir, la verdad base que el modelo utilizará para aprender patrones. Tras la aceptación, el indicador muestra el avance completo, por ejemplo "ocho de ocho" documentos anotados.

El siguiente paso es ir a la pestaña Performance y dar clic en Train [1:02]. El sistema entrena el modelo con las anotaciones aprobadas. Cuando el entrenamiento finaliza aparece una alerta de confirmación.

¿Cómo se despliega el modelo en Watson Discovery?

Para desplegar el modelo entrenado se accede a la pestaña Versions y se crea una nueva versión [1:20]. Al crearla se asigna una descripción identificable. Las opciones disponibles son promote, delete y deploy.

Se selecciona Discovery como destino del despliegue.
Se elige la región (por ejemplo, Dallas) y el espacio o grupo de recursos correspondiente.
Se indica el nombre del servicio, como "Discovery Platzi".
Al completar el despliegue se genera un Model ID que es indispensable copiar y guardar [1:55].

Dentro de Watson Discovery, en la colección existente, se accede a Configure Data en la esquina superior derecha [3:00]. Allí aparecen tres secciones: Identify Fields, Managed Fields y Enrichments. En los enriquecimientos de entidades y relaciones existe un campo llamado Custom Model ID donde se pega el identificador recién exportado. Se aplica el cambio y se cierra la configuración.

Al subir nuevos documentos mediante Upload Documents, estos se enriquecen automáticamente con las entidades personalizadas: dirección, fecha de nacimiento, nombre del cliente y teléfono del cliente [4:50]. En la vista de documento se comprueba que coexisten los enriquecimientos nativos de Discovery con los del modelo personalizado, lo que permite, por ejemplo, asociar un sentimiento positivo a una entidad específica que el equipo haya entrenado.

¿Cómo se consume el modelo personalizado desde NLU?

Desde Watson Knowledge Studio se crea una segunda versión, esta vez seleccionando Natural Language Understanding como destino [5:55]. Se repite el flujo de despliegue eligiendo la región, el grupo de recursos y el nombre del servicio ("Natural Language Understanding Platzi"). Se obtiene un nuevo Model ID.

¿Qué contiene el archivo de parámetros?

Dentro del material del curso existe un archivo NLU.txt con dos elementos clave [6:30]:

Un parameters.json que incluye la URL de la página a analizar y campos para colocar el Model ID en categorías, entidades y relaciones.
Un comando cURL que requiere la API key y la URL del servicio.

¿Cómo se ejecuta la petición cURL?

Para obtener las credenciales se ingresa a IBM Cloud, se busca el recurso de NLU en la lista de recursos, se abren las credenciales de servicio y se copian la API key y la URL [7:30]. Ambos valores se sustituyen en el comando cURL.

Es importante que el archivo parameters.json se guarde en el mismo directorio desde el cual se ejecutará el comando. Un detalle práctico: si la URL del sitio a analizar contiene caracteres especiales o guiones inesperados, la petición puede fallar con un error Access Forbidden o Could not fetch URL [8:20]. Basta con corregir la URL y verificar la indentación del JSON antes de reintentar.

Al ejecutar correctamente el cURL, el servicio devuelve las entidades entrenadas —dirección, nombre— cada una con su nivel de certeza (confidence) [9:05]. Si se incluyó un Model ID en categorías sin haber entrenado esa capacidad, NLU responderá con unsupported operation, lo cual es esperado.

Con el modelo desplegado tanto en Discovery como en NLU, el siguiente paso natural es llevarlo a un contexto conversacional. ¿Ya pensaste en qué entidades personalizadas podrían potenciar tu propio proyecto? Comparte tus ideas en los comentarios.

Comentarios

Jhon Jaiver Supelano Rojas

student•

trivago al parecer bloqueo watson eso lo que pude entender en aqui

como resultado en la mayoria de páginas similares "error": "Could not fetch URL: Timeout exceeded when loading resource", "code": 400

en otras paginas menos conocidas el resultado fue este "language": "es", "error": "feature not available", "code": 410

si alguien lo tiene mejor personalizado que capture todo los datos del ejercicio por favor compartir gracias.

Hugo Alexander Gonzalez Bocanegra

student•

hola Jhon, intenta reemplazando la pagina de trivago por la de despegar y utilizando el comando usado en el ejercicio de NLU:

curl -X POST -u "apikey:{apikey}" --header "Content-Type: application/json" --data @parameters.json  "{url}"

Hugo Alexander Gonzalez Bocanegra

student•

Y este fue parte del resultado (Json) :

{
  "usage": {
    "text_units": 1,
    "text_characters": 4145,
    "features": 2
  },
  "retrieved_url": "https.../",
  "relations": [],
  "language": "es",
  "entities": [
    {
      "type": "Direccion",
      "text": "abuso sexual",
      "disambiguation": {
        "subtype": [
          "NONE"
        ]
      },
      "count": 1,
      "confidence": 0.859111
    },
    {
      "type": "Dia_de_nacimiento",
      "text": "de menores de",
      "disambiguation": {
        "subtype": [
          "NONE"
        ]
      },
      "count": 1,
      "confidence": 0.80502
    },

Nicolas Enrique Duque Aguirre

student•

Despues de intentar bastante tambien llegue a la misma conclusion de que trivago y otras urls no tienen habilitado este servicio de IBM o bloqueado, les comparto lo que aprendi tambien:

Para saber el profesor de donde obtuvo las lineas del cURL y el JSON. https://cloud.ibm.com/docs/natural-language-understanding?topic=natural-language-understanding-customizing
Tal vez no se pueda obtener datos de un modelo custom de ML pero si se pueden extraer categorias, entidades y otra informacion de urls, aca mencionan como, hice algunas pruebas con la url de ibm, facebook y cnn y funcionaba https://cloud.ibm.com/apidocs/natural-language-understanding

Nicoll Idaly Angulo Mejia

student•

Es importante hacer la aclaración que los chats de entrenamiento son solo ejemplos para la maquina. Si agregas al Discover nuevos archivos, la máquina es capaz de diferenciar los datos, email, fecha de nacimiento etc.

Jaziel Flores

student•

Tarea: acabar sus anotaciones :D

Loren Johanna Vásquez Rivera

student•

Considero bastante útil el hecho de ver cómo funciona la aplicación de nuestro modelo. ¡Vamos por más!

Sandra Milena Rojas Herrán

student•

Hola a todos:

Yo probé con la página de despegar y funciono. He aquí mis resultados:

Mario Alberto Vásquez Arias

student•

Al parecer el error en NLU con "Could not fetch URL: Access forbidden by target server" es una constante, pues a mi también me salio error. Y estuve buscando y no encontré una solución para eso.

Usuario anónimo

user•

Muchas gracias por la clase, fue muy productiva. Se entendió muchísimo. Lastima que con ninguna otra página no funciona.

Arles De Jesus Muñoz Ortiz

student•

Probando con varias paginas y no funciono, error code: 404

Iván Ramiro Pinzón Pinto

student•

Es algo complejo, pero muy interesante.

Oscar Julio Toro Ramírez

student•

Watson no me dejó hacer nada. Todo el tiempo me sacó este mensaje de error: 422 failed to get credentials for service [crn:v1:bluemix:public:discovery:us-south:a/6b022773e3004709bb3b51adfa0e763d:be25600f-4e45-4634-b9be-a2f567ee5f98::] in region [us-south]

Fabián Camilo Machuca Gélvez

student•

Yo tenía el mismo problema, googleando encontré que se puede solucionar borrando los datos de navegación. Me funcionó parcialmente, se puede trabajar pero a veces sale el error y toca recargar la página. También recomendaban utilizar un navegador diferente (eso no lo probé).

Isaac Carrada

teacher•

Hola Oscar! siento que hayas tenido ese problema, a veces hay temas con el Oauth 2

Te recomiendo que cuando suceda, simplemente borrar tus cookies y volver a ingresar a tu ambiente :)

Denis Goriz

student•

ayuda porfavor

C:\Users\patri\Desktop\Watson\Nueva carpeta (3)\Nueva carpeta> curl --user "apikey:i8L03GmgcJjlS0a9YIBbM4TVOrHLNxugF0tF4RdinEqT" ^ ¿Más? "https://api.us-south.natural-language-understanding.watson.cloud.ibm.com/instances/f13e3fe7-427b-4b99-b087-f910151b6177/api/v1/analyze?version=2019-07-12" ^ ¿Más? --request POST ^ ¿Más? --header "Content-Type: application/json" ^ ¿Más? --data @parameters.json { "error": "not found", "code": 404 } C:\Users\patri\Desktop\Watson\Nueva carpeta (3)\Nueva carpeta>

Gracias

Matias Jesus Ruiz Ruiz

student•

Hola, tengo el mismo error

Camilo Andrés Becerra Mejía

student•

Yo tambien tengo el mismo error

Camilo Andrés Becerra Mejía

student•

Me sale el error: "error": "Could not fetch URL: Access forbidden by target server", "code": 400

Edwin Jorge Arroyo

student•

Hola, al parecer trivago ha prohibido el acceso de terceros a cierta información de sus servidores, y es por eso que nos arroja ese error al momento de realizar nuestra solicitud :)

Hugo Alexander Gonzalez Bocanegra

student•

SOLUCION PARA WINDOWS: Me funciono reeemplazando la pagina de trivago por la de despegar y utilizando el comando usado en el ejercicio de NLU:

curl -X POST -u "apikey:{apikey}" --header "Content-Type: application/json" --data @parameters.json  "{url}"

Usuario anónimo

user•

Se requiere mucha practica.

Edwin Jorge Arroyo

student•

Al parecer trivago ha prohibido el acceso de terceros a cierta información de sus servidores, y es por eso que nos arroja ese error al momento de realizar nuestra solicitud.

Oscar Ancizar Salas Achipiz

student•

Con trivago no funciona. Incluso probé otras y tampoco.

Guillermo Parejo

student•

Impresionante Watson, una clase muy genial

José Ricardo Pedraza Ballén

student•

Sigo obteniendo este error:

{
  &quot;error&quot;: &quot;Could not fetch URL: Access forbidden by target server&quot;,
  &quot;code&quot;: 400
}

Usuario anónimo

user•

NLU no es que nos haya dado información muy valiosa de trivago jeje

{
  "usage": {
    "text_units": 1,
    "text_characters": 4145,
    "features": 2
  },
  "retrieved_url": "https.../",
  "relations": [],
  "language": "es",
  "entities": [
    {
      "type": "Direccion",
      "text": "abuso sexual",
      "disambiguation": {
        "subtype": [
          "NONE"
        ]
      },
      "count": 1,
      "confidence": 0.859111
    },
    {
      "type": "Dia_de_nacimiento",
      "text": "de menores de",
      "disambiguation": {
        "subtype": [
          "NONE"
        ]
      },
      "count": 1,
      "confidence": 0.80502
    },

Entrenamiento de Watson Knowledge Studio

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Introducción de Watson

Configuración del entorno de trabajo

Instalar cURL en Windows

Arquitectura REST

Aprende el manejo del lenguaje natural con Watson

Uso de Watson Personality Insights via CURL

Uso de Watson Personality Insights via SDK

Watson Natural Language Classifier

Watson Natural Language Understanding

Discovery

Introducción a Watson Knowledge Studio