Resumen

Crear un modelo de machine learning personalizado para analizar texto especializado es una de las capacidades más potentes que ofrece IBM Watson. Con Watson Knowledge Studio puedes definir entidades, relaciones y anotaciones propias para dominios específicos como medicina, derecho o atención al cliente, y luego desplegar ese modelo en servicios como NLU o Discovery.

¿Qué es Watson Knowledge Studio y para qué sirve?

Watson Knowledge Studio es una herramienta que permite crear modelos de machine learning o de reglas personalizados que se integran directamente con Natural Language Understanding (NLU) y Discovery [0:08]. A diferencia de los modelos generales, estos modelos están pensados para lenguaje especializado: profesionales de salud, abogados o equipos de soporte técnico que manejan terminología propia de su industria.

Dentro de Knowledge Studio existen tres roles principales que se pueden asignar [0:27]:

  • Administrador: gestiona el proyecto completo.
  • Project Manager: coordina tareas de anotación.
  • Human Annotator: persona encargada de entrenar las entidades y relaciones del modelo.

¿Qué es el type system y cómo se configura?

El type system es la estructura que controla cómo puede ser anotado el contenido [0:46]. Define las entidades y relaciones que el modelo reconocerá. Puedes crearlo desde cero o importar un type system preentrenado según la industria en la que trabajes. En el ejemplo práctico se importa un archivo previamente creado con entidades como nombre, día de nacimiento, dirección, mail, hotel, número de identificación, día de ingreso y número de teléfono [4:30].

¿Cuál es la diferencia entre mención, entidad y relación?

Estos tres elementos son fundamentales para comprender el entrenamiento [1:26]:

  • Mención: cualquier texto relevante dentro del dominio específico.
  • Tipo de entidad: categoría asignada a objetos del mundo real (por ejemplo, "mail").
  • Entidad: una mención a la que se le asigna un tipo de entidad. Por ejemplo, i.carrada@ibm.com es una mención que se convierte en entidad cuando se clasifica como mail [2:03].
  • Relación: vínculo entre dos entidades que aparecen en la misma oración. Por ejemplo, "Isaac Carrada" tiene una relación con su correo electrónico [2:18].

¿Cómo se crea el modelo paso a paso en la nube de IBM?

El proceso comienza creando el servicio de Knowledge Studio desde IBM Cloud [2:55]. Se selecciona la región Dallas, el plan gratuito permite hasta cinco workspaces y cinco gigabytes de almacenamiento. Después de instanciar el servicio, se lanza la interfaz gráfica con el botón Launch Watson Knowledge Studio [3:22].

El primer paso dentro de la herramienta es crear un workspace con un nombre representativo y seleccionar el idioma, en este caso español [3:40]. Luego se importa el type system con las entidades predefinidas usando la opción upload [4:08].

Para añadir entidades nuevas, basta con escribir el nombre y guardar. Por ejemplo, se puede agregar la entidad "destino" directamente desde la interfaz [5:08]. Las relaciones se crean vinculando dos entidades: la relación "viajo" conecta la entidad "nombre" con la entidad "destino" [5:30].

¿Cómo se suben y anotan los documentos de entrenamiento?

Antes de entrenar el modelo se necesitan documentos de texto que servirán como datos de entrenamiento. Estos se suben desde la sección Assets > Documents en formatos como TXT [6:10]. Una vez cargados, se les puede asignar un nombre descriptivo.

La anotación puede hacerse de dos formas [7:55]:

  • Pre-anotación automática: se utiliza un diccionario previamente creado o el propio servicio NLU para mapear equivalencias. Por ejemplo, la entidad "destino" puede mapearse a la categoría location de NLU [7:10].
  • Anotación manual: un human annotator, generalmente un lingüista o experto en el dominio, selecciona fragmentos de texto y los asigna a la entidad correspondiente [8:25].

El proceso de anotación manual es simple: se abre cada documento, se selecciona el texto relevante y se le asigna el tipo de entidad correcto. Por ejemplo, "Oscar" se marca como nombre, una dirección de correo se marca como mail, y una fecha se clasifica como día de nacimiento [9:30]. Este proceso se repite en todos los documentos del set.

Una vez completada la anotación, se cambia el estado del task a completed [10:45]. Con las anotaciones finalizadas, el siguiente paso es entrenar el modelo y desplegarlo a través de NLU o Discovery para consumirlo en aplicaciones reales.

¿Cómo se organiza el trabajo de anotación en equipo?

Knowledge Studio permite crear annotation tasks donde se asigna un conjunto de documentos a un anotador específico, se define un deadline y se genera un set de anotaciones con nombre propio [8:40]. El administrador puede redistribuir responsabilidades entre anotadores según sea necesario. El anotador accede a sus tareas pendientes desde la sección de annotation tasks y marca cada documento como completado al terminar.

Si estás trabajando con dominios especializados y los modelos generales no capturan la terminología de tu industria, Watson Knowledge Studio es la solución para crear ese nivel de personalización. ¿Ya tienes un caso de uso en mente? Comparte tu experiencia en los comentarios.

      Introducción a Watson Knowledge Studio