Cómo funciona la IA detrás de Siri y Alexa

Curso de Diseño de Interfaces de Voz

Contenido del curso

Bienvenida

1
Diseño de Interfaces de Voz: Principios y Prácticas
03:39 min

Introducción

Descubre y define

Diseño de Interfaz de Voz

Prototipa y evalúa

Interfaces multimodal

22
Cinco tips para diseñar interfaces multimodales
04:43 min

Construye y lanza

23
Qué pasa después de diseñar una interfaz de voz
06:29 min

Cierre

Live Class

28
Diseño de Interfaces de Voz: Conceptos y Herramientas Básicas
59:27 min

Tomar examen

Cómo funciona la IA detrás de Siri y Alexa

Resumen

Las interfaces de voz funcionan gracias a dos tecnologías de inteligencia artificial que trabajan juntas: el reconocimiento de voz y el procesamiento del lenguaje natural. Entender cómo se conectan te ayuda a diseñar conversaciones que el sistema realmente pueda ejecutar y a hablar el mismo idioma que tu equipo técnico.

Y aquí viene lo interesante: detrás de un simple "Oye, Siri, pon música para dormir" hay un proceso de cuatro pasos que vale la pena conocer a fondo.

¿Qué tecnologías hacen posible una interfaz de voz?

La inteligencia artificial nos permite resolver, a partir de datos, problemas que antes solo los humanos podían resolver: traducir voz a texto, identificar sentimientos o predecir lo que vas a escribir.

En las interfaces de voz hay dos técnicas centrales que ocurren en orden. Primero, el reconocimiento de voz convierte las palabras habladas en texto. Después, el procesamiento del lenguaje natural (NLP) le da significado y contexto a esas palabras para que el computador entienda qué quieres realmente.

¿Qué es el procesamiento del lenguaje natural? Es la técnica que permite a un computador entender el significado y el contexto de las palabras humanas, no solo transcribirlas.

¿Dónde ves NLP en tu día a día?

Probablemente lo usas más de lo que crees. Estos son ejemplos concretos donde el procesamiento del lenguaje natural ya está trabajando:

Buscadores como Google, que predicen lo que vas a escribir mientras tecleas.
Traductores que interpretan el contexto antes de devolverte una frase.
Análisis de sentimientos en reseñas de producto, que separa comentarios positivos de negativos.
Correctores ortográficos como Grammarly o Google Docs.
Asistentes de voz como Siri, Alexa o Google Assistant [2:00].

Cada uno de estos casos combina datos, contexto y modelos entrenados para acercarse a lo que un humano entendería.

¿Cómo procesa una interfaz de voz lo que dices?

La mecánica de la comunicación entre un usuario y un sistema sigue una secuencia clara. Tomemos el ejemplo: Alex dice "Oye, Siri, pon música para dormir" [2:38].

Palabra de activación. El sistema reconoce que lo están llamando. "Oye, Siri", "OK, Google" o "Alexa" son ejemplos típicos.
Reconocimiento de voz. Identifica las palabras exactas que dijiste y las convierte en texto.
Entendimiento del lenguaje natural. Le da significado a la frase: el usuario quiere música tranquila para dormir.
Match de la intención. El sistema verifica si puede cumplir esa acción y, si sí, traduce la respuesta a habla con un "OK, reproduciendo" antes de ejecutar.

¿Qué es la palabra de activación? Es la frase que despierta al asistente y le indica que lo que sigue va dirigido a él, como "Oye, Siri" u "OK, Google".

¿Cuáles son los conceptos clave del diseño conversacional?

Aprender este vocabulario te permite documentar tu diseño y comunicarte con el equipo técnico sin malentendidos [4:40]. Se divide entre lo que dice el usuario y lo que dice el sistema.

¿Qué dice el usuario: intent, utterances y slots?

Lo que el usuario expresa tiene tres componentes que conviven en una sola frase.

La intención o intent es la acción que el usuario quiere realizar. Si quieres establecer una alarma, esa es tu intención final, sin importar cómo la digas.

Las expresiones o utterances son las distintas formas en que un usuario comunica esa intención. Por ejemplo, para pedir una alarma a las 10:00 podrías decir:

"Pon una alarma a las 10:00 a.m.".
"Despiértame a las 10:00".
"Setea un despertador a las 10:00".

Esto varía entre personas y regiones, así que tu diseño debe contemplar varias versiones de la misma intención.

Los slots son las variables necesarias para ejecutar la acción. En el caso de la alarma, el slot es la hora: 4:00 a.m., 6:00 a.m. o la que el usuario indique. Sin ese dato, la acción no se puede completar.

¿Qué dice el sistema: prompts y diálogos?

La respuesta del sistema se llama prompt o diálogo. Son todas las frases que diseñas para que el asistente conteste, confirme acciones o pida información faltante. Aquí está el corazón del diseño conversacional: cada prompt define el tono, la claridad y la utilidad de la experiencia.

¿Por qué importa esto para tu trabajo con el equipo técnico?

Manejar estos términos te abre dos ventajas concretas. La primera, puedes hacer preguntas más precisas sobre cómo funciona el sistema, qué se puede ejecutar y qué no. La segunda, puedes acordar con desarrollo el formato de documentación que más les sirve para construir lo que diseñas.

Un diseño bien documentado, con intents claros, utterances variadas, slots definidos y prompts cuidados, es lo que separa una conversación que funciona de una que frustra al usuario.

¿Qué intención y utterances diseñarías tú para una alarma matutina? Cuéntame tu propuesta en los comentarios.

Cómo funciona la IA detrás de Siri y Alexa

Bienvenida

Diseño de Interfaces de Voz: Principios y Prácticas

Introducción

Diseño de Interfaces de Voz: Historia y Aplicaciones Actuales

Qué hace un diseñador de conversaciones

Beneficios reales de las interfaces de voz

Retos de privacidad y sesgo en voz

Retos reales del reconocimiento de voz

Interfaces de voz para la accesibilidad

Cómo hablan los humanos y qué aprenden las máquinas