Contenido del curso
Introducción
- 2

Diseño de Interfaces de Voz: Historia y Aplicaciones Actuales
06:18 min - 3

Diseño de Conversaciones para Interfaces de Voz
02:44 min - 4

Beneficios de las Interfaces de Voz en la Usabilidad y Accesibilidad
03:49 min - 5

Retos en el Diseño de Interfaces de Voz: Seguridad y Sesgos
04:08 min - 6

Retos y soluciones del reconocimiento de voz en interfaces modernas
03:31 min - 7

Interfaces de Voz y Accesibilidad para Personas con Discapacidades
02:56 min - 8

Comunicación Humana y Conversión de Pensamientos en Palabras
02:51 min - 9

Cómo funciona la IA detrás de Siri y Alexa
Viendo ahora - 10

Principios de Diseño para Experiencias de Voz Efectivas
09:05 min
Descubre y define
Diseño de Interfaz de Voz
- 15

Diseño de Diálogos para Asistentes de Voz: Buenas Prácticas
06:30 min - 16

Estrategias para Mejorar Interacciones en Sistemas de Voz
04:48 min - 17

Creación de Diálogos para Asistentes de Voz
08:01 min - 18

Evaluación de Diálogos en Guiones: Table Reading Práctico
02:57 min - 19

Creación de Flujos Conversacionales en Sistemas Interactivos
09:11 min
Prototipa y evalúa
Interfaces multimodal
Construye y lanza
Cierre
Live Class
Cómo funciona la IA detrás de Siri y Alexa
Resumen
Las interfaces de voz funcionan gracias a dos tecnologías de inteligencia artificial que trabajan juntas: el reconocimiento de voz y el procesamiento del lenguaje natural. Entender cómo se conectan te ayuda a diseñar conversaciones que el sistema realmente pueda ejecutar y a hablar el mismo idioma que tu equipo técnico.
Y aquí viene lo interesante: detrás de un simple "Oye, Siri, pon música para dormir" hay un proceso de cuatro pasos que vale la pena conocer a fondo.
¿Qué tecnologías hacen posible una interfaz de voz?
La inteligencia artificial nos permite resolver, a partir de datos, problemas que antes solo los humanos podían resolver: traducir voz a texto, identificar sentimientos o predecir lo que vas a escribir.
En las interfaces de voz hay dos técnicas centrales que ocurren en orden. Primero, el reconocimiento de voz convierte las palabras habladas en texto. Después, el procesamiento del lenguaje natural (NLP) le da significado y contexto a esas palabras para que el computador entienda qué quieres realmente.
¿Qué es el procesamiento del lenguaje natural? Es la técnica que permite a un computador entender el significado y el contexto de las palabras humanas, no solo transcribirlas.
¿Dónde ves NLP en tu día a día?
Probablemente lo usas más de lo que crees. Estos son ejemplos concretos donde el procesamiento del lenguaje natural ya está trabajando:
- Buscadores como Google, que predicen lo que vas a escribir mientras tecleas.
- Traductores que interpretan el contexto antes de devolverte una frase.
- Análisis de sentimientos en reseñas de producto, que separa comentarios positivos de negativos.
- Correctores ortográficos como Grammarly o Google Docs.
- Asistentes de voz como Siri, Alexa o Google Assistant [2:00].
Cada uno de estos casos combina datos, contexto y modelos entrenados para acercarse a lo que un humano entendería.
¿Cómo procesa una interfaz de voz lo que dices?
La mecánica de la comunicación entre un usuario y un sistema sigue una secuencia clara. Tomemos el ejemplo: Alex dice "Oye, Siri, pon música para dormir" [2:38].
- Palabra de activación. El sistema reconoce que lo están llamando. "Oye, Siri", "OK, Google" o "Alexa" son ejemplos típicos.
- Reconocimiento de voz. Identifica las palabras exactas que dijiste y las convierte en texto.
- Entendimiento del lenguaje natural. Le da significado a la frase: el usuario quiere música tranquila para dormir.
- Match de la intención. El sistema verifica si puede cumplir esa acción y, si sí, traduce la respuesta a habla con un "OK, reproduciendo" antes de ejecutar.
¿Qué es la palabra de activación? Es la frase que despierta al asistente y le indica que lo que sigue va dirigido a él, como "Oye, Siri" u "OK, Google".
¿Cuáles son los conceptos clave del diseño conversacional?
Aprender este vocabulario te permite documentar tu diseño y comunicarte con el equipo técnico sin malentendidos [4:40]. Se divide entre lo que dice el usuario y lo que dice el sistema.
¿Qué dice el usuario: intent, utterances y slots?
Lo que el usuario expresa tiene tres componentes que conviven en una sola frase.
La intención o intent es la acción que el usuario quiere realizar. Si quieres establecer una alarma, esa es tu intención final, sin importar cómo la digas.
Las expresiones o utterances son las distintas formas en que un usuario comunica esa intención. Por ejemplo, para pedir una alarma a las 10:00 podrías decir:
- "Pon una alarma a las 10:00 a.m.".
- "Despiértame a las 10:00".
- "Setea un despertador a las 10:00".
Esto varía entre personas y regiones, así que tu diseño debe contemplar varias versiones de la misma intención.
Los slots son las variables necesarias para ejecutar la acción. En el caso de la alarma, el slot es la hora: 4:00 a.m., 6:00 a.m. o la que el usuario indique. Sin ese dato, la acción no se puede completar.
¿Qué dice el sistema: prompts y diálogos?
La respuesta del sistema se llama prompt o diálogo. Son todas las frases que diseñas para que el asistente conteste, confirme acciones o pida información faltante. Aquí está el corazón del diseño conversacional: cada prompt define el tono, la claridad y la utilidad de la experiencia.
¿Por qué importa esto para tu trabajo con el equipo técnico?
Manejar estos términos te abre dos ventajas concretas. La primera, puedes hacer preguntas más precisas sobre cómo funciona el sistema, qué se puede ejecutar y qué no. La segunda, puedes acordar con desarrollo el formato de documentación que más les sirve para construir lo que diseñas.
Un diseño bien documentado, con intents claros, utterances variadas, slots definidos y prompts cuidados, es lo que separa una conversación que funciona de una que frustra al usuario.
¿Qué intención y utterances diseñarías tú para una alarma matutina? Cuéntame tu propuesta en los comentarios.