Contenido del curso
Introducción
- 2

Diseño de Interfaces de Voz: Historia y Aplicaciones Actuales
06:18 min - 3

Qué hace un diseñador de conversaciones
02:44 min - 4

Beneficios reales de las interfaces de voz
03:48 min - 5

Retos de privacidad y sesgo en voz
04:08 min - 6

Retos reales del reconocimiento de voz
03:32 min - 7

Interfaces de voz para la accesibilidad
02:56 min - 8

Cómo hablan los humanos y qué aprenden las máquinas
Viendo ahora - 9

Cómo funciona la IA detrás de Siri y Alexa
06:27 min - 10

Principios para diseñar conversaciones de voz
09:05 min
Descubre y define
Diseño de Interfaz de Voz
- 15

Diseño de Diálogos para Asistentes de Voz: Buenas Prácticas
06:30 min - 16

Estrategias para Mejorar Interacciones en Sistemas de Voz
04:48 min - 17

Creación de Diálogos para Asistentes de Voz
08:01 min - 18

Table reading para validar diálogos de voz
02:57 min - 19

Creación de Flujos Conversacionales en Sistemas Interactivos
09:11 min
Prototipa y evalúa
Interfaces multimodal
Construye y lanza
Cierre
Live Class
Cómo hablan los humanos y qué aprenden las máquinas
Resumen
La comunicación humana es la base para diseñar interfaces de voz que realmente funcionen. Si entiendes cómo hablamos, escuchamos e interpretamos mensajes, puedes traducir esos mecanismos al diseño de productos conversacionales. Esta guía es para diseñadores, desarrolladores y product managers que trabajan con voz.
¿Por qué importa entender la comunicación humana al diseñar interfaces de voz?
Los humanos no vamos a cambiar pronto la forma en que nos comunicamos, y tampoco podemos pedirle a la gente que aprenda un nuevo lenguaje para hablarle a una máquina. Por eso, el camino correcto es tomar lo que ya sabemos del lenguaje natural y adaptarlo a la experiencia digital.
Y aquí viene lo interesante: cuando diseñas pensando en cómo las personas ya hablan, reduces fricción y haces que la interacción se sienta natural.
¿Cuáles son las formas en que nos comunicamos los humanos?
Los humanos usamos varios canales en paralelo, no solo uno. Reconocer esa variedad te ayuda a definir qué parte estás digitalizando cuando construyes una interfaz.
- Lenguaje no verbal: gestos al hablar, movimientos de la boca o lenguaje de señas.
- Escritura: desde un ensayo formal hasta un mensaje de chat.
- Escritura y lectura táctil: como el sistema braille.
- Voz: el enfoque central cuando hablamos de interfaces conversacionales.
Cada canal carga información distinta, y la voz casi nunca viaja sola: se mezcla con gestos y expresiones que también comunican.
¿Qué es una interfaz de voz? Es un sistema que permite interactuar con un computador usando el habla en lugar de texto o clics, imitando la forma natural en que las personas se comunican.
¿Qué es The Speech Chain y cómo explica una conversación?
Para entender el mecanismo detrás de una conversación, vale la pena revisar un concepto del lingüista Peter B. Denis llamado The Speech Chain [01:00]. Describe paso a paso qué pasa cuando dos personas hablan.
Imagina que Alex y Gabi están conversando. Alex quiere preguntarle a Gabi cómo va su vida. Esto es lo que ocurre:
- Alex tiene un pensamiento que quiere comunicar.
- Su cerebro transforma ese pensamiento en palabras o frases que tengan sentido.
- El cerebro envía una señal a los órganos vocales, como los pulmones y la boca, para emitir sonidos.
- Al hablar, Alex genera ondas de sonido que viajan por el aire.
- Gabi, la persona oyente, recibe esas ondas y las procesa como información auditiva.
- Esa información auditiva se complementa con información visual: gestos, sonrisa, expresión de enojo.
- El cerebro de Gabi le da significado a todo lo que recibió, mezclando lo que escuchó y lo que vio.
- Si Gabi quiere responder, el ciclo vuelve a empezar desde el paso uno.
Este flujo muestra que una conversación no es solo hablar y escuchar. Es pensamiento, codificación, emisión, recepción, interpretación y respuesta, todo encadenado.
¿Por qué se llama cadena del habla?
Porque cada eslabón depende del anterior. Si el pensamiento no se traduce bien en palabras, el receptor recibe ruido. Si los gestos contradicen la voz, la interpretación cambia. Es una cadena precisamente porque romper un punto afecta toda la comunicación.
¿Qué hace el cerebro cuando alguien nos habla? Recibe la información auditiva, la combina con señales visuales como gestos y expresiones, y arma un significado completo a partir de esa mezcla.
¿Cómo aplicamos esto al diseño de interfaces conversacionales?
Entender The Speech Chain deja claro lo compleja que es la comunicación humana. Y ese es justamente el reto cuando trabajas con computadores: enseñarles a interpretar lo que dice una persona, no solo a transcribir palabras.
Un buen diseño de voz tiene que considerar varias capas al mismo tiempo:
- Cómo se traduce una intención en palabras.
- Qué señales acompañan al habla en una conversación natural.
- Cómo el receptor, en este caso la máquina, asigna significado.
La próxima parada es la tecnología que hace posible todo esto. ¿Qué interfaz de voz te ha sorprendido por sentirse más humana? Cuéntame en los comentarios.