Diseño de Interfaces de Voz: Conceptos y Herramientas Básicas

Clase 28 de 28Curso de Diseño de Interfaces de Voz

Contenido del curso

Introducción

Resumen

Diseñar productos que respondan a la voz humana ya no es ciencia ficción. Con asistentes como Alexa, Siri y Google Home presentes en millones de hogares, la demanda de profesionales capaces de crear experiencias conversacionales crece cada día. Mariana Aristizábal, senior UX designer en MercadoLibre e investigadora en tecnologías emergentes, comparte las bases de esta disciplina, los principios que la rigen y el proceso práctico para diseñar una interfaz de voz desde cero.

¿Qué es una interfaz de voz y por qué importa aprenderla?

Una interfaz de voz es una tecnología que permite la interacción entre un usuario y un sistema mediante el habla [03:52]. A diferencia de las interfaces gráficas, donde tocamos botones y pantallas, aquí la voz es el canal principal. Hablar es algo que aprendemos de forma natural desde la infancia, y eso eleva las expectativas: los usuarios esperan conversaciones fluidas, no respuestas robóticas.

Las oportunidades que ofrece este tipo de interacción son concretas:

  • Multitasking: permite ejecutar acciones mientras cocinas, manejas o cargas cajas [05:22].
  • Velocidad: poner una alarma con la voz toma segundos frente a los múltiples pasos en pantalla [05:55].
  • Accesibilidad: personas con movilidad reducida o discapacidad visual pueden controlar dispositivos sin depender de interfaces visuales [06:16].

Pero también existen retos importantes. La privacidad de datos genera desconfianza en muchos usuarios [06:55]. El lenguaje humano es inherentemente complejo, con acentos, expresiones regionales y ambigüedades [07:38]. Y los retos tecnológicos como el ruido ambiental o las dificultades del habla aún limitan la precisión del reconocimiento de voz [07:50].

¿Qué hace un diseñador de conversaciones?

El rol de diseñador de conversaciones comparte ADN con el diseño UX, pero tiene particularidades propias [08:10]. No solo identifica quién es el usuario y qué necesita, sino que estudia cómo se comunica: qué palabras usa, qué expresiones son naturales en su contexto. Un niño no habla igual que un ejecutivo bancario, y una persona en Perú dice chambear mientras un argentino dice laburar [11:25].

Este profesional también define la personalidad del sistema, conocida como system persona [13:08]. Google Home puede contar chistes porque su personalidad lo permite, pero un asistente bancario necesita un tono serio y confiable. Definir el tono, la voz y el carácter de la interfaz es tan importante como escribir los diálogos.

¿Cómo funciona el principio de cooperación?

Uno de los principios fundamentales es el principio de cooperación [09:20], que establece que las conversaciones eficientes requieren colaboración genuina entre los participantes. Si le preguntas a alguien por un restaurante y responde solo "no", la conversación muere. Pero si dice "no sé, pero déjame preguntarle a un amigo", hay cooperación.

Aplicado a interfaces de voz, esto significa entregar información veraz y concisa. Listar diez resultados de corrido genera sobrecarga cognitiva; ofrecer cuatro y preguntar "¿quieres escuchar más?" respeta la capacidad de atención del usuario [10:30].

¿Cómo se prototipa y testea una interfaz de voz?

El proceso incluye crear diálogos tipo guion cinematográfico, donde se escribe qué dice el sistema y qué responde el usuario para cada caso de uso [14:12]. Después, estos diálogos se convierten en flujos conversacionales que mapean los diferentes caminos que puede tomar la interacción [15:05].

Para prototipar se utiliza una herramienta llamada Fable, que permite construir el flujo completo de la conversación de forma visual e intuitiva, con versión gratuita para hasta tres proyectos [16:25].

El testeo se realiza con una técnica llamada mago de voz [17:10], inspirada en El mago de Oz. Se conecta el prototipo a un speaker normal y, mientras el usuario cree estar hablando con una interfaz real, el diseñador escucha detrás de escena y selecciona las respuestas. Esto permite obtener feedback cercano a la realidad sin necesidad de desarrollar tecnología costosa.

¿Cómo impacta ChatGPT en el futuro de las interfaces de voz?

La integración de modelos de lenguaje como ChatGPT promete transformar las interfaces de voz haciéndolas mucho más naturales [22:48]. Su capacidad para comprender contexto, intenciones y mantener coherencia en la conversación puede resolver muchos de los problemas actuales donde las interacciones se sienten mecánicas.

Sin embargo, surge un dilema ético relevante: ¿hasta qué punto queremos que las interfaces parezcan humanas? [33:35]. Google ya demostró un asistente que usa pausas, muletillas como "mhm" y expresiones que hacen imposible distinguirlo de una persona real. Como diseñadores, tener presente esa frontera es una responsabilidad fundamental.

El camino para crecer en esta disciplina combina práctica constante, participación en hackatones con equipos multidisciplinarios [28:55] y la disposición a equivocarse sin dejar que la frustración frene el aprendizaje. ¿Ya has interactuado con alguna interfaz de voz que te haya sorprendido o frustrado? Comparte tu experiencia en los comentarios.