Resumen

Tu billetera digital puede dejar de depender solo del texto. Con un asistente IA multimodal, puedes registrar gastos enviando una foto del ticket o dictando una nota de voz, sin escribir una sola palabra. La regla sigue siendo la misma: guardar lo confiable, preguntar lo que falta y rechazar lo que no pertenece a tu billetera.

Esta guía es útil si estás construyendo una app financiera con Google AI Builder y quieres extender su capacidad para procesar imágenes, audio y texto desde una misma interfaz.

Cómo extender un asistente IA para aceptar imagen y audio

La idea es que el asistente reciba un ticket, recibo o captura de compra y extraiga tres datos: monto, fecha y descripción. Si algo no se ve con claridad, debe preguntar antes de actuar. Lo mismo aplica para el audio: transcribir la nota de voz, extraer los mismos campos y pedir aclaración si falta alguno.

Después de guardar el gasto, el asistente actualiza el dashboard, los movimientos, el presupuesto disponible y la gráfica. Y siempre responde usando el nombre de la persona. Si la imagen o el audio no tienen nada que ver con la billetera, simplemente responde que no puede registrarlo [01:30].

Qué hacer cuando aparece un error de permisos

Al probar la opción de hablar por primera vez, es común que aparezca un error de permisos del micrófono. El builder lo detecta y ofrece la opción de arreglar automáticamente. Mientras se corrige, vale la pena revisar el panel de logs.

¿Qué es un log en una aplicación? Es un registro de eventos que ocurren dentro de la app: conexiones a la base de datos, advertencias de diseño, errores y confirmaciones. Sirve para entender qué está pasando por dentro cuando algo falla.

Si quieres agregar tus propios logs personalizados, puedes pedírselo directamente al builder [02:50].

Por qué cambian las instrucciones del asistente entre versiones

Al probar el audio diciendo “ayer almorcé pizza”, el asistente pidió información que antes resolvía automáticamente, como la categoría del gasto. Esto suele tener dos causas: el audio no se transcribió bien o las instrucciones internas del asistente cambiaron entre versiones.

Cuál es la diferencia entre un prompt y unas instrucciones

Piénsalo como un restaurante. El prompt es el pedido específico: quiero una hamburguesa con papas, sin cebolla. Las instrucciones son el manual que el chef sigue siempre: estándares de calidad, forma de presentación, pasos de cocción.

¿Qué son las instrucciones de un asistente IA? Son las reglas permanentes que definen cómo se comporta el modelo en cada interacción, sin que tengas que repetirlas en cada mensaje. El prompt cambia, las instrucciones se mantienen.

Cada vez que haces un request en Google AI Builder se genera código nuevo, y eso queda registrado en el panel de versiones [05:10].

Cómo restaurar una versión anterior sin perder cambios nuevos

En el panel de Configuraciones puedes comparar versiones lado a lado y ver exactamente qué cambió en el código. Al revisar la versión del 5 de mayo, aparecía un bloque con reglas de oro, un proceso de registro de gasto y una sección de consultas. En la versión más reciente ese bloque había sido reemplazado por solo seis reglas, lo que explicaba el comportamiento extraño.

La solución fue restaurar la versión anterior y luego volver a pedir los cambios nuevos con una condición extra: no modificar las instrucciones existentes del asistente. Pasos básicos:

  • Identificar la versión que tiene las instrucciones correctas.
  • Hacer clic en restaurar versión.
  • Volver a aplicar los cambios deseados (imagen, audio, permisos).
  • Añadir explícitamente la regla de no sobrescribir las instrucciones previas.

Cómo probar el asistente con voz, imagen y texto

Una vez restaurada la versión correcta, el diseño del asistente se ve mucho más pulido. Al dictar “el día de ayer almorcé pizza”, el asistente pregunta el monto. Le respondes $15.000, confirma el año 2026 y registra la pizza en la fecha correcta [09:40].

Para la imagen, basta cargar un recibo real. El asistente extrae el texto, sugiere una descripción, un monto de $49.900 y una categoría. Como el recibo no mostraba fecha explícita, preguntó si correspondía al día actual o al anterior antes de guardar.

Este flujo demuestra tres cosas que debe hacer un buen asistente financiero:

  1. Extraer los datos confiables de cualquier formato.
  2. Preguntar cuando falte información clave.
  3. Confirmar antes de registrar y rechazar lo que no pertenece.

Cuál es el reto final del módulo

El reto consiste en crear la transcripción de voz a texto dentro de la aplicación. En cada caso, aplica la misma lógica: si falta un dato, pregunta; si tiene los datos mínimos, guarda; si no es de tu billetera, rechaza.

Comparte tu caso más interesante en los comentarios: el que guardó bien, el que pidió aclaración o el que rechazó correctamente. ¿Cuál fue el más difícil de resolver?