Resumen

La inteligencia artificial generativa ya no es un concepto futurista: está en tu celular, en tu navegador y al alcance de cualquier persona que quiera crear o editar imágenes sin necesidad de ser diseñador profesional. Desde borrar elementos no deseados en una foto hasta construir escenas completas a partir de una descripción de texto, las posibilidades son enormes, pero también exigen responsabilidad.

¿Cómo funciona la IA generativa en la edición de imágenes?

El punto de partida es sencillo: seleccionas un objeto en una foto, presionas generar y la inteligencia artificial lo elimina o lo reemplaza [0:30]. Esa palabra, generar, es la pista clave. A diferencia de un retoque manual, aquí el modelo crea píxeles nuevos que no existían antes. Esto es inteligencia artificial generativa, la misma familia tecnológica detrás de ChatGPT, aunque con una diferencia fundamental.

Los grandes modelos de lenguaje (Large Language Models) como ChatGPT, Claude o Llama operan con texto: reciben texto y producen texto, basándose en patrones del lenguaje humano [1:30]. Los modelos de imagen, en cambio, reciben una imagen o un prompt de texto y producen otra imagen. La tecnología subyacente es distinta, pero comparten un ingrediente esencial: el elemento de azar. Ese componente aleatorio es lo que permite que cada resultado sea diferente y novedoso. Sin embargo, como se aclara con contundencia, esto no es creatividad humana: los modelos combinan elementos con los que fueron entrenados, no inventan desde cero [1:55].

¿Qué herramientas existen para generar imágenes con IA?

Más allá de la IA integrada en el celular, grandes marcas de software como Photoshop de Adobe y Canva están incorporando funciones de inteligencia artificial en sus productos [3:05]. Pero también han surgido herramientas nativas de IA, diseñadas específicamente para generar y editar imágenes.

Una de ellas es Ideogram, destacada por su precisión y su buen manejo de textos dentro de las imágenes, algo que históricamente ha sido un problema para estos modelos [3:25]. Al ingresar, se observa una galería de creaciones de otros usuarios, lo que evidencia cuánto han mejorado estos sistemas desde sus primeras versiones, cuando las imágenes generadas lucían extrañas y poco convincentes.

¿Cómo se crea una imagen desde cero con un prompt?

El proceso parte de una descripción textual. En el ejemplo mostrado se solicitó una botella de jugo verde con la etiqueta "Nunca parar de aprender" en estilo realista y proporción dos a uno [4:10]. Las palabras importan: mientras más específico sea el prompt, mejor será el resultado. También se puede elegir el estilo visual (realista, ilustración, automático) y la proporción de la imagen.

Durante la generación, las imágenes emergen desde lo que se denomina ruido, un proceso computacionalmente intensivo donde primero aparecen borradores difusos que se van refinando [4:55]. El modelo produjo varias versiones, algunas con distorsiones en las letras y otras con resultados limpios y profesionales.

¿Qué es la extensión de imagen y cómo se usa?

Una funcionalidad cada vez más popular es el canvas o lienzo [3:40], que permite extender una imagen más allá de sus bordes originales. Se selecciona el área de referencia, se amplía el marco y se describe qué debe aparecer en el nuevo espacio [6:10]. En el ejemplo, la botella de jugo se integró en una escena donde una mujer ejecutiva trabajaba en su escritorio con su laptop.

El resultado fusionó la imagen original con los nuevos elementos generados, manteniendo la botella en primer plano. Cada vez que se repite el proceso, el resultado será diferente por ese componente de azar [7:20]. Esto lo convierte en una herramienta poderosa para explorar conceptos visuales, prototipar ideas de campañas publicitarias o preparar presentaciones rápidas.

¿Por qué el uso responsable es imprescindible?

Una anécdota ilustra los riesgos: una conferencista descubrió que al extender su foto con IA, el modelo generó un escote que no existía en la imagen original [8:30]. Esto ocurre porque los modelos están entrenados con conjuntos de datos seleccionados por humanos, y esos datos pueden contener sesgos. Si las imágenes de entrenamiento reproducen ciertos patrones, el modelo los replica sin criterio ético [9:40].

  • Los datos de entrenamiento incluyen imágenes, documentos y transcripciones de internet.
  • No todo lo que está en internet es de dominio público.
  • Existen demandas de artistas contra empresas por el uso no autorizado de sus obras [10:30].
  • Es fundamental revisar los términos de uso de cada herramienta para entender quién retiene los derechos sobre la imagen generada.

Otras herramientas relevantes incluyen Stable Diffusion, considerado pionero en la generación de imágenes [11:10], Flux por la calidad de sus resultados, y HeyGen para la generación de avatares y video a partir de una imagen [11:30].

La invitación es clara: todas estas herramientas ofrecen versiones gratuitas para experimentar. Ya no hay excusa para no explorar, pero siempre con la persona en el centro del proceso, revisando, validando y decidiendo qué tiene sentido y qué no.