Qué es Control Net de Stable Difussion y cómo utilizarlo.

Clase 5 de 14Taller de Creación de Contenido con Inteligencia Artificial

ControlNet es un modelo AI para controlar la salida de modelos de difusión como lo son stable diffusion agregando nuevas características al resultado con base a condiciones extras y nuevos inputs, esto nos permite extender la capacidad de generación de imágenes de Stable Diffusion para detectar bordes, profundidad, poses del cuerpo y mucho más 🤯

Instalación:

Veremos el proceso para instalar ControlNet en AUTOMATIC 1111 y Stable Diffusion

1. Descarga la extensión

En la pestaña de “Extensions” pasamos a la ventana “Available” y damos al botón “Load from”, esto traerá todas las extensiones disponibles del repositorio de extensiones de AUTOMATIC 1111

En este punto seleccionamos la extensión llamada sd-webui-controlnet de las opciones que se nos muestran y damos al botón Install, una vez instalado reiniciamos AUTOMATIC 1111

2. Validar extension

En la misma pestaña de “Extensions” pero en “Installed” debería verse la extension instalada de esta manera

3. Descargar archivos

Descargamos los archivos .pth de este repositorio en huggingface, no hace falta descargarlos todos, pero cada modelo tiene una función especifica, para este caso usaremos canny que es uno de los mas útiles

Por último, los modelos que se descarguen debemos llevarlos a la siguiente ruta:

stable-diffusion-webui\extensions\sd-webui-controlnet\models

Y reiniciamos nuevamente AUTOMATIC 1111

4. ControlNet en AUTOMATIC 1111

Luego de reiniciar en la pestaña txt2img encontraras un menu desplegable con el nombre ControlNet o ControlNet + la version instalada, es desde ese menu donde vamos a controlar la salida de nuestros modelos

5. Configurando ControNet

Al desplegar el menu debemos:

  1. Activar ControlNet en el check de Enable
  2. Seleccionar un Preprocessor, para mi caso canny
  3. Seleccionar un modelo, que para este caso es el modelo canny descargado previamente

6. Cargando un Input

Canny es un modelo que detecta bordes en las imágenes y con base a ese mapa de bordes recrea una imagen, por lo cual se lleva muy bien con los logos y para este caso usaré el logo de Platzi

Al darle un prompt sencillo como “made of cheese” y generar el resultado es el logo de Platzi hecho de queso y su mapa de bordes

7. Multiples usos

Asi mismo puedo darle distintas texturas al logo de Platzi o cualquier logo, incluso a imagenes de animales o humanos

También podemos subir cualquier tipo de imágenes, como lo son animales:

Mapa de bordes:

Resultados:

8. Otros modelos

Existen multiples modelos como Cany para distintas opciones como lo son

OpenPose: para la detección de poses en el cuerpo humano

Scribbles: para la detección de patrones a mano alzada y llevarlos a alta resolución

MLSD: Para detección de bordes de arquitectura

Depth: Para detectar profundidad

Y múltiples modelos más que puedes ver en el repositorio oficial de ControlNet