Qué es Control Net de Stable Difussion y cómo utilizarlo.
Clase 5 de 14 • Taller de Creación de Contenido con Inteligencia Artificial
ControlNet es un modelo AI para controlar la salida de modelos de difusión como lo son stable diffusion agregando nuevas características al resultado con base a condiciones extras y nuevos inputs, esto nos permite extender la capacidad de generación de imágenes de Stable Diffusion para detectar bordes, profundidad, poses del cuerpo y mucho más 🤯
Instalación:
Veremos el proceso para instalar ControlNet en AUTOMATIC 1111 y Stable Diffusion
1. Descarga la extensión
En la pestaña de “Extensions” pasamos a la ventana “Available” y damos al botón “Load from”, esto traerá todas las extensiones disponibles del repositorio de extensiones de AUTOMATIC 1111
En este punto seleccionamos la extensión llamada sd-webui-controlnet de las opciones que se nos muestran y damos al botón Install, una vez instalado reiniciamos AUTOMATIC 1111
2. Validar extension
En la misma pestaña de “Extensions” pero en “Installed” debería verse la extension instalada de esta manera
3. Descargar archivos
Descargamos los archivos .pth de este repositorio en huggingface, no hace falta descargarlos todos, pero cada modelo tiene una función especifica, para este caso usaremos canny que es uno de los mas útiles
Por último, los modelos que se descarguen debemos llevarlos a la siguiente ruta:
stable-diffusion-webui\extensions\sd-webui-controlnet\models
Y reiniciamos nuevamente AUTOMATIC 1111
4. ControlNet en AUTOMATIC 1111
Luego de reiniciar en la pestaña txt2img encontraras un menu desplegable con el nombre ControlNet o ControlNet + la version instalada, es desde ese menu donde vamos a controlar la salida de nuestros modelos
5. Configurando ControNet
Al desplegar el menu debemos:
- Activar ControlNet en el check de Enable
- Seleccionar un Preprocessor, para mi caso canny
- Seleccionar un modelo, que para este caso es el modelo canny descargado previamente
6. Cargando un Input
Canny es un modelo que detecta bordes en las imágenes y con base a ese mapa de bordes recrea una imagen, por lo cual se lleva muy bien con los logos y para este caso usaré el logo de Platzi
Al darle un prompt sencillo como “made of cheese” y generar el resultado es el logo de Platzi hecho de queso y su mapa de bordes
7. Multiples usos
Asi mismo puedo darle distintas texturas al logo de Platzi o cualquier logo, incluso a imagenes de animales o humanos
También podemos subir cualquier tipo de imágenes, como lo son animales:
Mapa de bordes:
Resultados:
8. Otros modelos
Existen multiples modelos como Cany para distintas opciones como lo son
OpenPose: para la detección de poses en el cuerpo humano
Scribbles: para la detección de patrones a mano alzada y llevarlos a alta resolución
MLSD: Para detección de bordes de arquitectura
Depth: Para detectar profundidad
Y múltiples modelos más que puedes ver en el repositorio oficial de ControlNet