Dibuja en el aire con Python y MediaPipe

Contenido del curso

Eventos Exclusivos

Semana Platzi

Resumen

Aprender a dibujar en el aire usando solo tus manos es posible con Python, OpenCV y MediaPipe, una combinación de librerías que permite a tu computadora reconocer puntos del cuerpo en tiempo real desde una webcam común. Esta guía te muestra cómo funciona la visión artificial detrás de ese trend viral y para qué sirve más allá del arte.

¿Cómo entienden las imágenes las computadoras?

Cuando tú miras una foto, ves color y forma. La computadora, en cambio, ve números. Cada imagen se traduce a una representación numérica, normalmente una matriz tridimensional con los valores de color RGB.

Sobre esa base trabajan las dos librerías protagonistas. OpenCV es el estándar para tareas de computer vision: capturar video, procesar frames y dibujar sobre ellos. MediaPipe, desarrollada y mantenida por Google, detecta puntos característicos del rostro, el cuerpo y las manos, lo que se conoce como landmarks [02:48].

¿Qué son los landmarks en visión artificial? Son puntos específicos del cuerpo que el modelo identifica, como la esquina de los ojos, el centro de la nariz, los labios o las articulaciones de la mano. Sirven para describir una pose o un gesto en coordenadas numéricas.

Es la misma lógica de las películas animadas que capturaban movimiento poniendo marcadores en los actores, solo que aquí lo hace un modelo entrenado.

¿Qué necesitas para correr este proyecto en tu computadora?

La gran ventaja es que no necesitas hardware potente. Estos modelos son muy ligeros y corren en equipos modestos.

Python instalado.
Las librerías OpenCV y MediaPipe.
Una webcam, integrada o externa.
Un editor como Visual Studio Code, ya que Google Colab no puede acceder a tu cámara local [11:20].

En la demo en vivo, el script corrió en una computadora con procesador i5, sin GPU, con Windows y memoria reducida, sin perder fluidez [33:30]. Incluso una Raspberry Pi puede ejecutarlo.

¿Cómo se detecta cara, cuerpo y manos paso a paso?

El flujo típico abre la cámara, captura cada frame, lo procesa en escala de color RGB y dibuja los landmarks uniéndolos con líneas. Para que el modelo no marque cualquier cosa, se define un parámetro de confidence (por ejemplo 0.5 o 0.7), que es el umbral mínimo de seguridad con el que el sistema valida que lo que ve es realmente un rostro o una mano [07:10].

En el caso de las manos, MediaPipe permite además fijar la cantidad máxima a detectar, por ejemplo dos. Por eso en la demo, cuando aparecía una tercera mano, el modelo solo seguía a las dos primeras [09:40].

¿Cómo funciona el script para dibujar en el aire?

La idea es simple y elegante. Sobre el video original que captura la webcam se superpone un canvas o lienzo digital. El sistema rastrea el dedo índice de la mano y, en cada cuadro, marca un punto en la posición exacta donde está la punta del dedo [16:00].

Al ir uniendo esos puntos cuadro a cuadro, aparece el trazo. La imagen se espeja para que el movimiento coincida con tu reflejo y dibujar se sienta natural.

¿Por qué los trazos a veces se ven entrecortados? Porque la velocidad del movimiento supera la cantidad de frames por segundo que la cámara puede capturar. Si mueves el dedo lento, la línea sale fluida; con cámaras de mayor fps, el trazo es más continuo.

¿Qué puedes personalizar en el código?

Aquí entra la parte divertida. El notebook permite ajustar varios parámetros y convertirlo en algo tuyo.

Resolución de la cámara, por ejemplo 1920x1080 full HD. A más resolución, más demora la carga.
Paleta de colores: rojo por defecto, pero puedes sumar rosado, naranja o el que quieras.
Grosor del pincel en píxeles.
Sensibilidad del tracking y velocidad de dibujo.
Número máximo de manos a detectar.

¿Dónde se usa esta tecnología en la industria?

Dibujar en el aire es solo una excusa. Las mismas librerías sostienen aplicaciones que probablemente ya usas todos los días.

Reconocimiento facial bancario: al registrarte en un banco, tu selfie se compara contra la foto del DNI usando estos puntos característicos [05:50]. Es la misma base del desbloqueo facial del celular.
Tiendas inteligentes tipo Amazon Go: el hand tracking detecta si tomaste o devolviste un producto del estante [09:00].
Mapas de calor en retail: rastrean qué góndolas o productos miran más los clientes, una técnica de neuromarketing aplicada con visión artificial [38:20].
Cámaras CCTV: detección de personas, conteo y análisis de desplazamientos.
VAR en el fútbol: combinación de varias cámaras para validar posiciones adelantadas.
Drones agrícolas: detección de maleza en cultivos de soja, transmitiendo coordenadas GPS junto al video [44:30].
Medicina preventiva: análisis de radiografías y tomografías para detectar tumores o neumonía en etapas tempranas.

¿Sirve para reconocer lenguaje de señas o emociones?

Sí en ambos casos. Para lenguaje de señas existen dos caminos: entrenar un modelo con fotos de cada seña, o usar los landmarks de la mano y comparar la posición contra una seña de referencia [21:30].

La detección de emociones se usa, por ejemplo, en procesos de onboarding bancario para validar si la persona en la selfie está sonriendo o triste y contrastar con el documento. También hay modelos para fatiga, distracción o postura corporal [40:30].

¿Qué necesitas saber para entrenar tus propios modelos?

Más allá de Python, conviene apoyarse en fundamentos técnicos concretos. El álgebra lineal es el subcampo matemático clave, porque todo termina siendo operaciones entre vectores y matrices: una imagen es una matriz, un texto se vectoriza, un sonido se descompone en frecuencias.

¿Qué es Transfer Learning y por qué importa? Es una técnica que reutiliza modelos ya entrenados para adaptarlos a tu problema con menos datos y menos costo computacional. Es la forma más práctica de entrenar visión artificial sin GPUs caras.

Para llevar un proyecto a producción, lo habitual es exponer el modelo como una API que recibe imágenes y devuelve resultados, o establecer una conexión por WebSocket o TCP/IP cuando necesitas analizar muchos cuadros por segundo [31:00].

¿Qué proyecto se te ocurre construir con esto? Cuéntalo en los comentarios y comparte tus capturas si te animas a replicar el dibujo en el aire.

Mateo Montoya Henao

Estudiante

"Dibujos en el Aire" es un clásico fascinante para introducirse en la Visión Artificial y demostrar el poder de la IA y librerías como OpenCV y MediaPipe. Aquí te presento una estructura de curso, los temas clave, los requisitos y un plan de acción para un curso de "Dibujos en el Aire con Python, OpenCV y MediaPipe":

🎯 Título del Curso: Dibujos en el Aire: Visión Artificial Interactiva con Python, OpenCV y MediaPipe

Objetivo General: Capacitar a los estudiantes para crear aplicaciones interactivas de visión artificial que detecten gestos de la mano y los traduzcan en acciones, como dibujar en una pantalla virtual.Requisitos:

Python: Conocimientos básicos de programación (variables, estructuras de control, funciones, manejo de listas/diccionarios).
Fundamentos de Python: Loops, condicionales, funciones.
Terminal/Línea de Comandos: Conocer lo básico para instalar paquetes.
Hardware: Cámara web (integrada o externa).
Software: VS Code u otro IDE, Python 3.8+ instalado.

📚 Contenido del Curso: Módulos y Temas

Módulo 1: Introducción a la Visión Artificial y Entorno de Desarrollo

Lección 1.1: ¿Qué es la Visión Artificial? Aplicaciones y Casos de Uso.
Lección 1.2: Configuración del Entorno: Python, Pip, Virtual Environments.
Lección 1.3: Introducción a OpenCV: Instalación, Carga de Imágenes/Videos, Detección de Cámara.
Lección 1.4: Operaciones Básicas con OpenCV: Redimensionar, Escala de Grises, Mostrar Frames.
Proyecto Corto: Mostrar tu webcam en vivo usando OpenCV.

Módulo 2: Fundamentos de MediaPipe para la Detección de Manos

Lección 2.1: ¿Qué es MediaPipe? Un vistazo a sus capacidades (Manos, Rostros, Pose).
Lección 2.2: Instalación de MediaPipe y Configuración Inicial.
Lección 2.3: Detección de Manos con MediaPipe Holistic (o Hands):
- Cargar el modelo.
- Procesar frames de video.
- Extraer landmarks (puntos clave) de la mano.
Lección 2.4: Visualización de Landmarks: Dibujar círculos y líneas en los puntos de la mano.
Lección 2.5: Acceso a Coordenadas (X, Y, Z) de los Landmarks.
Proyecto Corto: Detección y visualización en tiempo real de los 21 puntos clave de tu mano.

Módulo 3: Lógica de Dibujo y Estado de la Aplicación

Lección 3.1: Conceptos de "Lienzo Virtual": Crear un área para dibujar.
Lección 3.2: Detección del Gesto "Pintar":
- Calcular la distancia entre landmarks (ej. dedo índice y pulgar).
- Definir un umbral para considerar el gesto "pintar" (cercano).
Lección 3.3: Mapeo de Coordenadas de la Cámara a Coordenadas del Lienzo.
Lección 3.4: Almacenamiento de Puntos: Listas para guardar las coordenadas de los trazos.
Lección 3.5: Dibujar los Trazos en el Lienzo usando OpenCV (líneas, círculos).
Proyecto Corto: Crea un "lienzo negro" y dibuja un solo punto si detectas el gesto.

Módulo 4: Funcionalidades Avanzadas y Mejoras

Lección 4.1: Selección de Color:
- Detectar un "punto de control" (ej. dedo medio) para cambiar el color.
- Usar una interfaz de usuario simple (botones en pantalla o detección de objetos).
Lección 4.2: Borrador:
- Implementar un gesto para activar el borrador (ej. puño cerrado).
- Dibujar con el color de fondo o reestablecer parte del lienzo.
Lección 4.3: Limpiar el Lienzo (Reset):
- Gesto específico (ej. dos manos, o "V" con dedos).
Lección 4.4: Optimización del Rendimiento:
- Reducir el tamaño de los frames.
- Manejar la carga de la CPU/GPU.
Lección 4.5: Suavizado de Trazos (Opcional): Técnicas básicas para hacer los dibujos menos "temblorosos".
Proyecto Principal: Construye la aplicación completa de "Dibujo en el Aire" con selección de color y borrador.

Módulo 5: Despliegue y Próximos Pasos (Opcional, Nivel Más Avanzado)

Lección 5.1: Exportar el Dibujo (ej. guardar como imagen PNG).
Lección 5.2: Consideraciones de Iluminación y Ambiente.
Lección 5.3: Ideas para Próximos Proyectos: Controlar interfaces con gestos, juegos.

👩‍🏫 Metodología Pedagógica Sugerida

Teoría + Práctica Inmediata: Cada concepto nuevo se explica brevemente y se sigue con un ejercicio de codificación.
"Live Coding": El instructor programa en vivo, explicando cada línea.
Desafíos Cortos: Pequeños ejercicios al final de cada lección para que los estudiantes apliquen lo aprendido.
Proyectos Guiados: Construcción iterativa de la aplicación principal a lo largo del curso.
Recursos: Código fuente en GitHub, diapositivas con resúmenes, lecturas adicionales.

💡 Claves para el éxito del curso

Explicaciones claras de los errores comunes: MediaPipe puede ser un poco delicado con la iluminación o la posición de la mano. Anticipar estos problemas.
Visualización: Hacer un uso intensivo de la visualización de los landmarks y los resultados intermedios para que los estudiantes entiendan lo que está pasando.
Debugging: Enseñar técnicas básicas de debugging.
Inspiración: Mostrar ejemplos de otras aplicaciones interactivas con visión artificial para motivar.
Adaptabilidad: Aconsejar cómo adaptar el código para diferentes cámaras o condiciones de luz.

Dibuja en el aire con Python y MediaPipe

Eventos Exclusivos

Cómo las GPU aceleran la IA con CUDA

Futuro tech: fundamentos que sí importan

Por qué Python es mejor lenguaje de programación

Matrices y embeddings en modelos de IA

Cómo aprender inglés con 5 preguntas clave

Gestión de equipos y proyectos con Notion

Mejora tu inglés sin hablar con nativos

Prompts y Herramientas de AI para Practicar Inglés

Deep Learning y Autos Autónomos: Ingeniería y Matemáticas Detrás

Ideas prácticas para emprender con tecnología - Freddy Vega

Phrasal Verbs: Lleva tu Inglés al Siguiente Nivel

Cómo aprendimos inglés sin vivir en el extranjero

Tips de experta para subir tu puntaje TOEFL

Taller: Herramientas para Crear videos usando IA

Sergi Code: CSS, IA y el frontend hoy

Título universitario de EE.UU. con Platzi

IA para finanzas sin ser developer

Empleo tech para jóvenes en Colombia

Semana Platzi

IA y ciberseguridad: cómo defender tu empresa

GitHub Copilot: Revolución en la Programación con IA

Creación de Contenido Viral en Redes Sociales

Fundamentos de Node.js y ExpressJS para Backend en JavaScript

¿Por dónde comenzar en Platzi?

Optimización de Google Search con Inteligencia Artificial

Retención: la base real del growth

Frameworks Modernos para Backend: Javascript, Python y Más

Generación de Imágenes con Inteligencia Artificial

Habilidades técnicas y blandas para crecer en data

Dibuja en el aire con Python y MediaPipe

Cómo funcionan los LLMs por dentro

Crea una landing page con Cursor en 45 min

Los secretos de crear software que sólo aprendes con experiencia

Campañas de Meta AI con menos estructura

Rutas de certificación AWS por rol

Pika, Runway y Hailuo para crear videos

Marca personal más allá del currículum

Cómo entrar al mundo de Data Science

El verdadero rol de la Product Manager

¿Realmente puedo aprender Inglés en línea?

Cuatro fundamentos para prompts sin alucinaciones

Creación y gestión de bases de datos en Notion

Mejora tu flujo de trabajo como dev con AI

Testing de Componentes React con React Testing Library

Python y LLMs en tu backend

Temp Material d220ec9e

Temp Material 93383299

Optimiza tu perfil de LinkedIn con IA

Resumen