Arena Mode

Resumen

Imagina poder enfrentar a dos modelos de inteligencia artificial en la misma ventana, sobre la misma tarea, y elegir al ganador con un solo clic. Eso es exactamente lo que permite el Arena Mode de Windsurf, una funcionalidad que resuelve un problema real: comparar resultados de distintos modelos sin manejar ramas ni pestañas por separado.

¿Qué problema resuelve el Arena Mode?

Antes de esta funcionalidad, si querías comparar la respuesta de un modelo de OpenAI con uno de Anthropic, necesitabas abrir dos tabs, crear dos ramas distintas y gestionar posibles conflictos de manera manual. Esto resultaba tedioso y aumentaba las probabilidades de errores. El Arena Mode elimina esa fricción: seleccionas dos modelos, lanzas un mismo prompt y Windsurf se encarga de ejecutar ambos en paralelo, cada uno en su propia rama, de forma completamente automática [0:40].

Al finalizar, puedes revisar las respuestas lado a lado y seleccionar la que mejor se adapte a lo que necesitas. Esa elección además suma puntos al modelo ganador en el leaderboard de Windsurf, donde la comunidad va construyendo un ranking colaborativo.

¿Cómo se configura y ejecuta una comparación en Arena Mode?

Para activar esta funcionalidad, basta con crear una nueva sesión de Cascade y, en lugar de seleccionar un modelo single, cambiar al modo arena [1:16]. Allí puedes elegir los dos modelos que quieras enfrentar. En el ejemplo práctico, se seleccionaron Claude Opus 4.5 de Anthropic y GPT 5.2 de OpenAI para transformar un archivo index.html básico en la homepage de un e-commerce [1:40].

Al enviar el prompt, Windsurf automáticamente:

Crea una rama distinta para cada modelo.
Ejecuta ambas tareas en paralelo sin intervención manual.
Muestra los resultados en tabs separados dentro de la misma sesión de Cascade.

¿Qué diferencias se observaron entre los modelos?

Los resultados mostraron contrastes interesantes. El Opus 4.5 generó 969 líneas agregadas y 91 eliminadas, entregando un diseño más detallado con un header que incluía secciones como "Mi cuenta", "Favoritos" y "Carrito", además de un menú de navegación con categorías como Ofertas, Ropa, Electrónica, Hogar, Deportes y Belleza [3:18]. Por su parte, el GPT 5.2 produjo alrededor de 700 líneas, un resultado más compacto.

Ambos modelos reescribieron el index.html completo, incluyendo el CSS directamente dentro del HTML. Aunque esto no representa la mejor práctica — lo ideal sería mantener los estilos separados o utilizar un framework como Tailwind — sirvió perfectamente para la demostración [3:40].

¿Cómo se selecciona el modelo ganador?

Una vez completadas ambas respuestas, aparecen opciones para proceder con uno de los dos modelos. Al seleccionar el Opus 4.5, se mostró una animación con un ícono de copa indicando la elección [4:18]. Después, al hacer merge de la rama ganadora a la rama principal, los cambios se reflejaron de inmediato en el navegador: una página profesional de e-commerce llamada "Tienda Verde", con categorías creadas automáticamente por el modelo a partir de un prompt mínimo [4:45].

¿Qué es el leaderboard y cómo funciona el sistema Elo?

Cada vez que seleccionas un modelo como ganador en el Arena Mode, contribuyes al leaderboard de Windsurf [5:15]. Este ranking utiliza el modelo Elo, el mismo sistema de clasificación usado en ajedrez, donde cada victoria o derrota ajusta la puntuación relativa de los competidores. No solo muestra la posición y el nombre del modelo, sino también la organización a la que pertenece.

Entre los modelos mejor posicionados se encuentran:

Claude Opus 4.5 de Anthropic.
GPT 5.2 de OpenAI.
Kimi K2.5.
SWE 1.5 Fast de Cognition.

Este sistema de gamificación convierte la evaluación de modelos en algo dinámico y participativo. Puedes usarlo para probar modelos que aún no forman parte de tu flujo diario y decidir con datos reales cuál funciona mejor para tus necesidades [5:40].

El Arena Mode transforma la manera de trabajar con agentes dentro de un editor de código. ¿Ya probaste enfrentar a tus modelos favoritos? Comparte tu experiencia en los comentarios.

Arena Mode

Fundamentos de Windsurf

Conoce Windsurf

Instalación y configuración de Windsurf en MacOS

Planifica con Cascade en modo Chat

Ejecuta con Cascade en modo Code

Creación de páginas con Cascade

Configuración de reglas en Windsurf

Crea una página con un solo prompt escrito

⁠Usa la voz para darle instrucciones a Windsurf

Usa imágenes como referencia en Cascade

Creación de página About

Funcionalidades

Windsurf Preview: servidor de desarrollo integrado en el editor

DeepWiki de Windsurf para documentar código automáticamente

Calidad del Código en Windsurf

Refactorización de código con Windsurf para eliminar duplicación

Creación de unit tests con Jest y React Testing Library

Integraciones en Windsurf

Migración de mocks a API con BUN.js y Cascade en Windsurf

Creación de workflows para automatizar commit y push a GitHub

Configuración de perfil y recursos en Windsurf

Nuevas Funcionalidades

Conoce la nueva interfaz de Windsurf AI

Soporte multiagente en Windsurf AI

Nuevos modos de Agente en Cascade

Arena Mode

Conexión con MCPs desde Windsurf AI