Resumen

Imagina poder enfrentar a dos modelos de inteligencia artificial en la misma ventana, sobre la misma tarea, y elegir al ganador con un solo clic. Eso es exactamente lo que permite el Arena Mode de Windsurf, una funcionalidad que resuelve un problema real: comparar resultados de distintos modelos sin manejar ramas ni pestañas por separado.

¿Qué problema resuelve el Arena Mode?

Antes de esta funcionalidad, si querías comparar la respuesta de un modelo de OpenAI con uno de Anthropic, necesitabas abrir dos tabs, crear dos ramas distintas y gestionar posibles conflictos de manera manual. Esto resultaba tedioso y aumentaba las probabilidades de errores. El Arena Mode elimina esa fricción: seleccionas dos modelos, lanzas un mismo prompt y Windsurf se encarga de ejecutar ambos en paralelo, cada uno en su propia rama, de forma completamente automática [0:40].

Al finalizar, puedes revisar las respuestas lado a lado y seleccionar la que mejor se adapte a lo que necesitas. Esa elección además suma puntos al modelo ganador en el leaderboard de Windsurf, donde la comunidad va construyendo un ranking colaborativo.

¿Cómo se configura y ejecuta una comparación en Arena Mode?

Para activar esta funcionalidad, basta con crear una nueva sesión de Cascade y, en lugar de seleccionar un modelo single, cambiar al modo arena [1:16]. Allí puedes elegir los dos modelos que quieras enfrentar. En el ejemplo práctico, se seleccionaron Claude Opus 4.5 de Anthropic y GPT 5.2 de OpenAI para transformar un archivo index.html básico en la homepage de un e-commerce [1:40].

Al enviar el prompt, Windsurf automáticamente:

  • Crea una rama distinta para cada modelo.
  • Ejecuta ambas tareas en paralelo sin intervención manual.
  • Muestra los resultados en tabs separados dentro de la misma sesión de Cascade.

¿Qué diferencias se observaron entre los modelos?

Los resultados mostraron contrastes interesantes. El Opus 4.5 generó 969 líneas agregadas y 91 eliminadas, entregando un diseño más detallado con un header que incluía secciones como "Mi cuenta", "Favoritos" y "Carrito", además de un menú de navegación con categorías como Ofertas, Ropa, Electrónica, Hogar, Deportes y Belleza [3:18]. Por su parte, el GPT 5.2 produjo alrededor de 700 líneas, un resultado más compacto.

Ambos modelos reescribieron el index.html completo, incluyendo el CSS directamente dentro del HTML. Aunque esto no representa la mejor práctica — lo ideal sería mantener los estilos separados o utilizar un framework como Tailwind — sirvió perfectamente para la demostración [3:40].

¿Cómo se selecciona el modelo ganador?

Una vez completadas ambas respuestas, aparecen opciones para proceder con uno de los dos modelos. Al seleccionar el Opus 4.5, se mostró una animación con un ícono de copa indicando la elección [4:18]. Después, al hacer merge de la rama ganadora a la rama principal, los cambios se reflejaron de inmediato en el navegador: una página profesional de e-commerce llamada "Tienda Verde", con categorías creadas automáticamente por el modelo a partir de un prompt mínimo [4:45].

¿Qué es el leaderboard y cómo funciona el sistema Elo?

Cada vez que seleccionas un modelo como ganador en el Arena Mode, contribuyes al leaderboard de Windsurf [5:15]. Este ranking utiliza el modelo Elo, el mismo sistema de clasificación usado en ajedrez, donde cada victoria o derrota ajusta la puntuación relativa de los competidores. No solo muestra la posición y el nombre del modelo, sino también la organización a la que pertenece.

Entre los modelos mejor posicionados se encuentran:

  • Claude Opus 4.5 de Anthropic.
  • GPT 5.2 de OpenAI.
  • Kimi K2.5.
  • SWE 1.5 Fast de Cognition.

Este sistema de gamificación convierte la evaluación de modelos en algo dinámico y participativo. Puedes usarlo para probar modelos que aún no forman parte de tu flujo diario y decidir con datos reales cuál funciona mejor para tus necesidades [5:40].

El Arena Mode transforma la manera de trabajar con agentes dentro de un editor de código. ¿Ya probaste enfrentar a tus modelos favoritos? Comparte tu experiencia en los comentarios.