Cómo calcular duración y MDE de un test A/B

Curso de A/B Testing en Productos Digitales

Contenido del curso

Fundamentos de A/B Testing

Análisis Pre-Test

Configura y lanza tu experimento

Análisis Post-Test

Tomar examen

Cómo calcular duración y MDE de un test A/B

Resumen

Calcular la duración y el efecto mínimo detectable (MDE) de un test A/B es lo que separa una prueba que entrega aprendizajes reales de una que solo recoge ruido estadístico. Si trabajas en experimentación, growth o CRO, dominar este cálculo te ayuda a diseñar pruebas con base estadística sólida y a evitar conclusiones producto del azar.

Qué parámetros necesitas antes de calcular la duración de tu prueba

Antes de abrir cualquier calculadora, necesitas tres cosas claras: dónde corre la prueba, cuál es la métrica principal de éxito y cuáles las secundarias. Con eso defines el resto.

En el ejemplo que trabajamos, el cambio aplica en la página de inicio y en el checkout, y la métrica principal son los clics en el botón de adición al carrito. Para los valores estadísticos, lo estándar de la industria es dejar poder estadístico en 80% y significancia estadística en 95%.

¿Qué es el efecto mínimo detectable (MDE)? Es la diferencia más pequeña entre control y variación que tu prueba puede detectar como real y no como azar. Si tu MDE es 5%, cambios menores a ese porcentaje quedan invisibles ante la prueba.

Cómo defino correctamente el tráfico de mi muestra

El tráfico que ingresas en la calculadora no es el total de tu sitio, sino el de los usuarios efectivamente expuestos al tratamiento. Si tu sitio recibe 100,000 usuarios pero 80,000 visitan el blog y el blog está fuera de la prueba, esos 80,000 no cuentan.

En el caso trabajado, la página de inicio es el embudo obligatorio antes del checkout, así que se usa como referencia: un promedio de 19,800 usuarios semanales medido sobre las últimas seis semanas.

Cómo cuento las conversiones para el cálculo

Las conversiones deben corresponder a tu métrica principal. Aquí son adiciones al carrito, no transacciones. Podrías usar transacciones, pero al ser un evento más abajo en el embudo, detectar un efecto se vuelve más difícil.

El promedio usado fue de 1,600 usuarios semanales que añaden un producto al carrito.

Cómo interpretar los resultados de la calculadora

La calculadora cruza tráfico, conversiones, poder y significancia para devolver una tabla con la duración estimada y el MDE asociado a cada semana.

En este ejemplo, los valores quedaron así:

A las 3 semanas, el MDE es de 7.02%. Las adiciones al carrito tendrían que aumentar al menos ese porcentaje para confirmar significancia estadística.
A las 6 semanas, el MDE baja a 4.94%, un valor más cómodo y realista.
Como referencia práctica: influenciar el comportamiento del usuario en más de 5% no es frecuente, así que un buen objetivo es mantener tus MDE por debajo de ese umbral.

Obvio, esto asume que el tráfico promedio de las últimas semanas se sostiene. Si tu sitio tiene estacionalidad fuerte, ajusta.

¿Por qué un MDE alto es mala señal? Porque te obliga a observar cambios de comportamiento muy grandes para validar la prueba. Si tu MDE es 30%, probar un botón rojo vs uno verde será perder el tiempo: ningún cambio sutil moverá tanto la aguja.

Cómo aplico estos cálculos a otros canales como email marketing

La calculadora también sirve fuera de un sitio web, pero los supuestos cambian. En email no existen ciclos semanales: todo ocurre en la semana uno.

Si pruebas el asunto del correo, tu tráfico son los receptores y tus conversiones son las aperturas. Con esos volúmenes, el MDE puede quedar alrededor de 12.3%.

Si pruebas un componente dentro del cuerpo del correo, como un llamado a la acción, el tráfico cambia: ahora son las personas que abrieron, por ejemplo 1,600, y las conversiones son los clics históricos al CTA, alrededor de 280. Con ese volumen menor, el MDE sube de forma radical, hasta cerca de un 30%.

Esa cifra te da una señal directa: el cambio que vas a probar tiene que ser dramático para mover esa aguja. No tiene sentido testear cambios cosméticos en muestras pequeñas.

Cuánto tiempo debe durar idealmente una prueba A/B

En un sitio web donde puedes correr la prueba durante varios días, hay reglas prácticas que conviene respetar.

Mínimo 7 días. Una semana completa es lo que se conoce como ciclo de negocio. Si lanzas un lunes y cierras un jueves, te pierdes el comportamiento del fin de semana.
Ideal 2 semanas. Suficiente para capturar dos ciclos completos y confirmar patrones, siempre que el MDE sea alcanzable en ese tiempo.
Máximo 6 semanas. Más allá empiezan a aparecer efectos que ensucian los datos, como cambios de cookies, estacionalidad o fatiga, y deja de ser práctico para el negocio.

Si a las dos semanas no has alcanzado el efecto mínimo, toca esperar al periodo planeado originalmente. No frenes la prueba antes de tiempo solo porque ya "se ve algo": esa es la receta para concluir con ruido.

Actualiza tu plan de experimento con la duración y el MDE que calculaste, y comparte tus valores en la sección de comentarios para contrastarlos con otros casos.

Matías Felipe Grimaldi Gómez

Estudiante

Para llevar a cabo una prueba A/B, es necesario calcular el tamaño de la muestra y realizar un análisis estadístico para determinar si las diferencias observadas son estadísticamente significativas. Aquí hay una descripción detallada del proceso:

Cálculo del Tamaño de la Muestra:

Nivel de Confianza (Confidence Level): Define el nivel de confianza deseado, comúnmente establecido en un 95% o 99%. Esto indica el porcentaje de confianza en que los resultados observados son representativos de la población.
Poder Estadístico (Statistical Power): Indica la probabilidad de detectar una diferencia si realmente existe. Un poder estadístico típico es del 80% o más.
Tamaño del Efecto (Effect Size): Estima la magnitud de la diferencia que se espera observar. Puede expresarse en términos de desviación estándar o proporción.
Variabilidad (Variability): Mide la variabilidad inherente en los datos. Puede basarse en estudios piloto o en datos históricos.
Uso de una Calculadora de Tamaño de Muestra: Utiliza una herramienta en línea o fórmulas estadísticas para determinar el tamaño de la muestra necesario. Aunque no puedo acceder directamente a enlaces, puedes buscar calculadoras de prueba A/B en línea o utilizar fórmulas específicas.

Ejecución de la Prueba A/B:

Asignación Aleatoria: Asegúrate de asignar aleatoriamente los participantes a las variantes A y B. Esto minimiza el sesgo y permite la comparación válida.
Recopilación de Datos: Implementa un sistema robusto para recopilar datos relevantes y asegúrate de que se mantenga la integridad de los datos.
Análisis Estadístico: Utiliza pruebas estadísticas, como la t de Student para datos continuos o la prueba de chi-cuadrado para datos categóricos, para analizar los resultados. Compara las métricas predefinidas y evalúa la significancia estadística.
Interpretación de Resultados: Evalúa la dirección y magnitud de las diferencias observadas. Considera la significancia estadística y el contexto práctico al interpretar los resultados.

Recuerda que la planificación cuidadosa y la atención a los detalles son cruciales en todas las etapas de la prueba A/B para obtener conclusiones fiables y aplicables.

Cómo calcular duración y MDE de un test A/B

Fundamentos de A/B Testing

Por qué la mayoría de A/B tests son inválidos

A/B testing más allá de sitios web

Poder estadístico y MDE en A/B testing

Análisis Pre-Test

El preregistro: plantilla para validar experimentos

Cómo priorizar tests A/B con el framework PXL

Métricas de éxito en pruebas A/B