Poder estadístico y MDE en A/B testing

Resumen

El A/B testing es, en su forma más práctica, un método para determinar causalidad mediante estadística inferencial: aceptas o rechazas una hipótesis con base en datos observados. Si interpretas mal esos datos, el riesgo de equivocarte es enorme, y aquí entra el rol del poder estadístico, la significancia y el efecto mínimo detectable.

¿Qué errores comunes ocurren al interpretar un A/B test?

Cuando corres una prueba sin entender la estadística detrás, te expones a dos tipos de errores que afectan directamente tus decisiones de producto.

  • Error tipo uno: creer que tu variación es mejor que el control cuando en realidad no lo es.
  • Error tipo dos: rechazar una variación que sí era mejor, o asumir que el control gana sin que sea cierto.

Suena obvio, pero la mayoría de compañías que hacen experimentación no consideran estos factores y por eso terminan tomando decisiones basadas en ruido. Y aquí viene lo interesante: no necesitas convertirte en estadístico para evitarlo, solo necesitas dominar tres conceptos.

¿Cuáles son los tres conceptos estadísticos clave del A/B testing?

Estos tres términos aparecen una y otra vez en plataformas de experimentación y calculadoras de A/B testing [1:32]. Familiarizarte con ellos cambia por completo cómo lees tus resultados.

Poder estadístico y significancia estadística

El poder estadístico es la probabilidad de encontrar una diferencia cuando esta realmente existe. Si tu poder es bajo, puedes pasar por alto una variación ganadora sin darte cuenta.

La significancia estadística, por su parte, es la confianza con la que afirmas que la diferencia observada entre control y variación no es producto del azar. El estándar de la industria es 95 % de nivel de confianza.

¿Qué es el poder estadístico en A/B testing? Es la probabilidad de detectar una diferencia real entre tu control y tu variación. Un valor común es 80 %, lo que significa que tienes 80 % de probabilidad de encontrar el efecto si existe.

Efecto mínimo detectable o MDE

El MDE (Minimum Detectable Effect) es resultado de los dos conceptos anteriores y es el más aplicable al día a día. Es la magnitud más pequeña que debes ver entre control y variación para concluir que el resultado es estadísticamente significativo [2:10].

Es decir, si tu MDE es 22 %, necesitas que la variación supere al control en al menos ese porcentaje para tomar la decisión con confianza.

¿Cómo se calcula el efecto mínimo detectable con una calculadora de A/B testing?

Las calculadoras de A/B testing combinan tres inputs para entregarte el MDE: nivel de confianza, poder estadístico y tráfico histórico de tu producto [2:45]. Veámoslo con un caso concreto.

Imagina que tu producto recibe 20.000 visitantes semanales y registra 500 conversiones. Si corres la prueba durante siete días con los estándares de la industria, el resultado es:

  • MDE de 22,52 % con 95 % de confianza y 80 % de poder estadístico.
  • Diferencia mínima exigida entre control y variación para validar el experimento.
  • Reto evidente: mover el comportamiento del usuario un 22,52 % no es tarea fácil.

Ahí es donde entran en juego tres palancas que puedes ajustar según tu contexto.

¿Qué es el MDE en una prueba A/B? Es el cambio mínimo que debes observar entre control y variación para que el resultado sea estadísticamente significativo. Depende del tráfico, la confianza deseada y el poder estadístico.

Qué palancas mueven el MDE

No siempre puedes esperar un cambio del 22 %. Estos son los factores que puedes ajustar para que el MDE sea más alcanzable sin sacrificar rigor.

  • Qué tan radical es el tratamiento que vas a introducir en la variación.
  • Número de semanas que dejarás correr la prueba: a más tiempo, menor MDE.
  • Apetito de riesgo de la organización frente a errores tipo uno y tipo dos.

Por ejemplo, si bajas el nivel de confianza de 95 % a 90 %, el MDE cae de 22,52 % a 19 %. Y si reduces el poder estadístico de 80 % a 70 %, el número también disminuye, aunque te expones más a cometer errores [4:05].

¿Por qué importa entender estos conceptos antes de lanzar un experimento?

Porque la diferencia entre una decisión basada en datos y una decisión basada en azar está exactamente en estos tres números. Un experimento sin análisis pretest puede darte resultados que parecen ganadores pero que en realidad no superan el ruido estadístico.

La pestaña de análisis pretest de cualquier calculadora te permite validar, antes de invertir semanas de tráfico, si tu prueba tiene condiciones reales para concluir algo significativo. Es la diferencia entre experimentar con propósito y experimentar por inercia.

¿Ya usas una calculadora de A/B testing en tus proyectos? Cuéntame en los comentarios qué nivel de confianza y poder estadístico configuras por defecto.