Poder estadístico y MDE en A/B testing

Curso de A/B Testing en Productos Digitales

Contenido del curso

Fundamentos de A/B Testing

Análisis Pre-Test

Configura y lanza tu experimento

Análisis Post-Test

Tomar examen

Poder estadístico y MDE en A/B testing

Resumen

El A/B testing es, en su forma más práctica, un método para determinar causalidad mediante estadística inferencial: aceptas o rechazas una hipótesis con base en datos observados. Si interpretas mal esos datos, el riesgo de equivocarte es enorme, y aquí entra el rol del poder estadístico, la significancia y el efecto mínimo detectable.

¿Qué errores comunes ocurren al interpretar un A/B test?

Cuando corres una prueba sin entender la estadística detrás, te expones a dos tipos de errores que afectan directamente tus decisiones de producto.

Error tipo uno: creer que tu variación es mejor que el control cuando en realidad no lo es.
Error tipo dos: rechazar una variación que sí era mejor, o asumir que el control gana sin que sea cierto.

Suena obvio, pero la mayoría de compañías que hacen experimentación no consideran estos factores y por eso terminan tomando decisiones basadas en ruido. Y aquí viene lo interesante: no necesitas convertirte en estadístico para evitarlo, solo necesitas dominar tres conceptos.

¿Cuáles son los tres conceptos estadísticos clave del A/B testing?

Estos tres términos aparecen una y otra vez en plataformas de experimentación y calculadoras de A/B testing [1:32]. Familiarizarte con ellos cambia por completo cómo lees tus resultados.

Poder estadístico y significancia estadística

El poder estadístico es la probabilidad de encontrar una diferencia cuando esta realmente existe. Si tu poder es bajo, puedes pasar por alto una variación ganadora sin darte cuenta.

La significancia estadística, por su parte, es la confianza con la que afirmas que la diferencia observada entre control y variación no es producto del azar. El estándar de la industria es 95 % de nivel de confianza.

¿Qué es el poder estadístico en A/B testing? Es la probabilidad de detectar una diferencia real entre tu control y tu variación. Un valor común es 80 %, lo que significa que tienes 80 % de probabilidad de encontrar el efecto si existe.

Efecto mínimo detectable o MDE

El MDE (Minimum Detectable Effect) es resultado de los dos conceptos anteriores y es el más aplicable al día a día. Es la magnitud más pequeña que debes ver entre control y variación para concluir que el resultado es estadísticamente significativo [2:10].

Es decir, si tu MDE es 22 %, necesitas que la variación supere al control en al menos ese porcentaje para tomar la decisión con confianza.

¿Cómo se calcula el efecto mínimo detectable con una calculadora de A/B testing?

Las calculadoras de A/B testing combinan tres inputs para entregarte el MDE: nivel de confianza, poder estadístico y tráfico histórico de tu producto [2:45]. Veámoslo con un caso concreto.

Imagina que tu producto recibe 20.000 visitantes semanales y registra 500 conversiones. Si corres la prueba durante siete días con los estándares de la industria, el resultado es:

MDE de 22,52 % con 95 % de confianza y 80 % de poder estadístico.
Diferencia mínima exigida entre control y variación para validar el experimento.
Reto evidente: mover el comportamiento del usuario un 22,52 % no es tarea fácil.

Ahí es donde entran en juego tres palancas que puedes ajustar según tu contexto.

¿Qué es el MDE en una prueba A/B? Es el cambio mínimo que debes observar entre control y variación para que el resultado sea estadísticamente significativo. Depende del tráfico, la confianza deseada y el poder estadístico.

Qué palancas mueven el MDE

No siempre puedes esperar un cambio del 22 %. Estos son los factores que puedes ajustar para que el MDE sea más alcanzable sin sacrificar rigor.

Qué tan radical es el tratamiento que vas a introducir en la variación.
Número de semanas que dejarás correr la prueba: a más tiempo, menor MDE.
Apetito de riesgo de la organización frente a errores tipo uno y tipo dos.

Por ejemplo, si bajas el nivel de confianza de 95 % a 90 %, el MDE cae de 22,52 % a 19 %. Y si reduces el poder estadístico de 80 % a 70 %, el número también disminuye, aunque te expones más a cometer errores [4:05].

¿Por qué importa entender estos conceptos antes de lanzar un experimento?

Porque la diferencia entre una decisión basada en datos y una decisión basada en azar está exactamente en estos tres números. Un experimento sin análisis pretest puede darte resultados que parecen ganadores pero que en realidad no superan el ruido estadístico.

La pestaña de análisis pretest de cualquier calculadora te permite validar, antes de invertir semanas de tráfico, si tu prueba tiene condiciones reales para concluir algo significativo. Es la diferencia entre experimentar con propósito y experimentar por inercia.

¿Ya usas una calculadora de A/B testing en tus proyectos? Cuéntame en los comentarios qué nivel de confianza y poder estadístico configuras por defecto.

Alexander Flores Rayme

Estudiante

Errores en A/B Testing:

Tipo I (Falso Positivo): Ocurre cuando rechazamos una hipótesis nula verdadera, es decir, creemos que hay un efecto cuando no lo hay. Este error se controla mediante el nivel de significancia estadística.
Tipo II (Falso Negativo): Sucede cuando no rechazamos una hipótesis nula falsa, es decir, no detectamos un efecto real que existe. Este error se relaciona con el poder estadístico.

Conceptos Clave:

Poder Estadístico (Statistical Power): Representa la probabilidad de que un test detecte un efecto cuando realmente existe. Aumentar el poder estadístico disminuye la probabilidad de cometer un error Tipo II.
Significancia Estadística: Es la confianza que tenemos en que la diferencia observada no es aleatoria. Se mide mediante el nivel de significancia (comúnmente establecido en 0.05) y se representa por el valor p. Un valor p menor que el nivel de significancia indica que la diferencia no es producto del azar.
MDE (Minimum Detectable Effect): Es la mínima magnitud de la diferencia que el test es capaz de detectar como estadísticamente significativa. Cuanto menor sea el MDE, mayor sensibilidad tendrá el test.

Más Detalles:

Nivel de Significancia: También conocido como alfa (α), es la probabilidad de cometer un error Tipo I. Un valor comúnmente utilizado es 0.05, pero puede ajustarse según la tolerancia al riesgo.
Valor p: Indica la probabilidad de obtener resultados tan extremos como los observados, asumiendo que la hipótesis nula es verdadera. Si el valor p es menor que el nivel de significancia, se rechaza la hipótesis nula.
Intervalos de Confianza: Proporcionan un rango de valores en el cual es probable que se encuentre el verdadero efecto. Se utilizan para comprender la precisión de la estimación.
Test A/B Secuencial: Diseñado para detener el experimento una vez que se alcanza la significancia estadística o se demuestra la falta de efecto.

Asegurarse de comprender y aplicar correctamente estos conceptos es crucial para llevar a cabo A/B Testing de manera efectiva y tomar decisiones informadas basadas en datos.

Poder estadístico y MDE en A/B testing

Fundamentos de A/B Testing

Por qué la mayoría de A/B tests son inválidos

A/B testing más allá de sitios web