Probabilidad condicional y teorema de Bayes

Curso de Estadística Descriptiva

Contenido del curso

Fundamentos estadísticos

Organización de datos cualitativos

3. Organización de datos cuantitativos

Medidas descriptivas

Probabilidad

Distribución Normal e Inferencia

Tomar examen

Probabilidad condicional y teorema de Bayes

Resumen

La probabilidad compuesta te permite calcular qué tan probable es un evento cuando ya ocurrió otro, y el teorema de Bayes te ayuda a invertir ese análisis sin volver a empezar de cero. Es una herramienta clave para estudiantes de estadística que quieren entender cómo se conectan los eventos en la vida real.

Piénsalo así: la probabilidad de que llueva si hay un huracán cerca no es la misma que si no lo hubiera. Y darle la vuelta a esa pregunta también cambia el resultado. Aquí entra en juego todo lo que vas a ver a continuación.

¿Qué es la probabilidad compuesta y cómo se calcula?

La probabilidad compuesta mide la probabilidad de que ocurra un evento A dado que ya ocurrió un evento B. La fórmula general es sencilla: la probabilidad de A dado B es igual a la probabilidad de la intersección de A y B, dividida entre la probabilidad de B [01:28].

¿Qué significa P(A|B)? Es la probabilidad de que suceda A sabiendo que B ya ocurrió. Se lee como "probabilidad de A dado B" y siempre se divide entre la probabilidad del evento que ya conocemos.

Para aterrizarlo, imagina una tabla con 200 clientes entrevistados: 100 premium y 100 no premium, cada grupo dividido entre satisfechos y no satisfechos. Entre los premium hay 80 satisfechos y 20 no satisfechos. Entre los no premium hay 60 satisfechos y 40 no satisfechos.

¿Cómo construir un diagrama de árbol paso a paso?

El diagrama de árbol es una herramienta visual que organiza las probabilidades por ramas y te ahorra operaciones repetidas [02:45]. La regla de oro: cada bifurcación que sale de un mismo punto debe sumar 1.

Punto de inicio: separa entre premium (0,50) y no premium (0,50), porque hay 100 de cada uno entre 200 totales.
Rama premium: satisfecho (0,80) y no satisfecho (0,20), porque 80 de los 100 premium están satisfechos.
Rama no premium: satisfecho (0,60) y no satisfecho (0,40), siguiendo la misma lógica con los 60 satisfechos de 100.

Fíjate cómo cada par suma 1. Esa es la pista para detectar errores rápido cuando trabajas con muchas ramas.

¿Cómo aplicar la fórmula de probabilidad condicional con un ejemplo?

Supongamos que quieres saber la probabilidad de que un cliente esté satisfecho dado que es premium. Necesitas dos cosas: la intersección entre satisfecho y premium, y la probabilidad de ser premium.

La intersección se calcula multiplicando las ramas del árbol: 0,50 (ser premium) por 0,80 (estar satisfecho dentro de premium) = 0,40. La probabilidad de ser premium en general es 100 entre 200 = 0,50. Al dividir 0,40 entre 0,50 obtienes 0,80, es decir, un 80% de probabilidad de que un cliente premium esté satisfecho [06:32].

¿Qué pasa si invierto la pregunta?

Ahora calcula la probabilidad de que un cliente sea premium dado que está satisfecho. La intersección sigue siendo 0,40 (las intersecciones no cambian al invertir el orden), pero el denominador ahora es la probabilidad de estar satisfecho en general.

En la tabla hay 140 satisfechos entre 200 clientes, lo que da 0,70. Al dividir 0,40 entre 0,70 obtienes aproximadamente 0,57, o sea un 57%. Misma intersección, resultado completamente distinto. Por eso importa el orden de la condición.

¿Por qué cambia el resultado al invertir A y B? Porque el denominador cambia. La intersección entre dos eventos es la misma, pero el evento que tomas como condición tiene su propia probabilidad y eso modifica todo el cálculo.

¿Qué es el teorema de Bayes y cuándo conviene usarlo?

El teorema de Bayes sirve para darle la vuelta a una probabilidad condicional que ya calculaste, sin tener que rehacer todo el análisis [09:14]. Su fórmula dice que la probabilidad de B dado A es igual a la probabilidad de A dado B, multiplicada por la probabilidad de B, dividida entre la probabilidad de A.

Volviendo al ejemplo: ya sabes que la probabilidad de estar satisfecho dado que es premium es 0,80. Para invertirlo y obtener la probabilidad de ser premium dado que está satisfecho, multiplicas 0,80 por 0,50 (probabilidad de ser premium) y divides entre 0,70 (probabilidad de estar satisfecho).

El resultado vuelve a ser 0,57, igual que con el método anterior. La ventaja es la velocidad: si ya tienes una probabilidad compuesta calculada, Bayes te ahorra reconstruir el árbol completo.

¿Cuándo usar Bayes en lugar del método tradicional?

Usa el teorema de Bayes cuando ya cuentas con una probabilidad condicional previa y quieres invertir la dirección del análisis. Es especialmente útil en problemas donde recolectar datos directos del nuevo escenario sería complicado, pero ya tienes información del escenario opuesto.

Algunos casos típicos donde aparece:

Diagnósticos médicos: estimar la probabilidad de tener una enfermedad dado un resultado positivo.
Filtros de spam: calcular si un correo es spam dado ciertas palabras clave.
Análisis de clientes: invertir relaciones entre comportamiento y segmento, como en el ejemplo del cliente premium.

Después de dominar estos cálculos, el siguiente paso natural es entender cómo se distribuyen los datos en la realidad, y ahí entran la distribución normal y la campana de Gauss. ¿Tienes alguna duda sobre cómo aplicar Bayes en tu propio dataset? Cuéntame en los comentarios qué problema estás intentando resolver.