Creando nuestro modelo matematico

Clase 9 de 35Curso Profesional de Data Science 2016

Resumen

Vamos a construir un modelo matemático para responder nuestra pregunta original.

Lo primero que es importante explicar es una distribución beta, una distribución beta es una distribución de probabilidad canónica usada para mostrar incertidumbre alrededor de cada posible probabilidad, una probabilidad por supuesto siendo un numero entre 0 y 1, siendo la verdadera probabilidad del proceso.

Entonces entremos a esto un poco más, de nuevo la pregunta es:

¿Cuál es la probabilidad de que un tweet dado en Colombia contenga la palabra “yo”?

Entonces la respuesta va a ser un número entre 0 y 1 por definición de lo que es una probabilidad
y esta distribución de probabilidad es una distribución beta es efectivamente una tabla de consulta
para los datos dados que hemos observado y por supuesto limpiada y persistida, etc.

Una distribución beta es una función que toma dos parámetros, el primero es alpha y el segundo beta, entonces para interpretar una distribución beta vemos la altura de la curva y la altura de la curva es proporcional a la probabilidad de dibujar el valor por debajo de él en el eje x.