Estadística y su aplicación en Data Science

Clase 22 de 35Curso Profesional de Data Science 2016

Resumen

La estadística es en realidad un lenguaje a través del cual podemos comprender el mundo. Hace dos cosas principales por nosotros:

  • La primera es que la estadística nos da una manera de cuantificar con precisión y comunicar la incertidumbre. Ésta podría ser incertidumbre acerca de cierto parámetro de un modelo de machine learning hacia otro data scientist, podría ser incertidumbre acerca de cierto proceso de negocios hacia una persona en la dirección.

  • La estadística también nos da una mejor comprensión de nuestra organización. Y nos permite tomar decisiones más sobrias y auto conscientes en este respecto. Estas decisiones se basan en lo que dicen los datos en lugar de una especie de presentimiento que quizás tuvimos en camino a nuestro trabajo.

Entonces, si alguien viene a nosotros y dice:

¿Cuál es la probabilidad de sacar entre dos y cinco?"

Podemos decir: “bueno, es 1/3 porque los valores entre dos y cinco en el intervalo abierto son tres y cuatro, lo cual abarca dos de nuestros seis valores. Así que, de nuevo, eso nos da 1/3.”

En el mundo real en la mayoría de los casos tenemos exactamente lo contrario:

Observamos datos, así que estamos viendo ese dado. No vemos a la persona que lo lanza,
realmente no sabemos qué es ese dado. Solamente vemos una lista de números, vemos cuatro, cinco, dos, dos, seis, cuatro, tres, uno, etc.

La idea es: cuantos más datos observamos, mejor podemos inferir cuál es el verdadero proceso que genera esos datos.

Para comprender cómo llevar a cabo la inferencia estadística lo primero que debemos entender es qué son las variables aleatorias.

Una variable aleatoria es: "algo que puede tomar muchos valores diferentes."
Una vez más: algo que puede tomar muchos valores diferentes.

Así que algunos ejemplos de algo que puede tomar muchos valores diferentes, podría ser el color de la camisa que personalmente uso los lunes.

De modo que este podría tomar los valores, bueno, para los que me conocen probablemente es gris, o azul, o alguna variación de verde claro.

OK, nuevamente, esa es una variable aleatoria.