Estadística y su aplicación en Data Science

Clase 22 de 35 • Curso Profesional de Data Science 2016

Contenido del curso

Bienvenido al curso

Llevar tus cosas a Producción

Machine Learning

Estadística

Herramientas clave que usa un data scientist

Construyendo un equipo de data science

¿Qué sigue?

Tomar examen

Resumen

La estadística es en realidad un lenguaje a través del cual podemos comprender el mundo. Hace dos cosas principales por nosotros:

La primera es que la estadística nos da una manera de cuantificar con precisión y comunicar la incertidumbre. Ésta podría ser incertidumbre acerca de cierto parámetro de un modelo de machine learning hacia otro data scientist, podría ser incertidumbre acerca de cierto proceso de negocios hacia una persona en la dirección.
La estadística también nos da una mejor comprensión de nuestra organización. Y nos permite tomar decisiones más sobrias y auto conscientes en este respecto. Estas decisiones se basan en lo que dicen los datos en lugar de una especie de presentimiento que quizás tuvimos en camino a nuestro trabajo.

Entonces, si alguien viene a nosotros y dice:

¿Cuál es la probabilidad de sacar entre dos y cinco?"

Podemos decir: "bueno, es 1/3 porque los valores entre dos y cinco en el intervalo abierto son tres y cuatro, lo cual abarca dos de nuestros seis valores. Así que, de nuevo, eso nos da 1/3."

En el mundo real en la mayoría de los casos tenemos exactamente lo contrario:

Observamos datos, así que estamos viendo ese dado. No vemos a la persona que lo lanza, realmente no sabemos qué es ese dado. Solamente vemos una lista de números, vemos cuatro, cinco, dos, dos, seis, cuatro, tres, uno, etc.

La idea es: cuantos más datos observamos, mejor podemos inferir cuál es el verdadero proceso que genera esos datos.

Para comprender cómo llevar a cabo la inferencia estadística lo primero que debemos entender es qué son las variables aleatorias.

Una variable aleatoria es: "algo que puede tomar muchos valores diferentes." Una vez más: algo que puede tomar muchos valores diferentes.

Así que algunos ejemplos de algo que puede tomar muchos valores diferentes, podría ser el color de la camisa que personalmente uso los lunes.

De modo que este podría tomar los valores, bueno, para los que me conocen probablemente es gris, o azul, o alguna variación de verde claro.

OK, nuevamente, esa es una variable aleatoria.

Comentarios

Rafael Mosquera

student•

Resumen de “Estadística” por Will Wolf:

La estadística es en realidad un lenguaje a través del cual podemos comprender el mundo. Hace dos cosas principales por nosotros:

La primera es que la estadística nos da una manera de cuantificar con precisión y comunicar la incertidumbre. Ésta podría ser incertidumbre acerca de cierto parámetro de un modelo de machine learning hacia otro data scientist, podría ser incertidumbre acerca de cierto proceso de negocios hacia una persona en la dirección.

La estadística también nos da una mejor comprensión de nuestra organización. Y nos permite tomar decisiones más sobrias y auto conscientes en este respecto. Estas decisiones se basan en lo que dicen los datos en lugar de una especie de presentimiento que quizás tuvimos en camino a nuestro trabajo.

Entonces, si alguien viene a nosotros y dice:

¿Cuál es la probabilidad de sacar entre dos y cinco?"

Podemos decir: “bueno, es 1/3 porque los valores entre dos y cinco en el intervalo abierto son tres y cuatro, lo cual abarca dos de nuestros seis valores. Así que, de nuevo, eso nos da 1/3.”

En el mundo real en la mayoría de los casos tenemos exactamente lo contrario:

Observamos datos, así que estamos viendo ese dado. No vemos a la persona que lo lanza,
realmente no sabemos qué es ese dado. Solamente vemos una lista de números, vemos cuatro, cinco, dos, dos, seis, cuatro, tres, uno, etc.

La idea es: cuantos más datos observamos, mejor podemos inferir cuál es el verdadero proceso que genera esos datos.

Para comprender cómo llevar a cabo la inferencia estadística lo primero que debemos entender es qué son las variables aleatorias.

Una variable aleatoria es: "algo que puede tomar muchos valores diferentes."
Una vez más: algo que puede tomar muchos valores diferentes.

Así que algunos ejemplos de algo que puede tomar muchos valores diferentes, podría ser el color de la camisa que personalmente uso los lunes.

De modo que este podría tomar los valores, bueno, para los que me conocen probablemente es gris, o azul, o alguna variación de verde claro.

OK, nuevamente, esa es una variable aleatoria.

Distribución de Probabilidad
Una distribución de probabilidad es realmente una tabla de búsqueda para ver qué tan probable es un resultado. Esos resultados son los valores de una variable aleatoria.

Así que cuando vemos una distribución de probabilidad que parece un montón de bloques
eso es lo que estamos haciendo, es sólo visualizar las probabilidades de observar cada uno de estos eventos.

Las variables aleatorias además pueden ser de 2 tipos:

Continuas: Pueden tomar cualquier valor dentro del espectro de números reales, por ejemplo: al decir entre 4 y 5 años existen los valores: 4.7, 4.9, 4.6242424242, etc.

Discreta: No hay valores intermedios que podamos observar, se pueden ver como "categorías, por ejemplo: decir que tenemos el color azul, verde, rojo, no se puede decir que tengo 0.5 de azul y 0.3 de verde.

Y justo para cada tipo de variable aleatoria tenemos funciones de distribución de probabilidad distintas:

Las funciones de densidad de probabilidad son las funciones de distribución de probabilidad
para variables aleatorias continua.
Las funciones de masa de probabilidad son las funciones de distribución de probabilidad
para variables aleatorias discretas.
Las funciones de densidad de probabilidad nos ofrecen un conjunto de información extremadamente rica sobre el cual basar las decisiones. Desafortunadamente, en el mundo real no se nos dan funciones de distribución de probabilidad.

Así que, lo que la estadística nos permite hacer es observar datos que recogemos en el mundo real y trabajar hacia atrás, tomar esos datos e inferir cuál podría ser la FDP subyacente que generó esos datos.

Inferencia estadística
Una distribución empírica no es nada más que una representación visual de lo que hemos visto hasta ahora. En cambio, las distribuciones teóricas, son una imagen de lo que realmente está pasando desde el interior hacia afuera.

Y entonces en un caso teórico, pensamos del problema en reversa.

Muchos matemáticos nos nos han dado muchas distribuciones de probabilidad canónicas que,
en teoría, describen el comportamiento de algún tipo de evento dado.

Y entonces, distribuciones exponenciales describen eventos de supervivencia, las distribuciones beta pueden describir giros de monedas, las distribuciones de Poisson describen cosas que toman valores enteros, distribuciones de Dirichlet, distribuciones gama, distribuciones binomiales,
distribuciones de Wishart, etc.

Estadística y su aplicación en Data Science

Bienvenido al curso

¿Cómo activar los subtítulos para este curso?

Bienvenido al curso profesional de Data Science

Llevar tus cosas a Producción

Llevar tus cosas a producción

Bases de datos: SQL o NoSQL

ETL

Mostrar tus datos mediante dashboards

Repaso por Jupyter Notebook

Ejemplo de inferencia en twitter para producción

Creando nuestro modelo matematico

Automatización

Llevar tus cosas a producción

Machine Learning

Un poco de contexto sobre machine learning

Entrenando un modelo de Machine Learning

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad

Modelos canónicos y para que los usamos

Más modelos canonicos

Itera rápido o muere lento

Recolectando y limpiando nuestros datos

Implementando nuestros modelos de Machine Learning

Creando y ejecutando nuestro pipeline

Machine Learning

Estadística