Estadística y su aplicación en Data Science
Clase 22 de 35 • Curso Profesional de Data Science 2016
Contenido del curso
Llevar tus cosas a Producción
- 3

Llevar tus cosas a producción
05:53 min - 4

Bases de datos: SQL o NoSQL
05:22 min - 5

ETL
12:01 min - 6

Mostrar tus datos mediante dashboards
07:38 min - 7

Repaso por Jupyter Notebook
07:34 min - 8

Ejemplo de inferencia en twitter para producción
20:35 min - 9

Creando nuestro modelo matematico
17:45 min - 10

Automatización
24:35 min - 11
Llevar tus cosas a producción
07:13 min
Machine Learning
- 12

Un poco de contexto sobre machine learning
10:40 min - 13

Entrenando un modelo de Machine Learning
12:03 min - 14

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad
15:38 min - 15

Modelos canónicos y para que los usamos
17:02 min - 16

Más modelos canonicos
28:24 min - 17

Itera rápido o muere lento
06:33 min - 18

Recolectando y limpiando nuestros datos
23:28 min - 19

Implementando nuestros modelos de Machine Learning
16:23 min - 20

Creando y ejecutando nuestro pipeline
32:34 min - 21
Machine Learning
12:04 min
Estadística
Herramientas clave que usa un data scientist
Construyendo un equipo de data science
¿Qué sigue?
La estadística es en realidad un lenguaje a través del cual podemos comprender el mundo. Hace dos cosas principales por nosotros:
-
La primera es que la estadística nos da una manera de cuantificar con precisión y comunicar la incertidumbre. Ésta podría ser incertidumbre acerca de cierto parámetro de un modelo de machine learning hacia otro data scientist, podría ser incertidumbre acerca de cierto proceso de negocios hacia una persona en la dirección.
-
La estadística también nos da una mejor comprensión de nuestra organización. Y nos permite tomar decisiones más sobrias y auto conscientes en este respecto. Estas decisiones se basan en lo que dicen los datos en lugar de una especie de presentimiento que quizás tuvimos en camino a nuestro trabajo.
Entonces, si alguien viene a nosotros y dice:
¿Cuál es la probabilidad de sacar entre dos y cinco?"
Podemos decir: “bueno, es 1/3 porque los valores entre dos y cinco en el intervalo abierto son tres y cuatro, lo cual abarca dos de nuestros seis valores. Así que, de nuevo, eso nos da 1/3.”
En el mundo real en la mayoría de los casos tenemos exactamente lo contrario:
Observamos datos, así que estamos viendo ese dado. No vemos a la persona que lo lanza,
realmente no sabemos qué es ese dado. Solamente vemos una lista de números, vemos cuatro, cinco, dos, dos, seis, cuatro, tres, uno, etc.
La idea es: cuantos más datos observamos, mejor podemos inferir cuál es el verdadero proceso que genera esos datos.
Para comprender cómo llevar a cabo la inferencia estadística lo primero que debemos entender es qué son las variables aleatorias.
Una variable aleatoria es: "algo que puede tomar muchos valores diferentes."
Una vez más: algo que puede tomar muchos valores diferentes.
Así que algunos ejemplos de algo que puede tomar muchos valores diferentes, podría ser el color de la camisa que personalmente uso los lunes.
De modo que este podría tomar los valores, bueno, para los que me conocen probablemente es gris, o azul, o alguna variación de verde claro.
OK, nuevamente, esa es una variable aleatoria.