Repaso por Jupyter Notebook
Clase 7 de 35 • Curso Profesional de Data Science 2016
Contenido del curso
Llevar tus cosas a Producción
- 3

Llevar tus cosas a producción
05:53 min - 4

Bases de datos: SQL o NoSQL
05:22 min - 5

ETL
12:01 min - 6

Mostrar tus datos mediante dashboards
07:38 min - 7

Repaso por Jupyter Notebook
Viendo ahora - 8

Ejemplo de inferencia en twitter para producción
20:35 min - 9

Creando nuestro modelo matematico
17:45 min - 10

Automatización
24:35 min - 11
Llevar tus cosas a producción
07:13 min
Machine Learning
- 12

Un poco de contexto sobre machine learning
10:40 min - 13

Entrenando un modelo de Machine Learning
12:03 min - 14

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad
15:38 min - 15

Modelos canónicos y para que los usamos
17:02 min - 16

Más modelos canonicos
28:24 min - 17

Itera rápido o muere lento
06:33 min - 18

Recolectando y limpiando nuestros datos
23:28 min - 19

Implementando nuestros modelos de Machine Learning
16:23 min - 20

Creando y ejecutando nuestro pipeline
32:34 min - 21
Machine Learning
12:04 min
Estadística
Herramientas clave que usa un data scientist
Construyendo un equipo de data science
¿Qué sigue?
Cuando prototipos soluciones de data science a menudo nos encontramos utilizando cuadernos interactivos. Estos cuadernos interactivos nos permiten ejecutar código, sin ningún orden en particular. Lo que es muy bueno porque el proceso de construir soluciones de data science es a menudo muy iterativo.
En el caso puntual de python usamos un notebook llamado Jupyter. Desde la terminal ejecutamos:
pip install Jupyter
Una vez instalado, podemos ejecutar jupyter con:
jupyter notebook
Es realmente importante entender que Jupyer, de hecho el proyecto Jupyter, esta libreta es agnóstica al lenguaje. Es decir, podemos usarla con una gran variedad de lenguajes.
Entonces desde un cuaderno interactivo, podemos cargar datos y podemos inspeccionar esos datos. Podemos crear visualizaciones en línea, por supuesto podemos estas celdas fuera de orden también.
Como data scientist esto podría sonar muy natural de hecho, tener este ambiente de trabajo interactivo, flexible, iterativo.
Para muchos ingenieros de software de hecho esta herramienta les parece muy distante, para muchos ingenieros de software donde escribimos scripts, estamos escribiendo código que ejecutamos continuamente. es decir, escribimos algo de código, y ejecutamos el script entero,
entonces no tenemos la opción o incluso la noción de ser capaces de ejecutar tan fácil ese script, de alguna forma sin orden, ejecutando la primer linea y luego la cuarta linea y la tercera,
porque lo escribimos como tal para que funcione con cierta cronología.
Si no usas Jupyter existen otras opciones, Rodeo es una, Zeppelin es otra. Lo importante es que explores otras opciones y nos cuentes como te ha ido.