Repaso por Jupyter Notebook

Clase 7 de 35Curso Profesional de Data Science 2016

Resumen

Cuando prototipos soluciones de data science a menudo nos encontramos utilizando cuadernos interactivos. Estos cuadernos interactivos nos permiten ejecutar código, sin ningún orden en particular. Lo que es muy bueno porque el proceso de construir soluciones de data science es a menudo muy iterativo.

En el caso puntual de python usamos un notebook llamado Jupyter. Desde la terminal ejecutamos:

pip install Jupyter

Una vez instalado, podemos ejecutar jupyter con:

jupyter notebook

Es realmente importante entender que Jupyer, de hecho el proyecto Jupyter, esta libreta es agnóstica al lenguaje. Es decir, podemos usarla con una gran variedad de lenguajes.

Entonces desde un cuaderno interactivo, podemos cargar datos y podemos inspeccionar esos datos. Podemos crear visualizaciones en línea, por supuesto podemos estas celdas fuera de orden también.
Como data scientist esto podría sonar muy natural de hecho, tener este ambiente de trabajo interactivo, flexible, iterativo.

Para muchos ingenieros de software de hecho esta herramienta les parece muy distante, para muchos ingenieros de software donde escribimos scripts, estamos escribiendo código que ejecutamos continuamente. es decir, escribimos algo de código, y ejecutamos el script entero,
entonces no tenemos la opción o incluso la noción de ser capaces de ejecutar tan fácil ese script, de alguna forma sin orden, ejecutando la primer linea y luego la cuarta linea y la tercera,
porque lo escribimos como tal para que funcione con cierta cronología.

Si no usas Jupyter existen otras opciones, Rodeo es una, Zeppelin es otra. Lo importante es que explores otras opciones y nos cuentes como te ha ido.