Resumen

Dominar Jupyter Notebooks es un paso fundamental para cualquier persona que trabaje con ciencia de datos o programación en Python. Esta herramienta permite combinar código, texto en Markdown, visualizaciones y resultados en un mismo archivo interactivo, lo que la convierte en el estándar de la industria para análisis de datos reproducibles.

¿Qué es Jupyter Notebooks y por qué es tan popular en ciencia de datos?

Un dato fascinante es que Jupyter debe su nombre a la combinación de los tres lenguajes más usados en ciencia de datos: Ju de Julia, Py de Python y R del lenguaje R [0:10]. Uno de sus creadores es el colombiano Fernando Pérez, y Jupyter es la base de todas las notebooks de Python que existen, incluyendo Google Colab.

Las ventajas principales que lo hacen indispensable son:

  • Documentación y ejecución combinadas: puedes escribir, ejecutar y documentar código en el mismo archivo, facilitando reportes claros y reproducibles [0:37].
  • Visualizaciones en tiempo real: los gráficos y datos se muestran inmediatamente después de ejecutar el código [0:47].
  • Entornos interactivos: puedes ejecutar celdas de código individualmente, probar bloques pequeños y depurar errores rápidamente [0:52].

Esta interactividad es posible gracias al ciclo REPL (Read Eval Print Loop) [1:03]. Se trata de un proceso de ejecución interactivo en cuatro pasos: lectura (el código es leído por la notebook), evaluación (el código se ejecuta), impresión (se muestran los resultados) y bucle (permite repetir el proceso con más código) [1:08]. Esto facilita enormemente el aprendizaje y la experimentación.

¿Cómo iniciar Jupyter Notebooks desde Anaconda?

Para abrir Jupyter desde la terminal, basta con escribir el comando jupyter notebook y presionar enter [1:31]. El navegador se abrirá automáticamente, pero si no lo hace, puedes copiar y pegar la dirección localhost:8888 [1:42].

Una vez dentro, verás las carpetas de tu computador. Para crear un nuevo notebook, selecciona New y elige el kernel de Python 3 [1:55]. El notebook se abre vacío y listo para trabajar.

¿Cómo interactuar con las celdas de código y Markdown?

Cada celda puede ser de código o de Markdown [2:55]. En las celdas de código escribes y ejecutas instrucciones de Python. Los botones superiores permiten ejecutar líneas, interrumpir ejecuciones y mover celdas para reordenarlas [2:22].

Cuando cambias el tipo de celda a Markdown, puedes agregar títulos y texto formateado. Por ejemplo, al escribir un encabezado como "Ejemplo con Matplotlib" y ejecutar la celda, se renderiza como un título visual [3:01]. Debajo puedes colocar código con Matplotlib y NumPy para generar gráficos como el del seno, que se visualiza directamente en el notebook [3:15].

Los notebooks se guardan con la extensión .ipynb y pueden descargarse en diferentes formatos desde el menú File [3:38]. También es posible cargar archivos externos, como tablas en formato CSV, utilizando la librería Pandas y el botón Upload [4:07].

¿Cómo ejecutar Jupyter dentro de un entorno virtual de Conda?

Para detener el servidor de Jupyter, regresa a la terminal y presiona Ctrl + C, confirma con Y y el servidor se cierra [4:34].

Si necesitas trabajar en un entorno aislado, crea uno nuevo con el comando:

bash conda create -n notebooks_env

Actívalo con conda activate notebooks_env [5:05]. Al intentar ejecutar jupyter notebook dentro de este entorno nuevo, recibirás un error indicando que Jupyter no se encuentra instalado [5:22]. Esto ocurre porque cada entorno virtual solo tiene acceso a los paquetes que se han instalado en él.

Para solucionarlo, instala Jupyter con:

bash conda install jupyter

Una vez instalado, el comando jupyter notebook funcionará correctamente dentro del entorno [5:50].

¿Qué pasa cuando faltan dependencias en un entorno virtual?

Cuando trabajas en un ambiente virtual nuevo y ejecutas código que importa librerías como NumPy o Matplotlib, obtendrás un error de módulo no encontrado [6:16]. Esto confirma que cada entorno es independiente y solo contiene los paquetes que instalaste explícitamente.

El reto propuesto es instalar dentro del nuevo entorno las tres dependencias necesarias para ejecutar el notebook completo: Pandas, Matplotlib y NumPy [6:38]. ¿Ya lograste hacerlo? Comparte tu experiencia y las dificultades que encontraste en los comentarios.