39

4 librerías de Python que todo data scientist debe conocer

15424Puntos

hace 2 años

Dentro del mudo de ciencia de datos existen cuatro librerías de Python para data sience que toda persona debe conocer para comenzar a manipular, transformar y analizar datos:

  1. NumPy
  2. Pandas
  3. Matplotlib
  4. Seaborn

Llevo varios años trabajando con los datos en distintos perfiles como data analyst, data engineer, data scientist y demás roles similares alrededor del maravilloso mundo de los datos. Hay muchas cosas que aún hoy, después de tantos años, me siguen sorprendiendo. Como estas librerías que se aprenden al momento de iniciar ciencia de datos con Python y que hoy siguen funcionando para resolver múltiples problemas de todo tipo.

Sin más preámbulo, ajústate el cinturón, respira profundo y prepárate para conocer a cuatro de mis mejores amigas en el código y que sigo usando a diario como data scientist. 🤖.

1. NumPy: manipulación rápida de datos numéricos

numpy.png

En 2005, Travis Oliphant presentó NumPy, una joya del procesamiento y manipulación de objetos de tipo numérico en Python, que abre un abanico de oportunidades para usar los Arrays (el objeto principal de esta librería). Además, NumPy nace como un proyecto 100% open source y el repositorio se encuentra en GitHub para aquellas personas curiosas del código que quieran saber más. 🚀

El secreto de esta librería está en la velocidad y el tamaño. Consume considerablemente menos memoria que una lista de Python y, además, puede procesar datos ¡hasta 50 veces más rápido! Si esto no fuera suficiente, permite definir múltiples tipos de datos dependiendo de la tarea en la que se esté ocupando esta librería.

Sí, esta es una librería básica de ciencia de datos, pero no por eso es una librería débil. De hecho, en el Curso de Fundamentos de Redes Neuronales con Python y Keras se construye una red neuronal funcional desde cero, solo con NumPy. Con esto te puedes dar una idea de lo poderosa que es esta herramienta.

2. Pandas: una joya para manipular y analizar datos tabulares

pandas_python.png

Esta librería es puro amor y, no, no es porque haga referencia a estos hermosos osos chinos a blanco y negro 🐼. Fue creada por Wes McKinney en 2008 y su repositorio también se encuentra en GitHub. Una de las razones por las que me encanta Pandas es porque está construida sobre NumPy, de manera que todos los atributos que hacen de NumPy algo asombroso, Pandas los hereda.

Está enfocada en el análisis y manipulación de datos, especialmente en estructura matricial, usa poco código, es fácil de entender, contempla múltiples formatos y archivos para trabajar, además, es veloz y práctica. 💚

Al igual que NumPy, puede parecer algo simple, pero muchos análisis están hechos sobre Pandas, ya que proporciona módulos para agrupamientos, filtrado, operaciones aritméticas, visualización, unión entre otros DataFrames (el objeto principal de Pandas) y un sinnúmero de funciones. Muchas de las ETL o Pipelines de datos están utilizando Pandas para procesar y manipular datos.

3. Matplotlib: tu primera librería de visualización de datos

matplotlib.png

¿Qué sería de la analítica sin la visualización de datos? Una pesadilla, sin lugar a dudas. Afortunadamente, John D. Hunter en 2003 presentó Matplotlib, una librería enfocada en la visualización de datos que toma lo mejor de MATLAB y, además, se lleva perfectamente con los Arrays de NumPy.

Marplotlib es simple, rápida, altamente personalizable y cuenta con una gran cantidad de gráficos para facilitar el análisis de datos como histogramas, boxplot, gráficos de barra, línea, densidad y dispersión, entre otros. Todo esto sin contar la facilidad de crear múltiples gráficos en una única ejecución y también para dar un contexto a las gráficas a través de títulos, etiquetas, colores y leyendas.

grafica matplotlib.png

4. Seaborn: visualizaciones de datos rápidas y estilizadas

seaborn.png

Siguiendo la línea de visualización de datos está Seaborn, una librería que funciona sobre Matplotlib y hereda todas sus ventajas Fue escrita por Michael Waskom y, actualmente, es una de librerías más usadas en ciencia de datos por su facilidad y por el hecho de llevarse muy bien con Pandas y sus DataFrames 🤯

Seaborn ofrece una alta gama de gráficos personalizables para visualizaciones de tipo categórico, de distribución de datos, de tipo relacional y otras más. Por supuesto, esto se logra con poco de código.

Con Seaborn, solo hace falta cambiar un único parámetro “hue” para analizar los datos a través de distintos valores en una columna, lo que hace que simplemente aprendas a amar la facilidad con la que puedes examinar tus datasets de Pandas.

grafica seaborn.png

Interesante, ¿verdad?

La mejor noticia es que en Platzi sabemos que si quieres iniciar en el mundo de la ciencia de datos y crear cosas asombrosas con Python, conocer estas librerías es fundamental.

Es por esto que… (redoble de tambores 🥁 🥁 🥁 🥁 🥁 🥁), tenemos dos cursos para que comiences a aprender a usar estas librerías: Curso Básico de Manipulación y Transformación de Datos con Pandas y NumPy y Curso Básico de Visualización de Datos con Matplotlib y Seaborn.

Te invito a empezar ya mismo estos cursos en los que tengo la oportunidad de ser tu profesor. Empieza a sacar todo el provecho a tu carrera profesional y nunca pares de aprender. 💚🚀

Alarcon7a
Alarcon7a
alarcon7a

15424Puntos

hace 2 años

Todas sus entradas
Escribe tu comentario
+ 2
Ordenar por:
4
5257Puntos

Muchas gracias @alarcon7a haces unos excelentes aportes a la comunidad Data Science.

2
722Puntos

Gracias por tu información, es muy oportuna, curse el básico de Pythom, y curso en estos momentos GitHub básico para asi abordar mediante los conocimientos que me provee Git para seguir con el curso intermedio de Pythom, me surge una pregunta ¿Puedo ir abordando este curso Básico de manipulación de datos con Pandas y NumPy?¿ o debo terminar estos cursos para abordar este ?, Estoy a tiempo completo de estudio desde esta semana, y sencillamente quiero un consejo.
te agradezco mucho, un saludo
Atte:
Julián Fuentes R.

1
44205Puntos
2 años

Hola, Julianfue. 😄

Puedes tomar el Curso Básico de Python aquí. Puedes tomar ese y el Curso Intermedio de Python y probar con este curso de Pandas y NumPy. 🤓

1

Gracias por la información. No se si sería posible que subieras una similar pero con el uso de RStudio. Lamentablemente veo que Platzi no pone mucho ènfasis en ese lenguaje y que me parece que aùn tiene una demanda aceptable en el mercado laboral actual.

1

Gracias por la informacion, justo ahora estoy empezando el curso de Data Science y muy conveniente esta notificacion. Mayor informacion para aprovechar en el futuro.