No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripción 🔥

Aprende todo un fin de semana sin pagar una suscripción 🔥

Regístrate

Comienza en:

5D
12H
13M
40S

Lenguajes de programación e ingeniería de software

7/24
Recursos

Aportes 26

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Creo que es muy necesario que se actualicen los cursos de R y de Scala… Profe Ricardo lleve el pedido para que talvez se realicen… Gracias.

Librerías python para ingenieria de datos
Pandas.
Numpy.
Plotly.
Scikit-learn.
Category-encoders.
Imbalance Learning.
LightGBM / XGBoost.
Keras / Tensorflow.

Creo que vale la pena aclarar que está mal el decir “estadista” al experto en estadística, por lo que si debería ser correcto decir estadístico/a

Otra aptitud importante es la creación de API's REST. En Python hay varias bibliotecas y frameworks para esto, en lo personal, el mas sencillo y fácil de implementar seria FastAPI, del cual hay un curso acá en Platzi ~

-PygramETL y PETL para ETL para procesos ETL
-Beautiful Soup para scrapeo (que pienso aprender en este path de Platzi)
-Y saber conectar con APIs, por ejemplo si se necesita sacar información de redes sociales, cada una tiene su propia API y su documentación para conectar con Python. Poder comprender cómo se hace para extraer datos de allí. Por ejemplo para conectar con las APIs de YouTube, Instagram, Facebook, Twitter, Twitch.

Algún curso de JS aplicado para datos? 👀

Anotaciones:

  • Python (Nuestro caballo de batalla actual)
    • Librerias de codigo cientifico.
    • Puede ser mas lento que otras opciones.
    • El favorito de muchos por su sencillez.
  • R (elegido por expertos en estadistica)
    • Herramienta estadistica y antecesor de python.
    • Adelantado en modelos.
    • Importante para analistas.
    • Como Data engineers, aveces estaremos migrando codigo de R a otros lenguajes.
  • Scala (Spark se implementa sobre el)
    • Usa Java de base.
    • con la implementacion y optimizacion de PySpark bajo su necesidad.
    • Interante para programacion funcional.
  • Java (potente lenguaje multiplataforma)
    • Scala corre sobre Java.
    • Su escalibilidad es envidiable.
    • Puede ser un comodo siguiente paso.
    • Algunas librerias de ciencia de datos son implementadas en Java.
  • JavaScript (La navaja suiza para web developers)
    • Super flexible y util para muchos ambitos.
    • Imponente por la cantidad de herramientas que tiene.
    • Visualizaciones de datos mas bellas posibles. (libreria d3.js)
  • C++ y derivados (Columna vertebral de muchos proyectos)
    • Curva de aprendizaje potente.
    • Muchas herramientas usan C en el fondo.
    • Implementaciones modernas ayudan a que no sea dificil de implementar.
  • Otros lenguajes: Julia y el Framework de NET
  • Lo importante de los lenguajes: No es que los colecciones, sino que te sientas con comodidad implentando en diversos paradigmas de programacion. lo que vale es llevar tus ideas hasta generar valor.

Ya sé Python y JavaScript. Conozco de Java y C++ pero tengo mucho de no usarlos.

Uy Scala es magnífico, cuando lo empecé a usar no lo he dejado de usar, todo es suuper rapido y tiene muchas funcionalidades muy muy interesantes para el BigData (personalmente uso PySpark, que está construido sobre todo eso hahah)

Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.

Lo de JavaScript es super cierto, sus visualizaciones son suuuper lindas, es algo que me gustaría seguir aprendiendo para un siguiente trabajo, el cómo desplegar las soluciones de datos en la web y generar interfaces lindas para los usuarios

Esto se está saliendo de control… En vez de googlear las bibliotecas, hice un prompt en Chat-GPT. 🤯

Todo esto me lleva a que debo tomar primero el curso de programacion basica antes de entrar a fondo con estos temas, ya que soy bastante nuevo, despues de finalizar los cursos fundamentos ire a por el de programacion.

Mi resumen de la clase:

Debemos de tener en cuenta Maquetar código VS código en producción,
Python:
Nos ayuda mucho en Data Science, posee muchas librerías de código científico.
Puede ser más lento que otras opciones.
Es muy sencillo.

R:
Es un antecesor de Python.
Es muy útil para trabajar con estadísticas y modelos.
Importante para analistas.

Scala:
Usa java de base.
Con la implementación y optimización de PySpark bajó su necesidad.
Interesante para programación funcional.

Java:
Scala corre sobre java.
Su escalabilidad es envidiable.
Puede ser un cómodo siguiente paso.

JavaScript:
Navaja suiza para web developers.
Super flexible y útil para muchos ámbitos.
Imponente por la cantidad de herramientas que tiene.
Visualizaciones de datos más bellas posibles.

C++ y derivados:
Columna vertebral para muchos proyectos.
Curva de aprendizaje potente.
Muchas herramientas usan C en el fondo.
Implementaciones modernas ayudan a que no sea tan difícil de implementar.

Lo importante no es que los colecciones, sino que te sientas cómodos implementándolos en diversos paradigmas de programación, lo que vale es generar e implementar ideas que generen valor.

Librerías para Data Engineering

NumPy: es una librería de Python para el cálculo numérico y manipulación de arreglos. Es muy útil para procesar datos numéricos y realizar cálculos matemáticos.

Pandas: es una librería de Python para la manipulación y análisis de datos en tablas (dataframes). Es muy útil para cargar, limpiar, transformar y analizar datos.

Matplotlib: es una librería de Python para la visualización de datos en gráficos y plots. Es muy útil para explorar y visualizar datos.

SciPy: es una librería de Python para el cálculo científico y técnico. Incluye funciones para optimización, estadística, procesamiento de señales, álgebra lineal, entre otros.

Scikit-learn: es una librería de Python para el aprendizaje automático (machine learning). Incluye una variedad de algoritmos de aprendizaje supervisado y no supervisado, así como herramientas para la selección de características y la evaluación de modelos.

TensorFlow: es una librería de Python para el aprendizaje profundo (deep learning). Incluye herramientas para la construcción de redes neuronales y la entrenamiento de modelos de aprendizaje profundo.

PySpark: es una librería de Python para el procesamiento distribuido de datos utilizando Apache Spark. Es muy útil para procesar grandes volúmenes de datos en paralelo.

Siento que falto agregar elixir, un lenguaje concurrente y bastante potente que corre en la maquina virtual de Erlang (lenguaje bastante potente)

Estas son las principales herramientas de Python para la ingeniería de datos:

  • NumPy: NumPy es una biblioteca de Python que proporciona estructuras de datos y funciones para trabajar con matrices y arreglos de datos numéricos de alta velocidad.

  • Pandas: Pandas es una biblioteca de Python que proporciona estructuras de datos y funciones para trabajar con datos tabulares, lo que incluye la lectura y escritura de archivos CSV, Excel y otros formatos, y la manipulación de datos.

  • Matplotlib: Matplotlib es una biblioteca de Python que se utiliza para crear gráficos y visualizaciones de datos.

  • Scikit-learn: Scikit-learn es una biblioteca de aprendizaje automático de Python que proporciona una amplia variedad de herramientas para la minería de datos y el análisis estadístico.

  • TensorFlow: TensorFlow es una biblioteca de Python para la creación y entrenamiento de modelos de aprendizaje profundo, que se utiliza en aplicaciones de inteligencia artificial y aprendizaje automático.

  • PySpark: PySpark es una biblioteca de Python para el procesamiento de datos distribuidos en el marco de Apache Spark, que permite el procesamiento escalable de grandes conjuntos de datos.

  • Dask: Dask es una biblioteca de Python para el procesamiento de datos paralelos y distribuidos, lo que permite el procesamiento de grandes conjuntos de datos de manera eficiente.

Estas son solo algunas de las herramientas de Python disponibles para la ingeniería de datos.

La elección de herramientas dependerá del tipo de datos que se esté trabajando y de los objetivos específicos de cada proyecto.

Buena explicacion.

Estas son las librerias que pude encontrar para un Data Enginieer
NumPy
Pandas
Matplotlib
Seaborn

No sé si también se podría incluir SQL dentro de los lenguajes para ingeniería de datos. Cuando aprendí a usar PySpark me sirvió mucho tener un poco de fondo de SQL

Por las herramientas que utilizo a diario python resulta la mejor solución, además hay mucha de información de ayuda en internet.

haber, si es verdad que hay una infinidad de librerias en python.

la prengunta mas importante seria “cuales usariamos en nuestro dia a dia”.

haber, por ejemplo: existen 1000 librerias, pero solo uso 3 de ellas y voy sobrado jajaja. que opinan?

✨ Que las ideas generen valor ✨

Un Curso de Machine Learning con Julia!!! Sería muy bueno que se enseñara el poder de paquetes de ML como Flux.ij. Además que hay librerías de python que son compatibles con julia, es el caso de Pandas.ij

Librerías Python para ingeniería de datos:

Pandas
Numpy
Plotly
Scikit-learn
Shap
AzureML-sdk
Category-encoders
Imbalance Learning