No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

17 Días
15 Hrs
28 Min
17 Seg

Lenguajes de programación e ingeniería de software

7/25
Recursos

Aportes 56

Preguntas 5

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Creo que es muy necesario que se actualicen los cursos de R y de Scala… Profe Ricardo lleve el pedido para que talvez se realicen… Gracias.

Librerías python para ingenieria de datos
Pandas.
Numpy.
Plotly.
Scikit-learn.
Category-encoders.
Imbalance Learning.
LightGBM / XGBoost.
Keras / Tensorflow.

Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.

Creo que vale la pena aclarar que está mal el decir “estadista” al experto en estadística, por lo que si debería ser correcto decir estadístico/a

Mi resumen de la clase:

Debemos de tener en cuenta Maquetar código VS código en producción,
Python:
Nos ayuda mucho en Data Science, posee muchas librerías de código científico.
Puede ser más lento que otras opciones.
Es muy sencillo.

R:
Es un antecesor de Python.
Es muy útil para trabajar con estadísticas y modelos.
Importante para analistas.

Scala:
Usa java de base.
Con la implementación y optimización de PySpark bajó su necesidad.
Interesante para programación funcional.

Java:
Scala corre sobre java.
Su escalabilidad es envidiable.
Puede ser un cómodo siguiente paso.

JavaScript:
Navaja suiza para web developers.
Super flexible y útil para muchos ámbitos.
Imponente por la cantidad de herramientas que tiene.
Visualizaciones de datos más bellas posibles.

C++ y derivados:
Columna vertebral para muchos proyectos.
Curva de aprendizaje potente.
Muchas herramientas usan C en el fondo.
Implementaciones modernas ayudan a que no sea tan difícil de implementar.

Lo importante no es que los colecciones, sino que te sientas cómodos implementándolos en diversos paradigmas de programación, lo que vale es generar e implementar ideas que generen valor.

Otra aptitud importante es la creación de API's REST. En Python hay varias bibliotecas y frameworks para esto, en lo personal, el mas sencillo y fácil de implementar seria FastAPI, del cual hay un curso acá en Platzi ~

Algún curso de JS aplicado para datos? 👀

-PygramETL y PETL para ETL para procesos ETL
-Beautiful Soup para scrapeo (que pienso aprender en este path de Platzi)
-Y saber conectar con APIs, por ejemplo si se necesita sacar información de redes sociales, cada una tiene su propia API y su documentación para conectar con Python. Poder comprender cómo se hace para extraer datos de allí. Por ejemplo para conectar con las APIs de YouTube, Instagram, Facebook, Twitter, Twitch.

Anotaciones:

  • Python (Nuestro caballo de batalla actual)
    • Librerias de codigo cientifico.
    • Puede ser mas lento que otras opciones.
    • El favorito de muchos por su sencillez.
  • R (elegido por expertos en estadistica)
    • Herramienta estadistica y antecesor de python.
    • Adelantado en modelos.
    • Importante para analistas.
    • Como Data engineers, aveces estaremos migrando codigo de R a otros lenguajes.
  • Scala (Spark se implementa sobre el)
    • Usa Java de base.
    • con la implementacion y optimizacion de PySpark bajo su necesidad.
    • Interante para programacion funcional.
  • Java (potente lenguaje multiplataforma)
    • Scala corre sobre Java.
    • Su escalibilidad es envidiable.
    • Puede ser un comodo siguiente paso.
    • Algunas librerias de ciencia de datos son implementadas en Java.
  • JavaScript (La navaja suiza para web developers)
    • Super flexible y util para muchos ambitos.
    • Imponente por la cantidad de herramientas que tiene.
    • Visualizaciones de datos mas bellas posibles. (libreria d3.js)
  • C++ y derivados (Columna vertebral de muchos proyectos)
    • Curva de aprendizaje potente.
    • Muchas herramientas usan C en el fondo.
    • Implementaciones modernas ayudan a que no sea dificil de implementar.
  • Otros lenguajes: Julia y el Framework de NET
  • Lo importante de los lenguajes: No es que los colecciones, sino que te sientas con comodidad implentando en diversos paradigmas de programacion. lo que vale es llevar tus ideas hasta generar valor.
1. **pandas**: Librería de Python para manipulación y análisis de datos estructurados. Ideal para limpieza, transformación y análisis de datos. 2. **NumPy**: Biblioteca fundamental para computación científica en Python. Ofrece un soporte para matrices y operaciones matemáticas de alto nivel. 3. **Apache Spark**: Plataforma de procesamiento distribuido que proporciona una interfaz unificada para el procesamiento de datos en grandes clústeres. 4. **Apache Hadoop**: Framework de software de código abierto para almacenamiento y procesamiento distribuido de conjuntos de datos grandes utilizando el modelo de programación MapReduce. 5. **Apache Kafka**: Plataforma de transmisión distribuida que se utiliza para la construcción de sistemas de procesamiento de datos en tiempo real y de mensajería. 6. **SQLAlchemy**: Biblioteca de Python que proporciona una interfaz de alto nivel para trabajar con bases de datos relacionales utilizando Python. 7. **PySpark**: Biblioteca de Python que permite interactuar con Spark utilizando el lenguaje Python. 8. **TensorFlow** / **PyTorch**: Bibliotecas populares para machine learning y deep learning. Son ampliamente utilizadas en tareas de análisis predictivo y modelado de datos. 9. **scikit-learn**: Librería de aprendizaje automático de código abierto para Python. Proporciona herramientas simples y eficientes para la minería y análisis de datos. 10. **Dask**: Biblioteca de Python para computación paralela que escala los análisis existentes de datos de Python utilizando múltiples núcleos y máquinas. 11. **Apache Airflow**: Plataforma de programación de flujo de trabajo para programar, monitorear y administrar flujos de trabajo de datos. 12. **Gensim**: Biblioteca de Python para modelado de temas y documentos, utilizada para procesar grandes colecciones de texto. 13. **fastai**: Biblioteca de Python diseñada para simplificar el entrenamiento de modelos de aprendizaje profundo de alta calidad con menos código. 14. **NLTK (Natural Language Toolkit)**: Suite de herramientas de Python para trabajar con datos de lenguaje humano. Ofrece facilidades para la clasificación, tokenización, lematización, etiquetado y análisis de sintaxis. 15. **Arrow**: Biblioteca de Python para trabajar con fechas y tiempos de manera más eficiente y consistente.

NumPy: librería de Python para cálculos numéricos y operaciones en matrices.

Pandas: librería para análisis y manipulación de datos en Python.

Matplotlib: librería para visualización de datos en Python.

Seaborn: otra librería para visualización de datos, con una sintaxis más simple y elegante que Matplotlib.

Scikit-learn: librería para aprendizaje automático en Python, con herramientas para clasificación, regresión, clustering, selección de características y más.

TensorFlow: librería para aprendizaje automático y deep learning desarrollada por Google, con herramientas para construir redes neuronales y modelos de aprendizaje profundo.

Keras: otra librería de aprendizaje profundo, que ofrece una interfaz más fácil de usar que TensorFlow y permite construir modelos de manera más rápida.

PyTorch: librería de aprendizaje profundo desarrollada por Facebook, con una sintaxis similar a Numpy y con herramientas para construir redes neuronales y modelos de aprendizaje profundo.

Statsmodels: librería para estadística y modelado de datos en Python, que incluye herramientas para regresión lineal y no lineal, series de tiempo, análisis de datos categóricos, entre otros.

NLTK: librería para procesamiento de lenguaje natural en Python, con herramientas para análisis de texto, etiquetado de partes del discurso, análisis de sentimientos, entre otros.

Librerías para Data Engineering

NumPy: es una librería de Python para el cálculo numérico y manipulación de arreglos. Es muy útil para procesar datos numéricos y realizar cálculos matemáticos.

Pandas: es una librería de Python para la manipulación y análisis de datos en tablas (dataframes). Es muy útil para cargar, limpiar, transformar y analizar datos.

Matplotlib: es una librería de Python para la visualización de datos en gráficos y plots. Es muy útil para explorar y visualizar datos.

SciPy: es una librería de Python para el cálculo científico y técnico. Incluye funciones para optimización, estadística, procesamiento de señales, álgebra lineal, entre otros.

Scikit-learn: es una librería de Python para el aprendizaje automático (machine learning). Incluye una variedad de algoritmos de aprendizaje supervisado y no supervisado, así como herramientas para la selección de características y la evaluación de modelos.

TensorFlow: es una librería de Python para el aprendizaje profundo (deep learning). Incluye herramientas para la construcción de redes neuronales y la entrenamiento de modelos de aprendizaje profundo.

PySpark: es una librería de Python para el procesamiento distribuido de datos utilizando Apache Spark. Es muy útil para procesar grandes volúmenes de datos en paralelo.

7. Lenguajes de programación e ingeniería de software

Python

Nuestro caballo de batalla actual.

  • Librerías de código científico.
  • Puede ser más lento que otras opciones.
  • Mi favorito y el de muchas personas por su sencillez.
  • Pandas, Pyskpark, flask.

R

Elegido por estadistas.

  • Herramienta de estadística y antecesor de Python.
  • Adelantado en modelos.
  • Importante para analistas.

Scala

Spark se implementa sobre él.

  • Usa Java de base.
  • Con la implementación y optimización de PySpak bajó su necesidad.
  • Interesante para programación funcional.

Java

Potente lenguaje multiplataforna.

  • Scala corre sobre Java.
  • Su escalabilidad es envidiable.

JavaScript

La navaja suiza para web developers.

  • Súper flexible y útil para muchos ámbitos.

C++ y derivadors

  • Columna vertebral de muchos proyectos.
  • Curva de aprendizaje potente.

No es que los colecciones, sino que te sientas con comodidad implementando en diversos paradigmas de programación.

Lo que vale es llevar tus ideas hasta generar valor.

Comparto algunas herramientas que encontré para ingeniería de datos:
Apache Hadoop
minero rapido
Cuadro
Cloudera
Colmena Apache
Tormenta de Apache
Ciencia de datos de copos de nieve
robot de datos
TensorFlow
matplotlib

### Bibliotecas y Herramientas Clave en Python para Ingeniería de Datos 1. **Pandas**: Para manipulación y análisis de datos. 2. **NumPy**: Para cálculos numéricos y manejo de arrays. 3. **SQLAlchemy**: Para interactuar con bases de datos SQL. 4. **PySpark**: Para procesar grandes volúmenes de datos usando Apache Spark. 5. **Dask**: Para computación paralela y procesamiento de grandes datasets que no caben en la memoria. 6. **Airflow**: Para la orquestación y programación de flujos de trabajo. 7. **Luigi**: Similar a Airflow, para la gestión de flujos de trabajo. 8. **Beautiful Soup** y **Scrapy**: Para web scraping. 9. **Matplotlib** y **Seaborn**: Para visualización de datos. 10. **Jupyter Notebook**: Como entorno de desarrollo y documentación. ### Funcionalidades Principales * **Extracción de Datos**: Obtener datos de diversas fuentes como bases de datos, archivos, APIs, servicios web, etc. * **Transformación de Datos**: Limpiar, normalizar, transformar, y preparar los datos para análisis o almacenamiento. * **Carga de Datos (ETL)**: Cargar datos transformados en sistemas de almacenamiento como bases de datos, data lakes o data warehouses. * **Análisis y Exploración de Datos**: Realizar análisis exploratorios para obtener insights y preparar los datos para aplicaciones más avanzadas. * **Automatización y Orquestación**: Automatizar flujos de trabajo de datos y orquestar tareas complejas de ingeniería de datos.
Encontré este blog, y viene un listado increíble. 1. Pandas. 2. NumPy. 3. *Matplotlib y Seaborn* 4. *Scikit-Learn* 5. *Apache Spark (PySpark)* 6. *SQLAlchemy* 7. *Dask* *Más info:* [*<u>Medium</u>*](https://medium.com/@karenlenis900/librer%C3%ADas-esenciales-para-un-ingeniero-de-datos-en-python-92c132f8cca3) Seguiré investigando, dado quehe podido conocer de otros más como Keras, TensorFlow, Apache Spark, Airflow, Apache Beam, entre otros.

Librerías Python para ingeniería de datos:

Pandas
Numpy
Plotly
Scikit-learn
Shap
AzureML-sdk
Category-encoders
Imbalance Learning

Ya sé Python y JavaScript. Conozco de Java y C++ pero tengo mucho de no usarlos.

Uy Scala es magnífico, cuando lo empecé a usar no lo he dejado de usar, todo es suuper rapido y tiene muchas funcionalidades muy muy interesantes para el BigData (personalmente uso PySpark, que está construido sobre todo eso hahah)

Lo de JavaScript es super cierto, sus visualizaciones son suuuper lindas, es algo que me gustaría seguir aprendiendo para un siguiente trabajo, el cómo desplegar las soluciones de datos en la web y generar interfaces lindas para los usuarios

En efecto, Pandas, SciKit, TensorFlow (Conoci un proyecto de Redes Neuronales que la utilizaba muy bien, presentado en Hackaday 2020)
Pandas, Scipy and numpy are the foundation of Python's data science ecosystem
Pandas Numpy Plotly Scikit-Learn
Las librerias que mas he usado han sido Pandas, Numpy, Request, BeautifulSoup, openpyxls.
Matplotlib: Libreria mas estándar de phytom y conocida, usada para generar variedad de datos online sin usar muchas lineas de codigo TensorFlow: desarollada por Google y es clave para calculo numerico Pandas: Usada en data science y usada en muchos sectores como estadistica, economia, ingenieria Seaborn: Apuesta por la visualizacon de datos estadisticos para entender data.
Dejo mis notas y pensamientos * Lenguajes de Maquetado:Sencillo, agile para maquetar pero Bastante Lento Python, R Ambos lenguajes de muy alto nivel no óptimos en rendimiento y software de sistemas. Lenguajes de Producción: Scala: Lenguaje funcional y concurrente y usa la JVM de java. Java: Lenguaje multiplataforma de alto rendimiento y escalabilidad. Javascript: Lenguaje para web Lenguajes de Sistema: C++, Yo agregaria Rust:
1. **NumPy**: Utilizada para la computación científica y el manejo de matrices multidimensionales. 2. **Pandas**: Ideal para la manipulación y análisis de datos, especialmente con DataFrames. 3. **Scikit-learn**: Popular para tareas de aprendizaje automático y análisis predictivo. 4. **TensorFlow**: Usada para construir y entrenar modelos de aprendizaje profundo. 5. **Keras**: Una API de alto nivel para redes neuronales, que se ejecuta sobre TensorFlow. 6. **PyTorch**: Otra librería para el aprendizaje profundo, conocida por su flexibilidad y facilidad de uso. 7. **Matplotlib**: Utilizada para la visualización de datos mediante gráficos estáticos. 8. **Seaborn**: Basada en Matplotlib, facilita la creación de gráficos estadísticos atractivos. 9. **Plotly**: Permite crear gráficos interactivos y visualizaciones en la web. 10. **SciPy**: Complementa a NumPy con funciones adicionales para la computación científica.
* Siempre he tenido la curiosidad de aprender R.

Gracias

Python, con estas librerías: PySpark, Pandas. Numpy, Matplotlib, Seaborn, Scikit-learn,TensorFlow, TensorFlow.
Lista de 5 librerías muy utilizadas en Python junto con una breve definición de cada una: 1. **NumPy**: NumPy es una librería fundamental para la computación científica en Python. Proporciona un objeto de matriz multidimensional de alto rendimiento y herramientas para trabajar con estas matrices. NumPy es ampliamente utilizado en áreas como la ciencia de datos, la ingeniería, la física, las matemáticas y más. 2. **Pandas**: Pandas es una librería de análisis de datos que proporciona estructuras de datos de alto nivel y herramientas para manipular y analizar datos de forma rápida y eficiente. Es especialmente útil para la limpieza, exploración y manipulación de datos en preparación para el análisis y modelado de datos. 3. **Matplotlib**: Matplotlib es una librería de visualización de datos en 2D que produce gráficos de alta calidad en diversos formatos y entornos. Proporciona una API similar a la de MATLAB, lo que facilita la creación de gráficos personalizados para la visualización de datos y resultados. 4. **Scikit-learn**: Scikit-learn es una librería de aprendizaje automático de código abierto que proporciona herramientas simples y eficientes para el análisis predictivo y la minería de datos. Ofrece una amplia gama de algoritmos de aprendizaje supervisado y no supervisado, así como herramientas para preprocesamiento de datos, selección de características, evaluación de modelos y más. 5. **TensorFlow / PyTorch**: Estas son librerías para el aprendizaje profundo (deep learning) en Python. TensorFlow es desarrollado por Google y PyTorch por Facebook. Ambas ofrecen una API flexible y eficiente para la construcción y entrenamiento de modelos de aprendizaje profundo, así como herramientas para la implementación en producción y la investigación en aprendizaje profundo.
**Pandas:** Para la manipulación y limpieza de datos. **NumPy:** Para el manejo de datos numéricos y matrices. **PySpark:** Para el procesamiento de grandes volúmenes de datos en clusters. **SQLAlchemy:** Para la interacción con bases de datos SQL. **Apache Airflow:** Para la orquestación y automatización de flujos de trabajo. **Luigi:** Similar a Airflow, para la gestión de pipelines de datos. **Dask:** Para computación paralela y escalable. **TensorFlow y PyTorch:** Para el aprendizaje automático y el procesamiento de datos a gran escala. **Matplotlib y Seaborn:** Para la visualización de datos.
scala
En python algunas libresiar puede utilizar numply - Plotly entre otras

Librerías de Python 🐍 qye se usan en ingeniería de datos: * NumPy: Biblioteca de código abierto principalmente para la computación científica. * Pandas: Biblioteca de código abierto; se utiliza principalmente para el análisis de datos. * Matplotlib: Es una biblioteca muy utilizada para crear visualizaciones de datos "simples". * Plotly: Biblioteca de visualización de datos interactiva basada en la web. * Bokeh: Biblioteca de visualización para visualizaciones <u>interactivas</u> * Seaborn: Biblioteca de visualización para visualizar modelos estadísticos * SciKit-Learn: Se usa principalmente para trabajar con <u>Machine Learning</u> * TensorFlow: Desarrollada por Google Developers; es la más avanzada para la formación de redes neuronales. * NLTK (Natural Language Toolkit): Se utiliza para el procesamiento de lenguaje natural como: etiquetado, tokenización, etc. * DatabaseInterface: Conectarnos a varios sistemas de bases de datos de forma <u>orientada a objetos</u> * SQLAlchemy: Contiene la interfaz de Python para bases de datos relacionales y no relacionales. * BeautifulSoup: Librerería de análisis que pueden utilizar diferentes analizadores; se extraen <u>datos de documentos HTML y XML</u>.

Librerías de Python:

  • NumPy
  • Pandas
  • Matplotlib
  • Seaborn
  • Tensorflow
  • Keras
  • Scikit-learn

Lenguajes de Programación en Ingeniería de Software

En programación en producción tenemos que tener mucho cuidado para evitar problemas a futuro. Es fundamental tener en cuenta lo siguiente:

  • Eficiencia de los procesos de captura de datos
  • Procesamiento de la limpieza
  • Aprovisionamiento

Lenguajes de programación

En ocasiones, las cosas que hacemos con algunos lenguajes interpretados, no es tan fácil de mantener si este es utilizado por muchos usuarios, por lo que en ocasiones puede ser más eficiente utilizar lenguajes compilados.

A continuación veremos algunos de los lenguajes más empleados para la ingeniería de datos.

Python

  • Librerías de código científico
  • Puede ser más lento que otras opciones
  • Favorito de muchos por su sencillez

R

  • Elegido por estadistas
  • Herramienta estadística y antecesor de Python
  • Adelantado en modelos
  • Importante para analistas

Scala

  • Spark se implementa sobre él
  • Usa Java de base
  • Con la implementación y optimización de PySpark bajó su necesidad
  • Interesante para programación funcional

Java

  • Potente lenguaje multiplataforma
  • Scala corre sobre Java
  • Su escalabilidad es envidiable
  • Puede ser un cómodo siguiente paso

JavaScript

  • La navaja suiza para web developers
  • Súperflexible y útil para muchos ámbitos
  • Imponente por la cantidad de herramientas que tiene
  • Visualizaciones de datos más bellas posibles

C++ y derivados

  • Columna vertebral de muchos proyectos
  • Curva de aprendizaje potente
  • Muchas herramientas usan C en el fondo
  • Implementaciones modernas ayudan a que no sea tan difícil de implementar.

Reto Python para Data Engineer

Instrucciones: Busca herramientas/librerías en Google que se usan en ingeniería de datos.

En ingeniería de datos, se emplean varias librerías de Python para facilitar la manipulación, transformación, análisis y visualización de datos. Algunas de las librerías más comunes son:

Pandas

Pandas es una librería de análisis de datos que proporciona estructuras de datos flexibles y eficientes, como DataFrames y Series. Es ampliamente utilizado para limpiar, transformar y analizar datos tabulares.

NumPy

NumPy es una librería fundamental para la computación científica en Python. Ofrece soporte para arrays multidimensionales y operaciones matemáticas avanzadas, lo que lo convierte en una herramienta esencial para el procesamiento numérico.

SQLAlchemy

SQLAlchemy es una librería de mapeo objeto-relacional (ORM) que permite interactuar con bases de datos relacionales utilizando objetos Python. Es útil para realizar operaciones de base de datos de manera programática y eficiente.

Dask

Dask es una librería que permite realizar cómputo paralelo y distribuido en Python. Es especialmente útil para trabajar con conjuntos de datos que no caben en la memoria RAM y para acelerar operaciones computacionalmente intensivas.

Apache Spark (PySpark)

Spark es una plataforma de cómputo distribuido que puede ser utilizada con su API Python llamada PySpark. Se utiliza para procesar grandes volúmenes de datos de manera paralela y escalable.

Arrow

Arrow es una librería de procesamiento de datos de alto rendimiento que se centra en la interoperabilidad entre diferentes sistemas y lenguajes. Es especialmente útil para el intercambio de datos entre Python y otras herramientas.

Matplotlib y Seaborn

Estas librerías son ampliamente utilizadas para la visualización de datos en Python. Matplotlib proporciona una amplia variedad de gráficos y trazados, mientras que Seaborn se enfoca en la creación de visualizaciones estadísticas más atractivas.

Plotly

Plotly es una librería que permite crear visualizaciones interactivas y dinámicas, incluidos gráficos, diagramas de dispersión y mapas.

Scikit-learn

Si bien es más conocida como una librería de aprendizaje automático, Scikit-learn también ofrece utilidades para la preparación y preprocesamiento de datos antes de aplicar algoritmos de machine learning.

Faker

Faker es una librería que genera datos falsos y realistas, lo que puede ser útil para crear conjuntos de datos de prueba.

Estas son solo algunas de las muchas librerías disponibles en Python para ingeniería de datos. La elección de la librería dependerá de las necesidades específicas del proyecto y de las tareas que deban realizarse en el proceso de manipulación y análisis de datos.

Me gusta Rust pero no se como va para el trabajo con datos

Librerías que considero importante para Data Engineering/Science con Python:

Pandas/Geopandas
Polars/Geopolars
Matplotlib y Seaborn
Numpy
Pyspark
psycopg- conexión a postgresql
Shapely y fiona

Creo que faltó un nuevo Lenguaje muy usado por data engeenier y que es muy rápido iy util que es RUST

librerías de Python para la ciencia de datos

Pandas
Numpy
Plotly
Scikit-learn
Category-encoders
Imbalance Learning
LightGBM / XGBoost
Keras / Tensorflow
Shap
AzureML-sdk

Librerias Python para ingeniria de datos.

Pandas.
Numpy.
Plotly.
Scikit-learn.
Category-encoders.
Imbalance Learning.
LightGBM / XGBoost.
Keras / Tensorflow.

Una aclaración: estadistas y estadísticos(as) no son lo mismo.

NOOOOOO!!! Elegido por “Estadistas”, es Estadisticosss!!! no Estadistas, Estadistico es una cosa y Estadista es otra cosa totalemnte distinta

Esto se está saliendo de control… En vez de googlear las bibliotecas, hice un prompt en Chat-GPT. 🤯

Todo esto me lleva a que debo tomar primero el curso de programacion basica antes de entrar a fondo con estos temas, ya que soy bastante nuevo, despues de finalizar los cursos fundamentos ire a por el de programacion.

Estas son las principales herramientas de Python para la ingeniería de datos:

  • NumPy: NumPy es una biblioteca de Python que proporciona estructuras de datos y funciones para trabajar con matrices y arreglos de datos numéricos de alta velocidad.

  • Pandas: Pandas es una biblioteca de Python que proporciona estructuras de datos y funciones para trabajar con datos tabulares, lo que incluye la lectura y escritura de archivos CSV, Excel y otros formatos, y la manipulación de datos.

  • Matplotlib: Matplotlib es una biblioteca de Python que se utiliza para crear gráficos y visualizaciones de datos.

  • Scikit-learn: Scikit-learn es una biblioteca de aprendizaje automático de Python que proporciona una amplia variedad de herramientas para la minería de datos y el análisis estadístico.

  • TensorFlow: TensorFlow es una biblioteca de Python para la creación y entrenamiento de modelos de aprendizaje profundo, que se utiliza en aplicaciones de inteligencia artificial y aprendizaje automático.

  • PySpark: PySpark es una biblioteca de Python para el procesamiento de datos distribuidos en el marco de Apache Spark, que permite el procesamiento escalable de grandes conjuntos de datos.

  • Dask: Dask es una biblioteca de Python para el procesamiento de datos paralelos y distribuidos, lo que permite el procesamiento de grandes conjuntos de datos de manera eficiente.

Estas son solo algunas de las herramientas de Python disponibles para la ingeniería de datos.

La elección de herramientas dependerá del tipo de datos que se esté trabajando y de los objetivos específicos de cada proyecto.

Buena explicacion.

Estas son las librerias que pude encontrar para un Data Enginieer
NumPy
Pandas
Matplotlib
Seaborn

No sé si también se podría incluir SQL dentro de los lenguajes para ingeniería de datos. Cuando aprendí a usar PySpark me sirvió mucho tener un poco de fondo de SQL

Por las herramientas que utilizo a diario python resulta la mejor solución, además hay mucha de información de ayuda en internet.

haber, si es verdad que hay una infinidad de librerias en python.

la prengunta mas importante seria “cuales usariamos en nuestro dia a dia”.

haber, por ejemplo: existen 1000 librerias, pero solo uso 3 de ellas y voy sobrado jajaja. que opinan?

✨ Que las ideas generen valor ✨

Un Curso de Machine Learning con Julia!!! Sería muy bueno que se enseñara el poder de paquetes de ML como Flux.ij. Además que hay librerías de python que son compatibles con julia, es el caso de Pandas.ij