Creo que es muy necesario que se actualicen los cursos de R y de Scala… Profe Ricardo lleve el pedido para que talvez se realicen… Gracias.
Introducción a la ingeniería de datos
¿Qué es ingeniería de datos? ¿Qué es Data Engineer?
Guía de retos para convertirte en Data Engineer
¿Cómo convertirte en Data Engineer?
¿Dónde ejercer como Data Engineer?
Tareas de Data Engineer: DataOPs
Quiz: Introducción a la ingeniería de datos
Herramientas del ciclo de DataOps
Agile en ingeniería de datos
Lenguajes de programación e ingeniería de software
¿Dónde y cómo escribir tu código en ingeniería de datos?
Automatización y scripting
Fuentes de datos: SQL, NoSQL, API y web scraping
Procesamiento de datos: pipelines, Apache Spark y cómputo paralelo
Automatizar los pipelines: Airflow
Containers y empaquetamiento: Docker y Kubernetes
Manejo de ambientes para datos
Testing de software y de datos
CI/CD basico
Servidores y computación en la nube para data
Reentrenamiento y control de salud de servicios
Medición de indicadores y seguimiento a proyectos
Quiz: Herramientas del ciclo de DataOps
Ejerciendo como Data Engineer
Buscando Oportunidades como Data Engineer
Evolución en el rol: ganando seniority como Data Engineer
Evolución en el rol: manager, architect, pivot
Trabajando en equipo como Data Engineer
Quiz: Ejerciendo como Data Engineer
Conclusiones
Compartir con la comunidad y seguir creciendo
Completa tu guía con los retos y certifícate
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Convierte tus certificados en títulos universitarios en USA
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Ricardo Alanis
Aportes 56
Preguntas 5
Creo que es muy necesario que se actualicen los cursos de R y de Scala… Profe Ricardo lleve el pedido para que talvez se realicen… Gracias.
Librerías python para ingenieria de datos
Pandas.
Numpy.
Plotly.
Scikit-learn.
Category-encoders.
Imbalance Learning.
LightGBM / XGBoost.
Keras / Tensorflow.
Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.
Creo que vale la pena aclarar que está mal el decir “estadista” al experto en estadística, por lo que si debería ser correcto decir estadístico/a
Mi resumen de la clase:
Debemos de tener en cuenta Maquetar código VS código en producción,
Python:
Nos ayuda mucho en Data Science, posee muchas librerías de código científico.
Puede ser más lento que otras opciones.
Es muy sencillo.
R:
Es un antecesor de Python.
Es muy útil para trabajar con estadísticas y modelos.
Importante para analistas.
Scala:
Usa java de base.
Con la implementación y optimización de PySpark bajó su necesidad.
Interesante para programación funcional.
Java:
Scala corre sobre java.
Su escalabilidad es envidiable.
Puede ser un cómodo siguiente paso.
JavaScript:
Navaja suiza para web developers.
Super flexible y útil para muchos ámbitos.
Imponente por la cantidad de herramientas que tiene.
Visualizaciones de datos más bellas posibles.
C++ y derivados:
Columna vertebral para muchos proyectos.
Curva de aprendizaje potente.
Muchas herramientas usan C en el fondo.
Implementaciones modernas ayudan a que no sea tan difícil de implementar.
Lo importante no es que los colecciones, sino que te sientas cómodos implementándolos en diversos paradigmas de programación, lo que vale es generar e implementar ideas que generen valor.
Otra aptitud importante es la creación de API's
REST. En Python
hay varias bibliotecas y frameworks para esto, en lo personal, el mas sencillo y fácil de implementar seria FastAPI, del cual hay un curso acá en Platzi ~
-PygramETL y PETL para ETL para procesos ETL
-Beautiful Soup para scrapeo (que pienso aprender en este path de Platzi)
-Y saber conectar con APIs, por ejemplo si se necesita sacar información de redes sociales, cada una tiene su propia API y su documentación para conectar con Python. Poder comprender cómo se hace para extraer datos de allí. Por ejemplo para conectar con las APIs de YouTube, Instagram, Facebook, Twitter, Twitch.
Anotaciones:
NumPy: librería de Python para cálculos numéricos y operaciones en matrices.
Pandas: librería para análisis y manipulación de datos en Python.
Matplotlib: librería para visualización de datos en Python.
Seaborn: otra librería para visualización de datos, con una sintaxis más simple y elegante que Matplotlib.
Scikit-learn: librería para aprendizaje automático en Python, con herramientas para clasificación, regresión, clustering, selección de características y más.
TensorFlow: librería para aprendizaje automático y deep learning desarrollada por Google, con herramientas para construir redes neuronales y modelos de aprendizaje profundo.
Keras: otra librería de aprendizaje profundo, que ofrece una interfaz más fácil de usar que TensorFlow y permite construir modelos de manera más rápida.
PyTorch: librería de aprendizaje profundo desarrollada por Facebook, con una sintaxis similar a Numpy y con herramientas para construir redes neuronales y modelos de aprendizaje profundo.
Statsmodels: librería para estadística y modelado de datos en Python, que incluye herramientas para regresión lineal y no lineal, series de tiempo, análisis de datos categóricos, entre otros.
NLTK: librería para procesamiento de lenguaje natural en Python, con herramientas para análisis de texto, etiquetado de partes del discurso, análisis de sentimientos, entre otros.
Librerías para Data Engineering
NumPy: es una librería de Python para el cálculo numérico y manipulación de arreglos. Es muy útil para procesar datos numéricos y realizar cálculos matemáticos.
Pandas: es una librería de Python para la manipulación y análisis de datos en tablas (dataframes). Es muy útil para cargar, limpiar, transformar y analizar datos.
Matplotlib: es una librería de Python para la visualización de datos en gráficos y plots. Es muy útil para explorar y visualizar datos.
SciPy: es una librería de Python para el cálculo científico y técnico. Incluye funciones para optimización, estadística, procesamiento de señales, álgebra lineal, entre otros.
Scikit-learn: es una librería de Python para el aprendizaje automático (machine learning). Incluye una variedad de algoritmos de aprendizaje supervisado y no supervisado, así como herramientas para la selección de características y la evaluación de modelos.
TensorFlow: es una librería de Python para el aprendizaje profundo (deep learning). Incluye herramientas para la construcción de redes neuronales y la entrenamiento de modelos de aprendizaje profundo.
PySpark: es una librería de Python para el procesamiento distribuido de datos utilizando Apache Spark. Es muy útil para procesar grandes volúmenes de datos en paralelo.
Python
Nuestro caballo de batalla actual.
R
Elegido por estadistas.
Scala
Spark se implementa sobre él.
Java
Potente lenguaje multiplataforna.
JavaScript
La navaja suiza para web developers.
C++ y derivadors
No es que los colecciones, sino que te sientas con comodidad implementando en diversos paradigmas de programación.
Lo que vale es llevar tus ideas hasta generar valor.
Comparto algunas herramientas que encontré para ingeniería de datos:
Apache Hadoop
minero rapido
Cuadro
Cloudera
Colmena Apache
Tormenta de Apache
Ciencia de datos de copos de nieve
robot de datos
TensorFlow
matplotlib
Librerías Python para ingeniería de datos:
Pandas
Numpy
Plotly
Scikit-learn
Shap
AzureML-sdk
Category-encoders
Imbalance Learning
Ya sé Python y JavaScript. Conozco de Java y C++ pero tengo mucho de no usarlos.
Uy Scala es magnífico, cuando lo empecé a usar no lo he dejado de usar, todo es suuper rapido y tiene muchas funcionalidades muy muy interesantes para el BigData (personalmente uso PySpark, que está construido sobre todo eso hahah)
Lo de JavaScript es super cierto, sus visualizaciones son suuuper lindas, es algo que me gustaría seguir aprendiendo para un siguiente trabajo, el cómo desplegar las soluciones de datos en la web y generar interfaces lindas para los usuarios
Gracias
✅
Librerías de Python:
En programación en producción tenemos que tener mucho cuidado para evitar problemas a futuro. Es fundamental tener en cuenta lo siguiente:
En ocasiones, las cosas que hacemos con algunos lenguajes interpretados, no es tan fácil de mantener si este es utilizado por muchos usuarios, por lo que en ocasiones puede ser más eficiente utilizar lenguajes compilados.
A continuación veremos algunos de los lenguajes más empleados para la ingeniería de datos.
Instrucciones: Busca herramientas/librerías en Google que se usan en ingeniería de datos.
En ingeniería de datos, se emplean varias librerías de Python para facilitar la manipulación, transformación, análisis y visualización de datos. Algunas de las librerías más comunes son:
Pandas es una librería de análisis de datos que proporciona estructuras de datos flexibles y eficientes, como DataFrames y Series. Es ampliamente utilizado para limpiar, transformar y analizar datos tabulares.
NumPy es una librería fundamental para la computación científica en Python. Ofrece soporte para arrays multidimensionales y operaciones matemáticas avanzadas, lo que lo convierte en una herramienta esencial para el procesamiento numérico.
SQLAlchemy es una librería de mapeo objeto-relacional (ORM) que permite interactuar con bases de datos relacionales utilizando objetos Python. Es útil para realizar operaciones de base de datos de manera programática y eficiente.
Dask es una librería que permite realizar cómputo paralelo y distribuido en Python. Es especialmente útil para trabajar con conjuntos de datos que no caben en la memoria RAM y para acelerar operaciones computacionalmente intensivas.
Spark es una plataforma de cómputo distribuido que puede ser utilizada con su API Python llamada PySpark. Se utiliza para procesar grandes volúmenes de datos de manera paralela y escalable.
Arrow es una librería de procesamiento de datos de alto rendimiento que se centra en la interoperabilidad entre diferentes sistemas y lenguajes. Es especialmente útil para el intercambio de datos entre Python y otras herramientas.
Estas librerías son ampliamente utilizadas para la visualización de datos en Python. Matplotlib proporciona una amplia variedad de gráficos y trazados, mientras que Seaborn se enfoca en la creación de visualizaciones estadísticas más atractivas.
Plotly es una librería que permite crear visualizaciones interactivas y dinámicas, incluidos gráficos, diagramas de dispersión y mapas.
Si bien es más conocida como una librería de aprendizaje automático, Scikit-learn también ofrece utilidades para la preparación y preprocesamiento de datos antes de aplicar algoritmos de machine learning.
Faker es una librería que genera datos falsos y realistas, lo que puede ser útil para crear conjuntos de datos de prueba.
Estas son solo algunas de las muchas librerías disponibles en Python para ingeniería de datos. La elección de la librería dependerá de las necesidades específicas del proyecto y de las tareas que deban realizarse en el proceso de manipulación y análisis de datos.
Me gusta Rust pero no se como va para el trabajo con datos
Librerías que considero importante para Data Engineering/Science con Python:
Pandas/Geopandas
Polars/Geopolars
Matplotlib y Seaborn
Numpy
Pyspark
psycopg- conexión a postgresql
Shapely y fiona
Creo que faltó un nuevo Lenguaje muy usado por data engeenier y que es muy rápido iy util que es RUST
librerías de Python para la ciencia de datos
Pandas
Numpy
Plotly
Scikit-learn
Category-encoders
Imbalance Learning
LightGBM / XGBoost
Keras / Tensorflow
Shap
AzureML-sdk
Librerias Python para ingeniria de datos.
Pandas.
Numpy.
Plotly.
Scikit-learn.
Category-encoders.
Imbalance Learning.
LightGBM / XGBoost.
Keras / Tensorflow.
Una aclaración: estadistas y estadísticos(as) no son lo mismo.
NOOOOOO!!! Elegido por “Estadistas”, es Estadisticosss!!! no Estadistas, Estadistico es una cosa y Estadista es otra cosa totalemnte distinta
Esto se está saliendo de control… En vez de googlear las bibliotecas, hice un prompt en Chat-GPT. 🤯
Todo esto me lleva a que debo tomar primero el curso de programacion basica antes de entrar a fondo con estos temas, ya que soy bastante nuevo, despues de finalizar los cursos fundamentos ire a por el de programacion.
Estas son las principales herramientas de Python para la ingeniería de datos:
NumPy: NumPy es una biblioteca de Python que proporciona estructuras de datos y funciones para trabajar con matrices y arreglos de datos numéricos de alta velocidad.
Pandas: Pandas es una biblioteca de Python que proporciona estructuras de datos y funciones para trabajar con datos tabulares, lo que incluye la lectura y escritura de archivos CSV, Excel y otros formatos, y la manipulación de datos.
Matplotlib: Matplotlib es una biblioteca de Python que se utiliza para crear gráficos y visualizaciones de datos.
Scikit-learn: Scikit-learn es una biblioteca de aprendizaje automático de Python que proporciona una amplia variedad de herramientas para la minería de datos y el análisis estadístico.
TensorFlow: TensorFlow es una biblioteca de Python para la creación y entrenamiento de modelos de aprendizaje profundo, que se utiliza en aplicaciones de inteligencia artificial y aprendizaje automático.
PySpark: PySpark es una biblioteca de Python para el procesamiento de datos distribuidos en el marco de Apache Spark, que permite el procesamiento escalable de grandes conjuntos de datos.
Dask: Dask es una biblioteca de Python para el procesamiento de datos paralelos y distribuidos, lo que permite el procesamiento de grandes conjuntos de datos de manera eficiente.
Estas son solo algunas de las herramientas de Python disponibles para la ingeniería de datos.
La elección de herramientas dependerá del tipo de datos que se esté trabajando y de los objetivos específicos de cada proyecto.
Buena explicacion.
Estas son las librerias que pude encontrar para un Data Enginieer
NumPy
Pandas
Matplotlib
Seaborn
No sé si también se podría incluir SQL dentro de los lenguajes para ingeniería de datos. Cuando aprendí a usar PySpark me sirvió mucho tener un poco de fondo de SQL
Por las herramientas que utilizo a diario python resulta la mejor solución, además hay mucha de información de ayuda en internet.
haber, si es verdad que hay una infinidad de librerias en python.
la prengunta mas importante seria “cuales usariamos en nuestro dia a dia”.
haber, por ejemplo: existen 1000 librerias, pero solo uso 3 de ellas y voy sobrado jajaja. que opinan?
✨ Que las ideas generen valor ✨
Un Curso de Machine Learning con Julia!!! Sería muy bueno que se enseñara el poder de paquetes de ML como Flux.ij. Además que hay librerías de python que son compatibles con julia, es el caso de Pandas.ij
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?