ETL
Clase 5 de 35 • Curso Profesional de Data Science 2016
Contenido del curso
Llevar tus cosas a Producción
- 3

Llevar tus cosas a producción
05:53 min - 4

Bases de datos: SQL o NoSQL
05:22 min - 5

ETL
Viendo ahora - 6

Mostrar tus datos mediante dashboards
07:38 min - 7

Repaso por Jupyter Notebook
07:34 min - 8

Ejemplo de inferencia en twitter para producción
20:35 min - 9

Creando nuestro modelo matematico
17:45 min - 10

Automatización
24:35 min - 11
Llevar tus cosas a producción
07:13 min
Machine Learning
- 12

Un poco de contexto sobre machine learning
10:40 min - 13

Entrenando un modelo de Machine Learning
12:03 min - 14

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad
15:38 min - 15

Modelos canónicos y para que los usamos
17:02 min - 16

Más modelos canonicos
28:24 min - 17

Itera rápido o muere lento
06:33 min - 18

Recolectando y limpiando nuestros datos
23:28 min - 19

Implementando nuestros modelos de Machine Learning
16:23 min - 20

Creando y ejecutando nuestro pipeline
32:34 min - 21
Machine Learning
12:04 min
Estadística
Herramientas clave que usa un data scientist
Construyendo un equipo de data science
¿Qué sigue?
ETL es una sigla en inglés para “Extraer, Transformar y Cargar”.
Por ejemplo, un proceso ETL podría consumir datos que se generaron en las cabinas de votación en la ciudad de Nueva York, así que quizás cada registro en estos datos en bruto contiene 50 campos diferentes acerca de ese voto. Pero realmente sólo nos interesan cuatro campos.
Así que quizás nos enganchamos a una API de esta cabina de votación, extraemos los datos en bruto, y, por supuesto, esa es la fase E, “Extraer”, de ETL.
La siguiente es transformar, así que de estos 50 campos podríamos decir: “OK, sólo queremos, sólo nos interesan cuatro de ellos, el nombre del votante, su edad, su partido político, y, desde luego, por quién votó.”
A continuación podemos enviar esto en un formato con el cual vamos a arrojar esos datos a nuestra base de datos. Así que esta es la fase T, “Transformar”. Y finalmente “Cargar”, lo cual implica tomar estos datos y persistirlos en nuestra base de datos.
Así que, al hablar de ETL y qué tanto hacemos en la labor de llevar nuestras cosas a producción.
Cuando creamos modelos matemáticos queremos datos limpios, datos actuales,
y la manera de obtenerlos es construyendo procesos ETL que efectivamente nos los traigan.
Nuevamente, como organización estamos tratando con una gran cantidad de datos que vienen de afuera y tomamos esos datos, los transformamos y luego los almacenamos para usarlos como data scientists.
Así que hasta ahora hemos hablado de los procesos ETL como nuestro brazo hacia el mundo exterior
Como data scientists nos encontramos escribiendo un buen número de procesos ETL, esta no es la parte sexy del trabajo, esta es la parte del trabajo que a las personas, digamos, les emociona menos hacer.
Sin embargo, tener datos limpios para tus modelos de machine learning, quiero decir, es más que indispensable. Con malos datos, ya sabes, hay un dicho en machine learning que dice:
“Si entra basura, sale basura”.
Si le alimentamos datos basura a nuestros modelos de machine learning no vamos a ser muy eficaces en nuestro trabajo.
Así que, de nuevo, la comunidad detrás de cada marco es un factor muy importante al hacer una decisión realmente inteligente para nuestra organización.