Platzi
Platzi

LA EDUCACIÓN ES UN REGALO PARA SIEMPRE. ¡ACCEDE A UN PRECIO ESPECIAL!

Antes: $249
$149
Currency
Antes: $249
Ahorras: $100
COMIENZA AHORA
Termina en: 22D : 16H : 50M : 10S

Flujo de trabajo en data science

2/25
Recursos

Aportes 19

Preguntas 1

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

Resumen

El flujo de trabajo del data science esta compuesto de

.
Puede existir profesiones que se enfoquen mas a cada una de fases, no existe un perfil de data science que se encargue a todo el flujo de trabajo.
.

¿En que partes del flujo de trabajo se necesita de estadística?

.
Todos las partes del flujo requiere del conocimiento en ciertas ramas de la estadística. La estadística descriptiva se va a emplear más en los dos primeros bloques de trabajo.

.

  • Ingesta de datos y Validación : Se encarga de todo el procesamiento de ETL (Extract Transform Load) obtener los datos, limpiarlos y estructurarlos, crear pipelines de análisis automatizado, es decir que transformaciones vamos a realizar a los datos para que estén listos para el caso especifico de estudio que vamos a realizar.

  • Preparación y entrenamiento del modelo: En este bloque se va a realizar un análisis exploratorio de los datos con estadística descriptiva, entender correlaciones y realizar posibles reducciones de datos.

  • Evaluar el modelo, Producción e Interacción: esta parte del flujo se basa mas en la estadística inferencial.

Mi edición para ver de forma mas clara los diferentes roles en las diferentes etapas.

Hay algunos errores en la forma en la que el profesor represento la imagen sobre los roles. Les comparto la IMAGEN ORIGINAL DEL LIBRO para que puedan ver mejor que hace cada rol y como se relacionan

Por favor revisar las respuestas válidas del examen, pues según esta clase; la ingesta de datos y validación sí es una etapa del flujo de trabajo de un proyecto de Data Science donde interviene la estadística descriptiva.

El flujo de trabajo en Data Science tiene 8 pasos:

  1. Data ingestion.
  2. Data visualization.
  3. Data preparation.
  4. Model training .
  5. Model evaluation.
  6. Model validation.
  7. Model serving.
  8. En user interface.

En algunos de estos se puede aplicar la estadística, por ejemplo, en los primeros cuatro la estadística descriptiva juega un rol importante.

Es te curso me está resultando un gran avance en relación con el curso de Análisis de Negocio para Ciencias de Datos.

Por otro lado el primer paso me hace acordar a la frase “Si a tu modelo le das basura va a salir basura.” Por ende si a nuestro modelo le damos “datos basura” las hipótesis que vamos a sacar van a ser “basura”.

Cuidado con los datos que le damos a nuestro modelo.

Flujo de trabajo en Ciencia de Datos


.

Si bien no hay un rol que se encargue de cada uno de los pasos de forma específica, en realidad lo que vemos en el gráfico es que cada uno de los roles que están arriba es más afín a algunos de los pasos. No existe un rol que se encargue de todo el flujo, si no varios roles que se enfocan más en uno que en otro.
.

¿En qué casos puntales es necesaria la estadística?

.

.
La estadística descriptiva está presente en los 2 primeros bloques, mientras que la inferencial está en los últimos.

Nota importante: Todos los roles en un punto necesitan tener claridad en el uso de estadística en las fases que les toca desarrollar a cada uno de todo este flujo.

WORKFLOW in Data Science

  1. Data ingestion
  2. Data visualization
  3. Data preparation
  4. Model training
  5. Model evaluation
  6. Model validation
  7. Model serving
  8. End user interface

Resumen de la clase:
El flujo de trabajo en Data Science tiene 8 pasos:

  1. Data ingestion.
  2. Data visualization.
  3. Data preparation.
  4. Model training .
  5. Model evaluation.
  6. Model validation.
  7. Model serving.
  8. En user interface.

No existe un solo perfil de científico de datos que se encargada de todo el flujo.
Los roles son:

  1. Ingeniero de datos
  2. Analista de datos
  3. Científico de datos genérico
  4. Ingeniero de Machine Learning
  5. Científico investigador

Todos los roles necesitan saber estadística en las fases que les corresponde desarrollar en el flujo.
.
Se puede dividir el flujo de trabajo en 3 bloques:
• Ingesta de datos y Validación :
Se encarga de todo el procesamiento de ETL (Extract Transform Load). Ahi vamos a obtener los datos, limpiarlos y estructurarlos, crear pipelines para definir que transformaciones vamos a realizar a los datos para que estén listos para el caso específico de estudio que vamos a realizar.
• Preparación y entrenamiento del modelo:
En este bloque se toma los datos preparados y se construye el modelo. Aqui se va a realizar un análisis exploratorio de los datos con estadística descriptiva, entender correlaciones y realizar posibles reducciones de datos.
• Evaluar el modelo, Producción e Interacción:
esta parte del flujo se basa más en la estadística inferencial.

El flujo suele estar compuesto por el pipeline OSEMN, es decir:

  1. O => Obtaining data
  2. S => Scrubbing / Cleaning data
  3. E => Exploring / Visualizing data
  4. M => Modeling data
  5. N => iNterpreting data

Este curso se ve que es muy interesante.

Flujo de trabajo Ciencia de Datos.

Esto es de mucha utilidad

Excelente clase.

Es importante reconocer que existen varias metodologías en cuanto a el flujo de trabajo en ciencia de datos. Por ejemplo IBM es muy dado a trabajar con CRISP, ahora en cada una de ellas el flujo resulta ser muy similar, quizás lo que para mi mas cambian es en cuanto dividen los pasos.

Que interesante tema

Flujo de trabajo para data science

Diagrama de pasos y roles en el flujo de trabajo de Data Science