Flujo de trabajo en data science

2/25
Recursos

Aportes 31

Preguntas 7

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Resumen

El flujo de trabajo del data science esta compuesto de

.
Puede existir profesiones que se enfoquen mas a cada una de fases, no existe un perfil de data science que se encargue a todo el flujo de trabajo.
.

驴En que partes del flujo de trabajo se necesita de estad铆stica?

.
Todos las partes del flujo requiere del conocimiento en ciertas ramas de la estad铆stica. La estad铆stica descriptiva se va a emplear m谩s en los dos primeros bloques de trabajo.

.

  • Ingesta de datos y Validaci贸n : Se encarga de todo el procesamiento de ETL (Extract Transform Load) obtener los datos, limpiarlos y estructurarlos, crear聽pipelines聽de an谩lisis automatizado, es decir que transformaciones vamos a realizar a los datos para que est茅n listos para el caso especifico de estudio que vamos a realizar.

  • Preparaci贸n y entrenamiento del modelo: En este bloque se va a realizar un an谩lisis exploratorio de los datos con estad铆stica descriptiva, entender correlaciones y realizar posibles reducciones de datos.

  • Evaluar el modelo, Producci贸n e Interacci贸n: esta parte del flujo se basa mas en la estad铆stica inferencial.

Hay algunos errores en la forma en la que el profesor represento la imagen sobre los roles. Les comparto la IMAGEN ORIGINAL DEL LIBRO para que puedan ver mejor que hace cada rol y como se relacionan

Mi edici贸n para ver de forma mas clara los diferentes roles en las diferentes etapas.

Por favor revisar las respuestas v谩lidas del examen, pues seg煤n esta clase; la ingesta de datos y validaci贸n s铆 es una etapa del flujo de trabajo de un proyecto de Data Science donde interviene la estad铆stica descriptiva.

Es te curso me est谩 resultando un gran avance en relaci贸n con el curso de An谩lisis de Negocio para Ciencias de Datos.

Por otro lado el primer paso me hace acordar a la frase 鈥淪i a tu modelo le das basura va a salir basura.鈥 Por ende si a nuestro modelo le damos 鈥渄atos basura鈥 las hip贸tesis que vamos a sacar van a ser 鈥渂asura鈥.

Cuidado con los datos que le damos a nuestro modelo.

El flujo de trabajo en Data Science tiene 8 pasos:

  1. Data ingestion.
  2. Data visualization.
  3. Data preparation.
  4. Model training .
  5. Model evaluation.
  6. Model validation.
  7. Model serving.
  8. En user interface.

En algunos de estos se puede aplicar la estad铆stica, por ejemplo, en los primeros cuatro la estad铆stica descriptiva juega un rol importante.

Flujo de trabajo en Ciencia de Datos


.

Si bien no hay un rol que se encargue de cada uno de los pasos de forma espec铆fica, en realidad lo que vemos en el gr谩fico es que cada uno de los roles que est谩n arriba es m谩s af铆n a algunos de los pasos. No existe un rol que se encargue de todo el flujo, si no varios roles que se enfocan m谩s en uno que en otro.
.

驴En qu茅 casos puntales es necesaria la estad铆stica?

.

.
La estad铆stica descriptiva est谩 presente en los 2 primeros bloques, mientras que la inferencial est谩 en los 煤ltimos.

Nota importante: Todos los roles en un punto necesitan tener claridad en el uso de estad铆stica en las fases que les toca desarrollar a cada uno de todo este flujo.

Resumen de la clase:
El flujo de trabajo en Data Science tiene 8 pasos:

  1. Data ingestion.
  2. Data visualization.
  3. Data preparation.
  4. Model training .
  5. Model evaluation.
  6. Model validation.
  7. Model serving.
  8. En user interface.

No existe un solo perfil de cient铆fico de datos que se encargada de todo el flujo.
Los roles son:

  1. Ingeniero de datos
  2. Analista de datos
  3. Cient铆fico de datos gen茅rico
  4. Ingeniero de Machine Learning
  5. Cient铆fico investigador

Todos los roles necesitan saber estad铆stica en las fases que les corresponde desarrollar en el flujo.
.
Se puede dividir el flujo de trabajo en 3 bloques:
鈥 Ingesta de datos y Validaci贸n :
Se encarga de todo el procesamiento de ETL (Extract Transform Load). Ahi vamos a obtener los datos, limpiarlos y estructurarlos, crear pipelines para definir que transformaciones vamos a realizar a los datos para que est茅n listos para el caso espec铆fico de estudio que vamos a realizar.
鈥 Preparaci贸n y entrenamiento del modelo:
En este bloque se toma los datos preparados y se construye el modelo. Aqui se va a realizar un an谩lisis exploratorio de los datos con estad铆stica descriptiva, entender correlaciones y realizar posibles reducciones de datos.
鈥 Evaluar el modelo, Producci贸n e Interacci贸n:
esta parte del flujo se basa m谩s en la estad铆stica inferencial.

El flujo suele estar compuesto por el pipeline OSEMN, es decir:

  1. O => Obtaining data
  2. S => Scrubbing / Cleaning data
  3. E => Exploring / Visualizing data
  4. M => Modeling data
  5. N => iNterpreting data

WORKFLOW in Data Science

  1. Data ingestion
  2. Data visualization
  3. Data preparation
  4. Model training
  5. Model evaluation
  6. Model validation
  7. Model serving
  8. End user interface

En mi opini贸n 鈥渄ata preparation鈥 deber铆a ir antes de la visualizaci贸n, ya que hacer visualizaciones de un dataset con inconsistencias no va a arrojarnos informaci贸n fiable y de utilidad, y considero que 茅l 鈥渄ata analyst鈥 deber铆a ir sobre 鈥渄ata visualization鈥, porque su rol es m谩s acorde a ofrecer informaci贸n de la data actual y generar insights para el modelo de negocio en el que est茅 realizando el an谩lisis, por lo general usan m谩s dashboards para presentar los informes a los stakeholders.

Flujo de trabajo en data science

Es importante reconocer que existen varias metodolog铆as en cuanto a el flujo de trabajo en ciencia de datos. Por ejemplo IBM es muy dado a trabajar con CRISP, ahora en cada una de ellas el flujo resulta ser muy similar, quiz谩s lo que para mi mas cambian es en cuanto dividen los pasos.

Esperemos poder seguir aprendiendo mucho ac谩 con ustedes

Buena clase.

Flujo de Trabajo de Data Science

  • Esta rama est谩 formada por distintos profesionales, cada uno har谩 una parte especifica de trabajo, sin embargo TODOS deben tener claridad de los conceptos estad铆sticos en el rol que les corresponde.

Flujo del preprocesamiento:

  • Transdormaci贸n de datos: con el fin de tener datos limpios
  • Preparaci贸n y entrenamiento del modelo:
    • An谩lisis exploratorio: entender correctamente los datos que nos presentan
    • Estadistica Descriptiva: nos permite caracterizar los datos y extraer informaci贸n oportuna de ellos
    • Correlaciones: Podemos ver que datos est谩n relacionados entre s铆
    • Reduccion de datos: Para hacer m谩s sencillo el modelo (y m谩s r谩pido) es usual compactar los datos que guardan relaci贸n entre s铆

Evaluaci贸n del modelo

  • Ahora determinamos qu茅 tan acertado est谩 nuestro modelo haciendo uso de herramientas probabil铆sticas y estableciendo inferencias

Modelo en producci贸n

  • Ahora tenemos nuestro modelo interactuando con el ususario lo que nos permite hacer un test de hip贸tesis y realizar correcciones de ser necesario

Llegu茅 aqu铆 porque s茅 que voy a necesitar usar estad铆stica en mi carrera para poder realizar mejores an谩lisis de datos. Se nota que el profesor sabe bastante del tema.

Informaci贸n resumida de esta clase
#EstudiantesDePlatzi

  • El flujo de trabajo en la ciencia de datos es el siguiente, primero recopilamos los datos y hacemos una visualizaci贸n de ellos para luego transformarlos y prepararlos

  • Enseguida estos datos entran a entrenar el modelo, evaluamos este modelo y realizamos una validaci贸n del modelo

  • Finalmente, el modelo entra en producci贸n, lo implementamos para finalmente pasar al usuario final

  • Dentro de este proceso o flujo de trabajo existen diferentes perfiles de data que se encargan de ciertas actividades

  • ETL pertenece al preprocesamiento

  • Dentro de la preparaci贸n y entrenamiento del modelo, podemos ver an谩lisis exploratorio, estad铆stica descriptiva, correlaciones y reducciones de datos

  • En la parte final del proceso encontramos probabilidad y estad铆stica inferencial

  • El test de hip贸tesis se utiliza mucho para probar los modelos

pipeline de
procesamiento

En computaci贸n, se le llama pipeline a una serie de elementos de procesamiento de datos ordenados de tal modo que la salida de cada uno es la entrada del siguiente, como quien dice una cadena de montaje pero en vez de orientada a la manufactura, orientada

en que etapa del flujo de trabajo de proyecto de Data Sciencie se usa estadistica descriptiva ?
ingesta de datos
validacion
preparacion y entrenamiento de modelo

Flujo de trabajo de un Cient铆fico de Datos

Ingesta de datos
Visualizaci贸n de datos
Preparaci贸n

Entrenamiento de Modelo
Evaluaci贸n del Modelo
Carga del modelo

Interfaz de usuario final

Efectivamente, es muy buen profesor, explicando la materia.

Este curso se ve que es muy interesante.

Flujo de trabajo Ciencia de Datos.

Esto es de mucha utilidad

Excelente clase.

Que interesante tema

Flujo de trabajo para data science

Diagrama de pasos y roles en el flujo de trabajo de Data Science