Flujo de trabajo en data science

2/25
Recursos

Aportes 31

Preguntas 7

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Resumen

El flujo de trabajo del data science esta compuesto de

.
Puede existir profesiones que se enfoquen mas a cada una de fases, no existe un perfil de data science que se encargue a todo el flujo de trabajo.
.

¿En que partes del flujo de trabajo se necesita de estadística?

.
Todos las partes del flujo requiere del conocimiento en ciertas ramas de la estadística. La estadística descriptiva se va a emplear más en los dos primeros bloques de trabajo.

.

  • Ingesta de datos y Validación : Se encarga de todo el procesamiento de ETL (Extract Transform Load) obtener los datos, limpiarlos y estructurarlos, crear pipelines de análisis automatizado, es decir que transformaciones vamos a realizar a los datos para que estén listos para el caso especifico de estudio que vamos a realizar.

  • Preparación y entrenamiento del modelo: En este bloque se va a realizar un análisis exploratorio de los datos con estadística descriptiva, entender correlaciones y realizar posibles reducciones de datos.

  • Evaluar el modelo, Producción e Interacción: esta parte del flujo se basa mas en la estadística inferencial.

Hay algunos errores en la forma en la que el profesor represento la imagen sobre los roles. Les comparto la IMAGEN ORIGINAL DEL LIBRO para que puedan ver mejor que hace cada rol y como se relacionan

Mi edición para ver de forma mas clara los diferentes roles en las diferentes etapas.

Por favor revisar las respuestas válidas del examen, pues según esta clase; la ingesta de datos y validación sí es una etapa del flujo de trabajo de un proyecto de Data Science donde interviene la estadística descriptiva.

Es te curso me está resultando un gran avance en relación con el curso de Análisis de Negocio para Ciencias de Datos.

Por otro lado el primer paso me hace acordar a la frase “Si a tu modelo le das basura va a salir basura.” Por ende si a nuestro modelo le damos “datos basura” las hipótesis que vamos a sacar van a ser “basura”.

Cuidado con los datos que le damos a nuestro modelo.

El flujo de trabajo en Data Science tiene 8 pasos:

  1. Data ingestion.
  2. Data visualization.
  3. Data preparation.
  4. Model training .
  5. Model evaluation.
  6. Model validation.
  7. Model serving.
  8. En user interface.

En algunos de estos se puede aplicar la estadística, por ejemplo, en los primeros cuatro la estadística descriptiva juega un rol importante.

Flujo de trabajo en Ciencia de Datos


.

Si bien no hay un rol que se encargue de cada uno de los pasos de forma específica, en realidad lo que vemos en el gráfico es que cada uno de los roles que están arriba es más afín a algunos de los pasos. No existe un rol que se encargue de todo el flujo, si no varios roles que se enfocan más en uno que en otro.
.

¿En qué casos puntales es necesaria la estadística?

.

.
La estadística descriptiva está presente en los 2 primeros bloques, mientras que la inferencial está en los últimos.

Nota importante: Todos los roles en un punto necesitan tener claridad en el uso de estadística en las fases que les toca desarrollar a cada uno de todo este flujo.

Resumen de la clase:
El flujo de trabajo en Data Science tiene 8 pasos:

  1. Data ingestion.
  2. Data visualization.
  3. Data preparation.
  4. Model training .
  5. Model evaluation.
  6. Model validation.
  7. Model serving.
  8. En user interface.

No existe un solo perfil de científico de datos que se encargada de todo el flujo.
Los roles son:

  1. Ingeniero de datos
  2. Analista de datos
  3. Científico de datos genérico
  4. Ingeniero de Machine Learning
  5. Científico investigador

Todos los roles necesitan saber estadística en las fases que les corresponde desarrollar en el flujo.
.
Se puede dividir el flujo de trabajo en 3 bloques:
• Ingesta de datos y Validación :
Se encarga de todo el procesamiento de ETL (Extract Transform Load). Ahi vamos a obtener los datos, limpiarlos y estructurarlos, crear pipelines para definir que transformaciones vamos a realizar a los datos para que estén listos para el caso específico de estudio que vamos a realizar.
• Preparación y entrenamiento del modelo:
En este bloque se toma los datos preparados y se construye el modelo. Aqui se va a realizar un análisis exploratorio de los datos con estadística descriptiva, entender correlaciones y realizar posibles reducciones de datos.
• Evaluar el modelo, Producción e Interacción:
esta parte del flujo se basa más en la estadística inferencial.

El flujo suele estar compuesto por el pipeline OSEMN, es decir:

  1. O => Obtaining data
  2. S => Scrubbing / Cleaning data
  3. E => Exploring / Visualizing data
  4. M => Modeling data
  5. N => iNterpreting data

WORKFLOW in Data Science

  1. Data ingestion
  2. Data visualization
  3. Data preparation
  4. Model training
  5. Model evaluation
  6. Model validation
  7. Model serving
  8. End user interface

En mi opinión “data preparation” debería ir antes de la visualización, ya que hacer visualizaciones de un dataset con inconsistencias no va a arrojarnos información fiable y de utilidad, y considero que él “data analyst” debería ir sobre “data visualization”, porque su rol es más acorde a ofrecer información de la data actual y generar insights para el modelo de negocio en el que esté realizando el análisis, por lo general usan más dashboards para presentar los informes a los stakeholders.

Flujo de trabajo en data science

Es importante reconocer que existen varias metodologías en cuanto a el flujo de trabajo en ciencia de datos. Por ejemplo IBM es muy dado a trabajar con CRISP, ahora en cada una de ellas el flujo resulta ser muy similar, quizás lo que para mi mas cambian es en cuanto dividen los pasos.

Esperemos poder seguir aprendiendo mucho acá con ustedes

Buena clase.

Flujo de Trabajo de Data Science

  • Esta rama está formada por distintos profesionales, cada uno hará una parte especifica de trabajo, sin embargo TODOS deben tener claridad de los conceptos estadísticos en el rol que les corresponde.

Flujo del preprocesamiento:

  • Transdormación de datos: con el fin de tener datos limpios
  • Preparación y entrenamiento del modelo:
    • Análisis exploratorio: entender correctamente los datos que nos presentan
    • Estadistica Descriptiva: nos permite caracterizar los datos y extraer información oportuna de ellos
    • Correlaciones: Podemos ver que datos están relacionados entre sí
    • Reduccion de datos: Para hacer más sencillo el modelo (y más rápido) es usual compactar los datos que guardan relación entre sí

Evaluación del modelo

  • Ahora determinamos qué tan acertado está nuestro modelo haciendo uso de herramientas probabilísticas y estableciendo inferencias

Modelo en producción

  • Ahora tenemos nuestro modelo interactuando con el ususario lo que nos permite hacer un test de hipótesis y realizar correcciones de ser necesario

Llegué aquí porque sé que voy a necesitar usar estadística en mi carrera para poder realizar mejores análisis de datos. Se nota que el profesor sabe bastante del tema.

Información resumida de esta clase
#EstudiantesDePlatzi

  • El flujo de trabajo en la ciencia de datos es el siguiente, primero recopilamos los datos y hacemos una visualización de ellos para luego transformarlos y prepararlos

  • Enseguida estos datos entran a entrenar el modelo, evaluamos este modelo y realizamos una validación del modelo

  • Finalmente, el modelo entra en producción, lo implementamos para finalmente pasar al usuario final

  • Dentro de este proceso o flujo de trabajo existen diferentes perfiles de data que se encargan de ciertas actividades

  • ETL pertenece al preprocesamiento

  • Dentro de la preparación y entrenamiento del modelo, podemos ver análisis exploratorio, estadística descriptiva, correlaciones y reducciones de datos

  • En la parte final del proceso encontramos probabilidad y estadística inferencial

  • El test de hipótesis se utiliza mucho para probar los modelos

pipeline de
procesamiento

En computación, se le llama pipeline a una serie de elementos de procesamiento de datos ordenados de tal modo que la salida de cada uno es la entrada del siguiente, como quien dice una cadena de montaje pero en vez de orientada a la manufactura, orientada

en que etapa del flujo de trabajo de proyecto de Data Sciencie se usa estadistica descriptiva ?
ingesta de datos
validacion
preparacion y entrenamiento de modelo

Flujo de trabajo de un Científico de Datos

Ingesta de datos
Visualización de datos
Preparación

Entrenamiento de Modelo
Evaluación del Modelo
Carga del modelo

Interfaz de usuario final

Efectivamente, es muy buen profesor, explicando la materia.

Este curso se ve que es muy interesante.

Flujo de trabajo Ciencia de Datos.

Esto es de mucha utilidad

Excelente clase.

Que interesante tema

Flujo de trabajo para data science

Diagrama de pasos y roles en el flujo de trabajo de Data Science