31

¿Qué hace un científico de datos?

49945Puntos

hace 4 años

Si todavía te preguntas si enfocarte en estudiar data science o no, no tienes claro si ese campo es para ti o simplemente tienes curiosidad por aprender sobre el flujo de trabajo de un data scientist, déjame explicarte el trabajo de un data scientist, lleva varios pasos:

1. Obtención de datos

Persona haciendo gesto de ponerte a pensar

No puedes analizar y manipular datos sin antes obtenerlos.

Habrá ocasiones donde sea algo sencillo como descargar una base de datos o un archivo .csv.

Otras ocasiones tendrás que obtener los datos de páginas web utilizando técnicas de Web Scraping. Dependiendo del lenguaje de programación que utilices va a ser el nivel de complejidad para esta tarea, por lo general suelen existir dos opciones en Data Science:

  • Trabajar con R y usar rvest.
  • Usar Python y su librería Beautiful Soup.
    Ambos lenguajes ofrecen una inmensa cantidad de herramientas y al tratarse de lenguajes de alto nivel es fácil entender cada línea del código. Es más, en cuestión de minutos puedes crear un script para web scraping utilizando Python.

2. Enriquecimiento de los datos

Hoy en día es las redes sociales generan enormes cantidades de datos, muchas empresas entraron en la tendencia de enriquecer los datos que tienen con los datos que generan sus redes sociales, pero todo esto debe tener una razón. Un por qué:

  • ¿Quieres segmentar tus clientes?
  • ¿Quieres encontrar un público específico?
  • ¿Quieres mejorar la retención de tus clientes entendiendo su comportamiento y preferencias?

Ten siempre un objetivo en mente al momento de añadir datos. Datos sin razón ni sentido solamente van a ocupar espacio en tu base de datos, son datos basura.

3. Adecuación e interpretación de datos

Puede que en tu base de datos que descargaste los datos ya se encuentran limpios y estandarizados para usarlos en R o Python. Pero, en caso de que hayas obtenido los datos por un script de web scraping es momento de darles un formato adecuado para eliminar información innecesaria, limpiar tus datos y convertirlos al tipo de dato adecuado puede ser cadena de texto, dato numérico o boolean.

Es importante definir junto con la gente que sepa el modelo de negocio, qué significado va a tener cada dato, pues un mismo dato puede variar según a quién le preguntes, por ejemplo:

  • El que una publicación de un blog sea exitosa ¿De qué depende? ¿Número de likes? ¿Cantidad de personas que lo visitaron? ¿Cantidad de personas que hicieron clic en el Call To Action?
  • En un banco, ¿en qué momento te das de baja? ¿Al cerrar una cuenta, al cerrar un depósito o al cancelar todos tus servicios?

4. Aplicación del modelo

Es momento de aplicar un modelo estadístico a nuestros datos. No todos los modelos van a servir para todo tipo de datos, dependiendo de tu objetivo y datos que tengas es el modelo que vas a utilizar, algunos más usados son:

  • Logistic Regression
  • Random Forest
  • Ridge Regression
  • K-means

5. Interpretación de los resultados

Es el momento de analizar los resultados del modelo que aplicaste, verificar si los datos te proporcionaron respuestas al objetivo que buscabas.

Debes entender muy bien tus resultados y tener grandes habilidades para comunicarte pues recuerda que este análisis lo debes presentar a otro equipo de tu empresa.

6. Puesta en producción del modelo

Ya tienes un modelo que cumplio tus objetivos, es momento de ponerlo en algún sitio en internet para que ahora analice datos en tiempo real.


Un científico de datos es una unión entre tener grandes conocimientos de matemáticas, saber programar, comunicarse de manera excelente y nunca parar de aprender. Si te interesa conocer más a detalle cada proceso te invito a que tomes el Curso Profesional de Ciencia de Datos.

Demian
Demian
demian

49945Puntos

hace 4 años

Todas sus entradas
Escribe tu comentario
+ 2
Ordenar por:
1
21505Puntos

Excelente artículo @demian, claro y preciso. Una pregunta: ¿Un científico de datos debe ser experto en la industria donde está recolectando, analizando y estandarizando los datos?

3
24275Puntos
4 años

Sino quieres depender de nadie para saber que el modelo está obteniendo resultados lógicos, si. Necesitas ser especialista en el campo que estas aplicando el DataScience.

3
4 años

Es imposible o muy difícil que un científico de datos sea el experto en la industria o campo de donde se recolectan los datos en mi experiencia en Colombia de proyectos de ciencia de datos se debe contar con los siguientes integrantes:

  1. Recolector de datos
  2. Científico de datos
  3. Científico o experto en visualización
  4. El Analista del contexto

El analista del contexto es el que trae la experticia o conocimiento de la industria de donde se toman los datos también puede ser un profesional especializado en el sector.

1
8859Puntos

Muchas gracias! me ayudaste a aterrizar más la idea que tengo sobre los científicos de datos.

1
1208Puntos

Muy interesante creo que voy a empezar a estudiar sobre esto 😄

1
3969Puntos

Miedo a las mates. Aún me pasa en algunas cosas, es la verdad. Tendré que mejorar mucho. Mucho antes de alcanzar mi sueño. Gracias, @demian. Genial post.

0
13412Puntos

Muchas gracias Demian , Excelente articulo.