Si todavía te preguntas si enfocarte en estudiar data science o no, no tienes claro si ese campo es para ti o simplemente tienes curiosidad por aprender sobre el flujo de trabajo de un data scientist, déjame explicarte el trabajo de un data scientist, lleva varios pasos:
No puedes analizar y manipular datos sin antes obtenerlos.
Habrá ocasiones donde sea algo sencillo como descargar una base de datos o un archivo .csv
.
Otras ocasiones tendrás que obtener los datos de páginas web utilizando técnicas de Web Scraping. Dependiendo del lenguaje de programación que utilices va a ser el nivel de complejidad para esta tarea, por lo general suelen existir dos opciones en Data Science:
Hoy en día es las redes sociales generan enormes cantidades de datos, muchas empresas entraron en la tendencia de enriquecer los datos que tienen con los datos que generan sus redes sociales, pero todo esto debe tener una razón. Un por qué:
Ten siempre un objetivo en mente al momento de añadir datos. Datos sin razón ni sentido solamente van a ocupar espacio en tu base de datos, son datos basura.
Puede que en tu base de datos que descargaste los datos ya se encuentran limpios y estandarizados para usarlos en R o Python. Pero, en caso de que hayas obtenido los datos por un script de web scraping es momento de darles un formato adecuado para eliminar información innecesaria, limpiar tus datos y convertirlos al tipo de dato adecuado puede ser cadena de texto, dato numérico o boolean.
Es importante definir junto con la gente que sepa el modelo de negocio, qué significado va a tener cada dato, pues un mismo dato puede variar según a quién le preguntes, por ejemplo:
Es momento de aplicar un modelo estadístico a nuestros datos. No todos los modelos van a servir para todo tipo de datos, dependiendo de tu objetivo y datos que tengas es el modelo que vas a utilizar, algunos más usados son:
Es el momento de analizar los resultados del modelo que aplicaste, verificar si los datos te proporcionaron respuestas al objetivo que buscabas.
Debes entender muy bien tus resultados y tener grandes habilidades para comunicarte pues recuerda que este análisis lo debes presentar a otro equipo de tu empresa.
Ya tienes un modelo que cumplio tus objetivos, es momento de ponerlo en algún sitio en internet para que ahora analice datos en tiempo real.
Un científico de datos es una unión entre tener grandes conocimientos de matemáticas, saber programar, comunicarse de manera excelente y nunca parar de aprender. Si te interesa conocer más a detalle cada proceso te invito a que tomes el Curso Profesional de Ciencia de Datos.
Excelente artículo @demian, claro y preciso. Una pregunta: ¿Un científico de datos debe ser experto en la industria donde está recolectando, analizando y estandarizando los datos?
Sino quieres depender de nadie para saber que el modelo está obteniendo resultados lógicos, si. Necesitas ser especialista en el campo que estas aplicando el DataScience.
Es imposible o muy difícil que un científico de datos sea el experto en la industria o campo de donde se recolectan los datos en mi experiencia en Colombia de proyectos de ciencia de datos se debe contar con los siguientes integrantes:
El analista del contexto es el que trae la experticia o conocimiento de la industria de donde se toman los datos también puede ser un profesional especializado en el sector.
Muchas gracias! me ayudaste a aterrizar más la idea que tengo sobre los científicos de datos.
Muy interesante creo que voy a empezar a estudiar sobre esto 😄
Miedo a las mates. Aún me pasa en algunas cosas, es la verdad. Tendré que mejorar mucho. Mucho antes de alcanzar mi sueño. Gracias, @demian. Genial post.
Muchas gracias Demian , Excelente articulo.