Lleva tu carrera a otro nivel por menos de 1 dólar al día.

Escuela de Data Science

Escuela de Data Science

Domina las herramientas y técnicas para el procesamiento de Big Data y Ciencia de Datos.

Acelera tu carrera profesional

Ingeniería de Datos: obteniendo, procesando y almacenando datos

La Ciencia de Datos nos permite extraer, clasificar y procesar grandes cantidades de información.

¿Por qué estudiar Data Science?

Data Science es la combinación de técnicas matemáticas y computacionales para recolectar, transformar, almacenar, agregar, clasificar y optimizar datos. Es uno de los campos del conocimiento en mayor desarrollo y con mayor demanda laboral dentro del mundo de la tecnología. Hoy en día todas las empresas serias tienen un equipo de Data Scientists.

Adicionalmente, las técnicas y herramientas que dominan los expertos en Ciencias de Datos aplican a una variedad de problemas que van más allá de la empresa tradicional: problemas en el mundo de la Biología, Medicina, Economía, Finanzas, Derecho, Sociología, Física, por tan sólo nombrar algunas, pueden resolverse con los modelos y aplicaciones que construyen los expertos en Datos.

Es por esto que en Platzi hemos creado la Escuela de Data Science para que puedas ser parte de esta revolución y unirte a los profesionales que están transformado al mundo con los datos.

¿Cuáles son los pasos dentro del flujo de análisis de datos?

Los Data Scientist realizan una variedad de actividades que les permiten llegar a conclusiones con base en los datos que analizan. Estos pasos son importantes porque también nos permiten entender los roles que nacen de esta disciplina.

Recolección

El primer paso para cualquier flujo de análisis de datos es la recolección. Los datos pueden venir de una multitud de fuentes: sistemas de logging, sensores, datos generados por usuarios, datos externos (de fuentes públicas o privadas) y muchos otros. Lo imporante en esta etapa es sistematizar y automatizar la recolección de los mismos para crear un flujo constante que permita identificar tendencias y patrones en los siguientes pasos. Aquí son muy importantes las habilidades que nacen del desarrollo de software.

Almacenamiento

En ocasiones los datos se pueden analizar mientras van llegando. En muchas otras, el análisis viene con posterioridad. Por eso es importante poder almacenar los datos de manera segura y accesible. Aquí también se toman importantes decisiones arquitectónicas sobre la estructura de los datos que pueden afectar el éxito o fracaso de las siguientes etapas. Términos como ETL, Data Lakes, Data Warehouses y otros son comúnes a esta etapa. Aquí es fundamental un conocimiento de infraestructura y sistemas de almacenamiento.

Exploración / Transformación

Los datos nunca llegan limpios. Por eso es importante detectar si existen anomalías, limpiarlas y preparar el dataset para que el análisis no se sesgue o arroje resultados erroneos. Aquí comenzamos a explorar cómo se distribuyen los datos, encontramos los valores estadísticos descriptivos del dataset como media, varianza y desviación estándar, y transformamos el dataset para que los modelos predictivos de clasificación puedan operar sobre el mismo. En esta etapa necesitarás conocimientos de lenguajes de consulta (SQL y NoSQL) y de Estadística.

Agregado / Etiquetado

Ya que tenemos un dataset limpio y tenemos idea de su comportamiento general del mismo, podemos realizar análisis más avanzado. Podemos segmentar los datos, definir y obtener métricas, generar agregaciones, extraer features y preparar los datos para el aprendizaje automatizado. También es momento de generar visualizaciones para facilitar la detección de patrones, correlaciones y relaciones de causalidad que estaban escondidas en los datos crudos. Aquí es muy importante tu conocimiento matemático, del negocio y sus objetivos para realizar las preguntas correctas y llegar a conclusiones correctas.

Aprendizaje automatizado / Optimización

Ya que tenemos las conclusiones iniciales, podemos forzar el dataset con técnicas avanzadas de Inteligencia Artificial, Machine Learning y Deep Learning para obtener resultados que no habíamos logrado identificar en etapas anteriores. También es momento de pensar en experimentos y pruebas A/B para poder validar que nuestras hipótesis sean correctas. Estos experimentos arrojarán nuevos datos que nos obligarán a regresar al paso uno del flujo de análisis.

¿Cuáles son los roles que puedo desempeñar como Data Scientist?

Como Data Scientist puedes escoger varias áreas de enfoque. Algunos roles requieren un mayor conocimiento de Desarrollo de Software y algunos de Matemáticas. Escoge el que más te apasione.

Data Engineer

Los Data Engineers se encargan de crear y mantener la infraestructura de software que permite el procesamiento de grandes conjuntos de datos. Su mundo gira alrededor de tecnologías como Hadoop, Spark, Kafka, Sistemas de Monitoreo, utilización de nubes públicas como GCP o AWS y mucho más. Son grandes expertos en Desarrollo de Software y Arquitectura de Sistemas en la nube. Operan en las etapas de Recolección y Almacenamiento.

Data Scientist

Los Data Scientists están a cargo de la limpieza, detección de anomalías y creación de datasets a partir de datos crudos. Sus habilidades les permiten explorar los datos a través de los lentes de la Estadística y la Probabilidad. Cuando platicas con un Data Scientist es común escuchar términos como distribuciones normales, binominiales, medias, modas, medianas, varianzas, covarianza, correlaciones, desviaciones estándar entre muchos otros. La mezcla de conocimientos de cómo extraer y unir datos a través de lenguajes de consulta, cómo realizar análisis estadístico y un profundo conocimiento de la compañía y la industria en la que operan, les permite generar conclusiones y recomendaciones que guían el actuar de empresas multinacionales, gobiernos y startups. Este rol opera en las etapas de exploración / transformación y agregado / etiquetado.

Machine Learning Engineer

Los Machine Learning Engineers operan en el último tramo del flujo de análisis. Los modelos que construyen proveen a la organización de información que la estadística sola no puede generar. Además de conocimientos de Estadística y Probabilidad, este rol requiere conocimiento de Cálculo y Álgebra Lineal. Support Vector Machines, Decisions Trees, Neural Networks, Tensorflow, Keras, PyTorch, scikit-learn, XGBoost y muchos otros términos son comunes cuando platicas con un ML Engineer. Esta última capa trata de obtener información que pueda darle una ventaja definitiva a la organización y que le ayude a entender de manera precisa el comportamiento de sus clientes. Aquí también se crean modelos predictivos poderosos que permiten generar recomendaciones para aumentar los beneficios que se le pueden ofrecer a todos los usuarios de los servicios de la empresa. Los ML Engineers trabajan en la capa de Aprendizaje Automatizado y Optimización.

Glosario

Glosario

Ciencia de Datos: Área de conocimiento que busca agregar valor a los datos por medio de la confluencia de análisis estadísticos, métodos computacionales y visualización de información.

Big Data: Conjunto de información cuya longitud (número de registros), variedad (número de características por cada registro) y frecuencia (ritmo con el cual se actualiza la información) impiden que los métodos de procesamiento de datos convencionales sean suficientes para su manejo.

Bases de datos: Las bases de datos son contenedores o repositorios digitales en los que se almacenan de manera estructurada y organizada datos que comparten un mismo contexto para su posterior procesamiento y consulta.

Keyword: Se refiere a la palabra clave que atrae al mayor número de seguidores a través de buscadores. Cuando tienes claro cuáles son las keywords que definen tu contenido puedes posicionarlo de manera orgánica o paga lo cual influye en el número de búsquedas y las conversiones.

Machine Learning: Rama de la inteligencia artificial que se encarga del estudio de métodos automatizados por medio de algoritmos y estadística, para generar modelos matemáticos que permitan resolver tareas de forma tal que sea el software quien descifre por sí mismo como resolver dicho problema.

Aprende de los mejores

Enrique Devars

Enrique Devars

Course Director en Platzi

@codevars
Juan Pablo Morales

Juan Pablo Morales

Gerente de ingeniería en Arara

@JuanpaMF
Israel Vázquez Morales

Israel Vázquez Morales

Senior Software Engineer en YouNoodle

@israbaurel
Carlos Alarcón

Carlos Alarcón

Data Scientist en Platzi

@alarcon7a
Julián Cruz

Julián Cruz

Docente en Universidad Externado de Colombia

@Cruz_Julian_
Katherine Briceño

Katherine Briceño

Consultora en Analítica en Banco GNB

Mauro Chojrin

Mauro Chojrin

Consultor PHP en Independiente

@mchojrin
Alberto Alcocer

Alberto Alcocer

en Independiente

@beco
Martín Sokolowicz

Martín Sokolowicz

Ayudante Experto en Digital House

Óscar Gutiérrez Castillo

Óscar Gutiérrez Castillo

Analista Desarrollador en StratBranding

@Ator97
Adrián Catalán

Adrián Catalán

Android Developer Expert en Google

@ykro
Sílvia Ariza Sentís

Sílvia Ariza Sentís

Data Scientist en DiDi

@silari_
Giuseppe Roa Osorio

Giuseppe Roa Osorio

Senior Analytical Consultant en Claro

David Torres

David Torres

Data Scientist en Platzi

@davinci137
Facundo García Martoni

Facundo García Martoni

Technical Mentor en Platzi

@facmartoni
Ricardo Celis

Ricardo Celis

Course Director en Platzi

@celismx
María Cruz

María Cruz

Data Scientist en Athena

@CgMcruzg
Marian Villa

Marian Villa

Co-fundadora y directora en Pionerasdev

@Marianvilla
Alejandro Santamaria

Alejandro Santamaria

CTO en Shoelovers.co

@alexs_mx
Sonia Ardila

Sonia Ardila

Senior Data Specialist en Claro Colombia

@soniaardila1
David Aroesti

David Aroesti

Dean of Computer Science Faculty en Platzi

@jdaroesti
Freddy Vega

Freddy Vega

CEO en Platzi

@freddier
Sebastián Sosa

Sebastián Sosa

Co-founder en Caburé

@helblings
Francisco Camacho

Francisco Camacho

Data Scientist en Platzi

@el_pachocamacho
Ulises Rayon

Ulises Rayon

Outbound Analyst en Platzi

Rutas relacionadas para complementar tu aprendizaje

Inteligencia Artificial y Machine Learning

Inteligencia Artificial y Machine Learning

Aprende la tecnología detrás de los automóviles autónomos, asistentes personales, predicción de enfermedades y más.
Bases de Datos desde Cero

Bases de Datos desde Cero

Es muy importante saber qué, cómo y dónde se guardarán tus datos. Aprende desde cero la teoría y práctica para administrar DBs profesionalmente.
Matemáticas para Programación

Matemáticas para Programación

Aprende a resolver problemas, desarrollar el pensamiento deductivo, elaborar algoritmos y construir modelos para toma de decisiones que resuelven problemas.