¿Cómo empezar con Data Science?

Clase 38 de 46 • Taller de Creación de Startups

Resumen

La ciencia de datos combina múltiples metodologías y perfiles profesionales para transformar datos en decisiones inteligentes. Comprender las etapas fundamentales de un proyecto de ciencia de datos es esencial para aprovechar al máximo la información y respaldar decisiones empresariales efectivas.

¿Cuáles son los tipos de analítica en ciencia de datos?

La analítica en un proyecto de ciencia de datos incluye principalmente tres tipos:

Analítica descriptiva: se centra en el entendimiento profundo de los datos mediante análisis exploratorio, estadística y herramientas de visualización. Aquí participa activamente el analista de datos.
Analítica predictiva: ayuda a anticipar eventos futuros utilizando modelos complejos formados por algoritmos como Machine Learning.
Analítica prescriptiva: no solo predice, sino que también recomienda acciones específicas optimizadas, fundamental para la toma de decisiones estratégicas.

¿Qué profesionales participan en cada etapa?

Cada tipo de analítica y proceso del proyecto necesita distintas especializaciones:

Analista de datos: esencial para la etapa inicial, aplica estadísticas básicas, visualización y vincula los datos a las estrategias comerciales.
Científico de datos: además de ser analista, domina algoritmos avanzados como Machine Learning y Deep Learning, crucial para analíticas predictivas y prescriptivas.
Ingeniero de datos (Data Engineer): responsable por la calidad, procesamiento y desarrollo de bases de datos sólidas mediante procesos ETL (Extract, Transform, Load).

¿Cómo garantizar la calidad y utilidad de los datos?

Mantener alta calidad en los datos implica considerar las 5 Vs del Big Data:

Volumen: cantidad masiva de datos para obtener una mejor precisión del modelo.
Variedad: diversidad de fuentes y tipos de datos como numéricos, textos e imágenes.
Valor: asegurar que los datos sean relevantes para abordar preguntas específicas del negocio.
Velocidad: rapidez en la actualización de datos y generación de reportes.
Veracidad: confiar totalmente en la exactitud y calidad de los datos recolectados.

Es fundamental almacenar y procesar estos datos usando servicios adecuados, desde plataformas cloud como Amazon Web Services y Google BigQuery, hasta soluciones open source como Hadoop o Cassandra.

¿Cómo funcionan Machine Learning y sus principales algoritmos?

Machine Learning se apoya en algoritmos que aprenden patrones de manera automatizada a partir de datos históricos. Existen principalmente tres tipos de algoritmos:

Supervisados: requieren datos etiquetados para aprender (por ejemplo, identificación de imágenes).
No supervisados: organizan información mediante agrupamiento basado en características comunes (clústeres).
Aprendizaje por refuerzo: aprenden mediante recompensa o castigo, adaptándose a errores y corrigiendo acciones.

Entre las técnicas avanzadas está el Deep Learning, que emplea redes neuronales artificiales similares a las neuronales biológicas, adecuadas para problemas complejos como el reconocimiento facial o diagnóstico médico.

En todas estas etapas y métodos, herramientas como Python, R, Julia y MATLAB son clave para implementar algoritmos eficientes y escalables.

Ricardo Barona Duque

student•

Seria muy interesante realizar un modelo predictivo entrenado para identificar contratos estatales que puedan tener comportamientos comunes de corrupción.

Israel Díaz Garcia

student•

Tengo un amigo del postgrado que estoy haciendo que esta trabajando en esto.

Diana Cruz

student•

Hola. Sería muy útil ver los resultados.

Frank Bruno Lino Riva

student•

Empezar con data science

Roles:

Analítica descriptiva: se basa en entendimiento de datos, estadística, visualización. Profesional: analista de datos. Toma estrategias de negocio
Analítica predictiva y prescriptiva: Profesional: científico de datos. Integra machine learning y deep learning
Garantía de los datos, arquitectura limpieza y estructura de bases de datos. Profesional: Ingeniero de datos.

Etapas:

Identificación y entendimiento de datos: De donde vienen, Tamaño de bases de datos, Donde almacenar, preguntas negocio, resultados, interesados, expectativas
Procesamiento de datos: Ingeniero de datos crea ETL: extraer, transforma, darle valor, limpiar, luego de pulirlos, cargarlos. Obtener lo relevante Garantizar la calidad: Volumen grande, Variedad no sólo numéricos, Valor buenos para responder preguntas, Velocidad que tan rápido se actualizan, Veracidad confianza 100% en ellos. Donde guardarlos: servicios de la nube.
Modelamiento de datos: no es bueno comenzar con maschine learning, conoce tus datos, aprovecha tu mercado, garantiza la calidad con analítica simple al comienzo,
Test y validación: pon a prueba tus algoritmos.
Comunicar: cuenta una historia para el entendimiento de tus análisis.
Herramientas: Power Bi, bokeh, Google data studio(pago)

Ronald Barzola

student•

Google Data Studio es gratuito!

Marco Flores

student•

Me encantó, me meteré a la escuela de Data Science #SmileduDemoDay2020

Juan Castro

teacher•

Te recomiendo empezar con el Curso de Análisis de Negocios para Ciencia de Datos: https://platzi.com/clases/negocios-data-science/.

Diego Corvera

student•

le recomiendo a todos los interesados,ver el canal de youtube DOT CSV desde el primer vídeo habla de Inteligencia artificial con una pasión increíble.

Belén Ávalos

student•

Sería chevere que la presentación contenga escritas las fases de las que habla el profe, para poder llevar mejor las anotaciones y en orden!

Frank Bruno Lino Riva

student•

Empezar a usar machine learning:

Tras una iteración se puede repetir el ciclo, limpiar, obtener nuevos datos y crear primeros análisis predictivos. Ej: cuando se va un cliente. Machine learning identifica patrones de grandes bases de datos.

Algoritmos supervizados: conocer la salida y enseñar el camino a trazar.
Algoritmos no supervisados: útiles para encontrar patrones. Diferenciación de datos
Algoritmos de refuerzo: Se basa en errores, definir la función de recompensa, premia las buenas desiciones, castiga las malas.
Deep learning: basado en redes neuronales, organizados en capas. Capa de entrada, capas de procesamiento, capa de resultado. Neuronas son funciones no lineales que se comunican entre sí.
Implementacion: lenguaje mas popular: Python.

Gina Paola Forero

student•

Hola, en archivos y enlaces no vi el link del video de youtube sobre veracidad que mencionaste en la clase. ¿Alguien lo tiene?

Belén Ávalos

student•

Todo iba bien hasta que llegué a Data Science, me confundí bastante, me pueden recomendar algún curso muy básico para entender las bases de análisis de datos desde lo más fácil? agradezco su ayuda!

Sergio Francisco Arteaga Rodríguez

student•

¡Hola, Femmequiparla! Platzi tiene la Escuela de Data Science ahí puedes ahondar mas del tema. No sé con que curso debas empezar para entenderlo, pero ahí te llevan de lo básico hasta lo avanzado. Espero haberte ayudado. :D

Eduardo Gutiérrez Rojo

student•

La escuela de Data Science de Platzi 😊👍🏼

Carlos Javier Bazan Huaman

student•

muy buena explicación sobre este mundo de Data Science, ya me emociono este mundo , aunque se que hay que darle un poco a números debe ser muy interesante trabajar en cada rol.

Felipe Bernardo González Barranco

student•

Las predicciones que porcentaje de acierto tienen? me pregunto si podrían determinar con precisión las fisuras que se crean tras el impacto de un cuerpo con un vidrio, o cual será la primera burbuja en emerger cuando el agua esta en ebullición

Pedro Sánchez-Gil Galindo

student•

Me sonó raro que David mencionara algo de que las neuronas individuales son no lineares, pero al investigar en Internet vienen respuestas que dicen que son lineares y otras que no lo son. Alguien podría aclarar la confusión por favor? Gracias

Hugo Montoya Diaz

student•

Te felicito David Torres explicaste de una manera muy pragmatica, eres todo un crack te felicito

Adolfo Chumbiauca Velásquez

student•

Big data:

Volumen.
Variedad.
Valor.
Velocidad.
Veracidad.

Luis Fernando Guerrero Mendoza

student•

En econometría se ven bastante esto pero en mi universidad aún siguen enseñando Eviews para procesar datos. No les tenia tanto cariño en la u sobre esos cursos,me parecían aburridos. Al terminar esta clase me han dado ganas inmensurables de aprender toda la carrera de data sciene.