Python, R y las herramientas del data scientist

Guía para Empezar una Carrera en Data Science e Inteligencia Artificial

Contenido del curso

Importancia y usos de data science y machine learning

Data Analyst

Data Scientist

Data Engineer

Ser profesional en el mundo de los datos y machine learning

Tomar examen

Python, R y las herramientas del data scientist

Resumen

Si quieres convertirte en data scientist, necesitas dominar un stack específico de herramientas, lenguajes y conocimientos matemáticos. Aquí encontrarás el mapa completo de tecnologías que usan los profesionales de ciencia de datos y por dónde empezar tu camino, incluso si parten desde cero.

¿Qué lenguajes de programación usa un data scientist?

En ciencia de datos e inteligencia artificial los dos lenguajes dominantes son Python y R. Python lidera la mayoría de vacantes porque cubre gran parte del flujo de trabajo en data science y se apoya en el paradigma de programación orientada a objetos.

Para escribir y experimentar con tu código vas a vivir dentro de las Jupyter Notebooks, ya sea en la nube o instaladas localmente. Ahí ejecutas tu programa y ves los resultados con tablas y gráficas dinámicas en tiempo real.

¿Por qué Python y no R para empezar? Porque Python aparece en más vacantes, tiene una comunidad enorme y cubre desde la manipulación de datos hasta el despliegue de modelos de machine learning.

¿Qué librerías de Python son imprescindibles?

Para manipular, analizar y visualizar datos hay tres librerías base que vas a usar todos los días:

Pandas: para limpiar y transformar tablas de datos.
NumPy: para cálculos numéricos y operaciones con arreglos.
Matplotlib: para crear visualizaciones y gráficas.

Cuando pases a modelos de machine learning, las librerías estándar son TensorFlow y Scikit-Learn, que te permiten implementar algoritmos sin reescribirlos desde cero.

¿Qué tipos de modelos de machine learning debes conocer?

Un data scientist trabaja con una amplia variedad de algoritmos según el problema que necesite resolver. Conocer las familias te ayuda a elegir la herramienta correcta.

Supervisados: aprenden de datos etiquetados.
No supervisados: encuentran patrones sin etiquetas.
Semisupervisados: combinan ambos enfoques.
Aprendizaje por refuerzo: aprenden por prueba y error con recompensas.

No basta con conocer la teoría: tienes que llevarlos a la práctica con código real, y ahí es donde TensorFlow y Scikit-Learn se vuelven tus aliados.

¿Cómo se extraen los datos para analizar?

Antes de modelar necesitas datos, y los datos viven en bases de datos. Por eso debes saber escribir consultas tanto en SQL como en motores NoSQL.

PostgreSQL: base de datos relacional SQL muy usada en empresas.
Cassandra DB: base NoSQL orientada a grandes volúmenes distribuidos.
MongoDB: base NoSQL orientada a documentos.

¿Necesito instalar todas estas herramientas ahora mismo? No. Por ahora basta con explorar cómo son, qué contienen y cómo se utilizan. La instalación viene cuando empieces tus proyectos.

¿Qué matemáticas necesita un data scientist?

Tranquilidad: hay matemáticas, pero las vas a ver aplicadas en proyectos tangibles, no como teoría aislada. Cuatro áreas sostienen toda la disciplina.

Álgebra: para entender ecuaciones, funciones y representaciones de planos.
Probabilidad y estadística: la más crucial al inicio, porque te permite analizar datos, descubrir información de valor y detectar patrones ocultos.
Álgebra lineal: clave para entender cómo funcionan los algoritmos de machine learning e inteligencia artificial.
Cálculo: para formular funciones que hagan que los algoritmos cumplan su objetivo y sean eficientes.

Si tuvieras que escoger por dónde arrancar, empieza por probabilidad y estadística aplicada a data science. Es la base que sostiene todo el análisis exploratorio.

¿Por dónde empiezo a aprender data science desde cero?

Con tantas herramientas, habilidades y matemáticas es normal sentir que el camino es enorme. La clave está en seguir un orden lógico y no querer aprender todo al mismo tiempo.

¿Cuál es el orden recomendado para aprender?

Este es el flujo que te permite construir conocimiento útil desde la primera semana:

Entender cómo las organizaciones usan los datos y aprender de business intelligence.
Programar con Python como primer lenguaje.
Dominar las librerías de manipulación, análisis y visualización: Pandas, NumPy y Matplotlib.
Trabajar dentro de Jupyter Notebooks para tus análisis exploratorios.
Estudiar estadística y probabilidad aplicada a data science.

Con esa combinación ya puedes crear tus primeros análisis exploratorios de datos. A medida que avances, sumas machine learning, álgebra lineal y cálculo para abordar proyectos más complejos.

¿Qué es un análisis exploratorio de datos? Es el proceso de revisar un conjunto de datos para entender su estructura, detectar patrones, valores atípicos y relaciones antes de modelar.

¿Qué reto puedes hacer hoy mismo?

Ve a sitios de vacantes y busca ofertas con el título exacto data scientist. Observa qué habilidades y tecnologías se repiten en las descripciones. Cuéntanos en los comentarios qué encontraste y qué parte de la ruta de aprendizaje te emociona más, así la comunidad sabe qué priorizar para conseguir ese primer empleo.

Gabriela Gonzalez

Estudiante

Data Science Jr Dupplo Monterrey, Nuevo León, México Híbrido hace 2 días 80 solicitudes Funciones:

Analizar datos históricos para identificar tendencias y ofrecer soporte a la toma de decisiones.
Generar modelos (regresión o pronósticos) para datos tabulares
Aplicar y desplegar modelos pre entrenados
Tunear modelos con datos del negocio
Generar scripts automáticos para definir anomalías, explicar por qué suceden e identificar soluciones.
Manejo de datos no tabulares (NoSQL,JSON,API’s,texto,imágenes etc..)
Establecer métricas y KPIs para medir el desempeño.
Preparar/crear y dar mantenimiento a Reportes y Dashboard Operativos y Ejecutivos

Tecnologías/Habilidades requeridas:

Python medio-avanzado (> 2 años)
Conocer y saber aplicar uso de librerías Python para Data Science/ ML pandas,numpy, scipy, pytorch,tensorflow, seaborn, dash
Estadística intermedia, (Saber aplicar algunos conceptos estadísticos de forma programática)
Clasificación, Regresión, Clustering, Aprendizaje no supervisado, Pruebas Estadísticas,
SQL (Sql server y MYSQL DML y DDL, vistas, queries, procedures, agregaciones por ventana, rankeos, etc.) (>2 años)
Manejo de Sistemas operativos Linux ( Manejo de terminal y comandos básicos intermedios)
Docker containers

Científico de datos Círculo de Crédito Área metropolitana de Ciudad de México Híbrido hace 7 horas 22 solicitudes Responsibilities

• Analyze raw data: assessing quality, cleansing, outliers identification, structuring for downstream processing.

• Design accurate and scalable prediction algorithms (Machine Learning, AI) to face default rates. As well as their periodic monitoring.

• Processing of big data volume on a Cloud Service.

• Collaborate with engineering team to bring analytical prototypes to production.

• Generate actionable insights for business improvements and present the ideas for our customers.

Qualifications

• Bachelor's degree or equivalent experience in quantative field (Statistics, Mathematics, Computer Science, Engineering, etc.)

• At least 2-3 years of experience in quantitative analytics and/or data modeling.

• Deep understanding of predictive modeling, machine-learning, clustering and classification techniques, and cleaning algorithms.

• Fluency in a programming language (Python, R Studio, SQL).

• Familiarity with Big Data frameworks and visualization tools (Hadoop, Spark, Tableau).

• Nice to have : Collaborative environment (Git).

• Story telling, Strong team-player and self-leadership skills.

Mariana Ramirez

Nestor Jesus Rodriguez Rodriguez

Rene Rosas

Alejandro Carrillo

Carlos Vazquez

Eduardo Sebastian Moya Vaca

Luis Eduardo Vera

Bruno Nicolás Barajas Correa

Maximiliano Salinas De León

Carlos Manuel Gramajo López

Sebastian Peña

Juan Antonio Aramburo Pasapera

Alberto Chaparro

David Ramirez

Hugo Montoya Diaz

Miguel Angel Dominguez

Luis Mendez

Rafael Benítez Sandoval

Juan Pablo Cuenca Ludeña

Lady Rowena Zuñiga Aya

Franz Torres

José Alejandro Suárez

Miguel Torres

Manuel Alejandro Arias Rodriguez

Jeisson Espinosa

Julian Molano

Mi Chu

Julian David Castaño Echavarria

Carlos Alberto Sanchez Medina

Axel Yaguana

Team Platzi

Yuly Andrea Morales Baron

John Henry Bulla Marulanda

Jhonatan Stiven Martinez Martin

Stalin Collay

Python, R y las herramientas del data scientist

Importancia y usos de data science y machine learning

Oportunidades laborales en Data Science hoy

Qué es Data Science y cómo funciona

Qué es inteligencia artificial y machine learning

Roles clave en equipos de data science

Qué no es Data Science y por qué aprenderlo

Data Analyst

Qué hace un data analyst día a día

Habilidades y herramientas esenciales para ser Data Analyst

Data Scientist

Qué hace una data scientist día a día