- 1

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación
04:23 - 2

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista
07:35 - 3

Cuándo iniciar un nuevo proyecto de ciencia de datos
04:36 - 4

Herramientas de Comunicación para Proyectos de Ciencia de Datos
05:41 - 5

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos
06:19 - 6

Comunicación Efectiva en Proyectos de Ciencia de Datos
07:46 Quiz crear proyectos ciencia datos 1
Modelación de Datos con Aprendizaje Supervisado y No Supervisado
Clase 18 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos
Contenido del curso
- 7

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas
02:54 - 8

Búsqueda y Selección de Conjuntos de Datos Eficientes
02:20 - 9

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas
05:29 - 10

Limpieza de Datos: Técnicas y Buenas Prácticas
04:25 - 11

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia
12:58 - 12

Exploración de Datos: Análisis Unidimensional y Bidimensional
02:56 - 13

Análisis y Exploración de Datos con Pandas y Matplotlib
11:05 - 14

Análisis Multidimensional y Visualización de Datos en Python
17:14 - 15

Enriquecimiento de Datos en Ciencia de Datos
03:51 - 16

Enriquecimiento de Datos para Modelos de Machine Learning
14:00 - 17

Modelos de Machine Learning: Supervisado y No Supervisado
04:37 - 18

Modelación de Datos con Aprendizaje Supervisado y No Supervisado
09:45 - 19

Clustering y Detección de Anomalías en Datos de Negocios
09:58 - 20

Detección de Anomalías en Datos Financieros con Modelos Gaussianos
08:38 - 21

Organización y Versionado de Proyectos con Git y Github
03:36 - 22

Publicación de Proyectos en GitHub: Limpieza y Conclusiones
05:23 Quiz crear proyectos ciencia datos 2
- 23

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente
01:57 - 24

Cómo Escribir un Block Post Técnico Efectivo
03:15 - 25

Presentaciones Efectivas en Comunidades Tecnológicas
05:56 - 26

Optimización de Repositorios en GitHub para Impacto Profesional
04:50 - 27

APIs Restful: Construcción y Despliegue Eficiente
03:59 - 28

Creación de Productos de Datos con Python y Herramientas Visuales
04:49 Quiz crear proyectos ciencia datos 3
¿Cómo aplicar modelos de aprendizaje supervisado y no supervisado en tus proyectos?
La integración de aprendizaje automático es fundamental en muchos proyectos modernos. Entender cómo implementar modelos supervisados y no supervisados puede llevar tus habilidades al siguiente nivel. Vamos a explorar juntos cómo hacerlo en tu proyecto, usando un ejemplo práctico para ilustrar cómo son estos procesos.
¿Cómo preprocesar los datos para el aprendizaje supervisado?
El procesamiento de datos es crucial para el aprendizaje automático. Primero, necesitas convertir tus datos en un formato que los algoritmos de aprendizaje puedan comprender. Esto implica transformar variables categóricas en numéricas usando pandas, una poderosa biblioteca de Python.
import pandas as pd
def preprocesar_datos(df):
for col in df.columns:
if df[col].dtype == 'object':
df[col].fillna(df[col].mode()[0], inplace=True)
df[col] = df[col].astype('category').cat.codes
else:
df[col].fillna(df[col].median(), inplace=True)
# Supón que 'compras_df' es tu dataset enriquecido
preprocesar_datos(compras_df)
¿Cómo implementar un modelo de aprendizaje supervisado usando Random Forest?
Una vez que los datos están listos, puedes proceder a la construcción de tu modelo. Aquí, usaremos RandomForestRegressor de Scikit-learn para predecir los montos.
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import r2_score
# Variables de entrada (X) y de respuesta (y)
X = compras_df.drop('importe', axis=1)
y = compras_df['importe']
# Separar los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)
# Crear y entrenar el modelo
regresor = RandomForestRegressor(n_estimators=1000, max_depth=4, random_state=42)
regresor.fit(X_train, y_train)
# Evaluar el modelo
predicciones = regresor.predict(X_test)
r2 = r2_score(y_test, predicciones)
print(f"R²: {r2}")
En este caso, el R² te ofrecerá una visión de qué tan bien se desempeña tu modelo en los datos de prueba. Este modelo es una excelente manera de entender el proceso, aunque no sea perfecto.
¿Qué otras estrategias en modelos no supervisados puedes utilizar?
Las técnicas no supervisadas son especialmente útiles para descubrir patrones ocultos. Dos técnicas populares son el análisis de clústeres y la detección de anomalías.
- Análisis de clústeres de texto: Esta técnica es excelente para categorizar conjuntos grandes de datos de texto en grupos más pequeños y significativos.
- Detección de anomalías en los montos: Ideal para identificar transacciones inusuales que podrían ser fraudulentas o erradas.
Al aplicar estas técnicas, puedes mejorar la calidad de los insights derivados de tus datos y descubrir patrones que no son evidentes a simple vista.
Recuerda que la clave del éxito en la implementación de modelos de aprendizaje es la comprensión detallada de tus datos y ajustarlos de acuerdo con la pregunta que deseas responder. Sigue experimentando y perfeccionando tus habilidades en el aprendizaje automático. La práctica continua te llevará a ser un experto en el campo. ¡Avanza con confianza y entusiasmo!