Aprender los conceptos clave

1

Todo lo que aprenderás sobre MA con Scikit-Learn

2

¿Cómo aprenden las máquinas?

3

Problemas que podemos resolver con Scikit-learn

4

Las matemáticas que vamos a necesitar

Iniciar un proyecto con sklearn

5

Configuración de nuestro entorno Python

6

Instalación de librerías en Python

7

Datasets que usaremos en el curso

Optimización de features

8

¿Cómo afectan nuestros features a los modelos de Machine Learning?

9

Introducción al PCA

10

Preparación de datos para PCA e IPCA

11

Implementación del algoritmo PCA e IPCA

12

Kernels y KPCA

13

¿Qué es la regularización y cómo aplicarla?

14

Implementación de Lasso y Ridge

15

Explicación resultado de la implementación

16

ElasticNet: Una técnica intermedia

Regresiones robustas

17

El problema de los valores atípicos

18

Regresiones Robustas en Scikit-learn

19

Preparación de datos para la regresión robusta

20

Implementación regresión robusta

Métodos de ensamble aplicados a clasificación

21

¿Qué son los métodos de ensamble?

22

Preparación de datos para implementar métodos de ensamble

23

Implementación de Bagging

24

Implementación de Boosting

Clustering

25

Estrategias de Clustering

26

Implementación de Batch K-Means

27

Implementación de Mean-Shift

Optimización paramétrica

28

Validación de nuestro modelo usando Cross Validation

29

Implementación de K-Folds Cross Validation

30

Optimización paramétrica

31

Implementación de Randomized

32

Bonus: Auto Machine Learning

Salida a producción

33

Revisión de nuestra arquitectura de código

34

Importar y exportar modelos con Sklearn

35

Creación de una API con Flask para el modelo

36

Cierre del curso

37

Material adicional para consultar

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Aprende todo un fin de semana sin pagar una suscripción 🔥

Aprende todo un fin de semana sin pagar una suscripción 🔥

Regístrate

Comienza en:

3D
21H
49M
18S

El problema de los valores atípicos

17/37
Recursos

Aportes 10

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

también esta el paquete seaborn para hacer los boxplot.

import seaborn as sns
sns.boxplot(hearth.sex, hearth.chol, hue = hearth.target)
  • DBSCAN: Density-Based Spatial Clustering of Applications with Noise.

Consiste en considerar a zonas muy densas como clusters, mientras que los puntos que carecen de ‘vecinos’ no pertenecen a ningún conjunto y por lo tanto se clasifican como ruido (o outliers).

Una ventaja de está técnica es que no se requiere que se especifique el número de clusters (como en K-means, por ejemplo), en cambio se debe especificar un número mínimo de datos que constituye un cluster y un parámetro epsilon que está relacionado con el espacio entre vecinos.

En la siguiente imagen pueden ver un ejemplo gráfico de esta técnica:

Mas información en:

https://dashee87.github.io/data science/general/Clustering-with-Scikit-with-GIFs/

Si quieren visualizar rápidamente para su dataset los datos atípicos. Pandas permite hacer con facilidad. Dejo el código para el caso del dataset hearth. Claramente se debe entender que para las variables indicadoras no tendría mucho sentido considerarlo.

num_features = hearth[['age', 'trestbps', 'thalach', 'oldpeak']]
num_features

plt.figure(figsize=(10,7))
num_features.boxplot(grid=False)

En este artículo se explica por que se toma el valor 1.5*IQR para calcular los valores atípicos:

https://towardsdatascience.com/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097

El grafico de caja de una buena forma para detectar los valores atípicos en un set de datos, a su vez también es aconsejable (dependiendo del caso) eliminarlos para que nuestro análisis sea lo más confiable posible.

Me explicó, si sabemos que el promedio de autos que cruza una calle x de cuadra a cuadra es de aproximadamente de 10 segundos, un auto que tenga un tiempo de 100 segundo o de 10 minutos, claramente nos está indicando que tenemos un problema con ese dato.

Clase 17: El problema de los valores atípicos

  • Un valor atípico es cualquier medición que se encuentre por fuera del comportamiento general de una muestra de datos.
  • Pueden indicar variabilidad, errores de medición o novedades.

¿Por qué son problemáticos?

1.- Pueden generar sesgos importantes en los modelos de ML.

2.- A veces contienen información relevante sobre la naturaleza de los datos.

3.- Detección temprana de fallos.

¿Cómo identificarlos?

A través de métodos estadísticos:

  1. Z - Score: Mide la distancia (en desviaciones estándar) de un punto dado a la media.
  2. Técnicas de clustering como DBSCAN.
  3. Si q< Q1-1.5IQR ó q > Q3+1.5IQR

Este es el mejor profesor de platzi hasta ahora.

Los datos atipicos, son muy crueles con los modelos lieneales, o que se midan con distancia. En solociones tipo tree, no le importa tanto los atipicos, ni los valores null. Los arboles son mero amor

n_cols = len(dt_heart.columns)
plt.figure(figsize=(10,50))
for i, col in enumerate(dt_heart.columns):
    
    plt.subplot(n_cols,2,2*i+1)
    sns.boxplot(data=dt_heart[col])
    plt.subplot(n_cols,2,2*i+2)
    sns.violinplot(data=dt_heart[col])

🤓Hice un video y lo cargue en youtube donde pueden ver el proceso de eliminación de valores atípicos, con la metodología que el profe explica en el video.👀

https://www.youtube.com/watch?v=gc1y-r6hzG4&t=2626s