Aprender los conceptos clave

1

Todo lo que aprender谩s sobre MA con Scikit-Learn

2

驴C贸mo aprenden las m谩quinas?

3

Problemas que podemos resolver con Scikit-learn

4

Las matem谩ticas que vamos a necesitar

Iniciar un proyecto con sklearn

5

Configuraci贸n de nuestro entorno Python

6

Instalaci贸n de librer铆as en Python

7

Datasets que usaremos en el curso

Optimizaci贸n de features

8

驴C贸mo afectan nuestros features a los modelos de Machine Learning?

9

Introducci贸n al PCA

10

Preparaci贸n de datos para PCA e IPCA

11

Implementaci贸n del algoritmo PCA e IPCA

12

Kernels y KPCA

13

驴Qu茅 es la regularizaci贸n y c贸mo aplicarla?

14

Implementaci贸n de Lasso y Ridge

15

Explicaci贸n resultado de la implementaci贸n

16

ElasticNet: Una t茅cnica intermedia

Regresiones robustas

17

El problema de los valores at铆picos

18

Regresiones Robustas en Scikit-learn

19

Preparaci贸n de datos para la regresi贸n robusta

20

Implementaci贸n regresi贸n robusta

M茅todos de ensamble aplicados a clasificaci贸n

21

驴Qu茅 son los m茅todos de ensamble?

22

Preparaci贸n de datos para implementar m茅todos de ensamble

23

Implementaci贸n de Bagging

24

Implementaci贸n de Boosting

Clustering

25

Estrategias de Clustering

26

Implementaci贸n de Batch K-Means

27

Implementacti贸n de Mean-Shift

Optimizaci贸n param茅trica

28

Validaci贸n de nuestro modelo usando Cross Validation

29

Implementaci贸n de K-Folds Cross Validation

30

Optimizaci贸n param茅trica

31

Implementaci贸n de Randomized

32

Bonus: Auto Machine Learning

Salida a producci贸n

33

Revisi贸n de nuestra arquitectura de c贸digo

34

Importar y exportar modelos con Sklearn

35

Creaci贸n de una API con Flask para el modelo

36

Cierre del curso

37

Material adicional para consultar

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

El problema de los valores at铆picos

17/37
Recursos

Aportes 8

Preguntas 0

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Reg铆strate o inicia sesi贸n para participar.

tambi茅n esta el paquete seaborn para hacer los boxplot.

import seaborn as sns
sns.boxplot(hearth.sex, hearth.chol, hue = hearth.target)
  • DBSCAN: Density-Based Spatial Clustering of Applications with Noise.

Consiste en considerar a zonas muy densas como clusters, mientras que los puntos que carecen de 鈥榲ecinos鈥 no pertenecen a ning煤n conjunto y por lo tanto se clasifican como ruido (o outliers).

Una ventaja de est谩 t茅cnica es que no se requiere que se especifique el n煤mero de clusters (como en K-means, por ejemplo), en cambio se debe especificar un n煤mero m铆nimo de datos que constituye un cluster y un par谩metro epsilon que est谩 relacionado con el espacio entre vecinos.

En la siguiente imagen pueden ver un ejemplo gr谩fico de esta t茅cnica:

Mas informaci贸n en:

https://dashee87.github.io/data science/general/Clustering-with-Scikit-with-GIFs/

Si quieren visualizar r谩pidamente para su dataset los datos at铆picos. Pandas permite hacer con facilidad. Dejo el c贸digo para el caso del dataset hearth. Claramente se debe entender que para las variables indicadoras no tendr铆a mucho sentido considerarlo.

num_features = hearth[['age', 'trestbps', 'thalach', 'oldpeak']]
num_features

plt.figure(figsize=(10,7))
num_features.boxplot(grid=False)

El grafico de caja de una buena forma para detectar los valores at铆picos en un set de datos, a su vez tambi茅n es aconsejable (dependiendo del caso) eliminarlos para que nuestro an谩lisis sea lo m谩s confiable posible.

Me explic贸, si sabemos que el promedio de autos que cruza una calle x de cuadra a cuadra es de aproximadamente de 10 segundos, un auto que tenga un tiempo de 100 segundo o de 10 minutos, claramente nos est谩 indicando que tenemos un problema con ese dato.

En este art铆culo se explica por que se toma el valor 1.5*IQR para calcular los valores at铆picos:

https://towardsdatascience.com/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097

Clase 17: El problema de los valores at铆picos

  • Un valor at铆pico es cualquier medici贸n que se encuentre por fuera del comportamiento general de una muestra de datos.
  • Pueden indicar variabilidad, errores de medici贸n o novedades.

驴Por qu茅 son problem谩ticos?

1.- Pueden generar sesgos importantes en los modelos de ML.

2.- A veces contienen informaci贸n relevante sobre la naturaleza de los datos.

3.- Detecci贸n temprana de fallos.

驴C贸mo identificarlos?

A trav茅s de m茅todos estad铆sticos:

  1. Z - Score: Mide la distancia (en desviaciones est谩ndar) de un punto dado a la media.
  2. T茅cnicas de clustering como DBSCAN.
  3. Si q< Q1-1.5IQR 贸 q > Q3+1.5IQR

Este es el mejor profesor de platzi hasta ahora.

Los datos atipicos, son muy crueles con los modelos lieneales, o que se midan con distancia. En solociones tipo tree, no le importa tanto los atipicos, ni los valores null. Los arboles son mero amor