Fundamentos pr谩cticos

1

Aplica Platzidoro en este curso y asegura el 茅xito de tu aprendizaje

2

Los fundamentos de machine learning que aprender谩s

3

Introducci贸n a Numpy

4

Introducci贸n y manipulaci贸n de datos con Pandas

5

Introducci贸n a ScikitLearn

6

Comandos b谩sicos de las librer铆as usadas en el curso (Numpy, Pandas y ScikitLearn)

Regresi贸n Lineal y Log铆stica

7

驴Qu茅 es la predicci贸n de datos?

8

Sobreajuste y subajuste en los datos

9

Regresi贸n lineal simple y regresi贸n lineal m煤ltiple

10

Regresi贸n lineal simple con Scikit-Learn: divisi贸n de los datos

11

Regresi贸n lineal simple con Scikit-Learn: creaci贸n del modelo

12

Regresi贸n log铆stica con Scikit-Learn: definici贸n y divisi贸n de datos

13

Regresi贸n log铆stica con Scikit-Learn: evaluaci贸n del modelo

14

Matriz de confusi贸n

15

PlatziDoro C谩psula 1

脕rboles de decisi贸n

16

驴Qu茅 es un 谩rbol de decisi贸n y c贸mo se divide?

17

Comprendiendo nuestro data set para la creaci贸n de un 谩rbol de decisi贸n

18

Creando un clasificador con Scikit-Learn

19

Entrenamiento del modelo de clasificaci贸n

20

Visualizaci贸n del 谩rbol de decisi贸n

K-Means

21

驴Qu茅 es K-Means?

22

Cargando el data set de Iris

23

Construcci贸n y evaluaci贸n del modelo con K-Means

24

Graficaci贸n del modelo

25

PlatziDoro C谩psula 2

Aprendizaje profundo

26

Introducci贸n al aprendizaje profundo

27

Conceptos b谩sicos de Tensor Flow

28

Red neuronal convolucional

29

Conociendo el set de datos para la creaci贸n de la red neuronal

30

Crea y entrena tu primera red neuronal convolucional con Tensor Flow

31

Evaluaci贸n de la red convolucional

32

PlatziDoro C谩psula 3

Despedida

33

Recomendaciones para analizar correctamente tu problema

34

Siguientes pasos para continuar aprendendiendo de Machine Learning

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Sobreajuste y subajuste en los datos

8/34
Recursos

Aportes 22

Preguntas 3

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Reg铆strate o inicia sesi贸n para participar.

Resumen

Sobreajunte (overfiting): Es cuando intentamos obligar a nuestro algoritmo a que se ajuste demasiado a todos los datos posibles. Es muy importante proveer con informaci贸n abundante a nuestro modelo pero tambi茅n esta debe ser lo suficientemente variada para que nuestro algoritmo pueda generalizar lo aprendido.

Subajuste (underfiting): Es cuando le suministramo a nuestro modelo un conjunto de datos es muy peque帽o, en este caso nuestro modelo no sera capas de aprender lo suficiente ya que tiene muy poca infomaci贸n. La recomendaci贸n cuando se tienen muy pocos datos es usar el 70% de los datos para que el algoritmo aprenda y usar el resto para entrenamiento.

Solo un comentario, hay varios metodos de cross-validation, y no necesariamente, debe de ser Train-Test. puede ser tambien: Train-Test-Validation, k-folds, LOOCV, etc.

La explicaci贸n es muy buena, pero para complementar

https://www.youtube.com/watch?v=7-6X3DTt3R8

Generalizaci贸n en Machine Learning


La capacidad de generalizaci贸n nos indica qu茅 tan bien los conceptos aprendidos por un modelo de aprendizaje autom谩tico se aplican a ejemplos espec铆ficos que el modelo no vio cuando estaba aprendiendo. El objetivo de un buen modelo de aprendizaje autom谩tico es generalizar bien los datos de entrenamiento. Esto nos permite hacer predicciones en el futuro sobre los datos que el modelo nunca ha visto. Sobreajuste y subajuste son terminolog铆as empleados en el aprendizaje autom谩tico para hacer referencia a qu茅 tan bien un modelo generaliza nuevos datos ya que el ajuste excesivo y el ajuste insuficiente son las dos causas principales del rendimiento deficiente de los algoritmos de aprendizaje autom谩tico.

Sobreajuste


El sobreajuste hace referencia a un modelo que se sobre-entrena considerando cada m铆nimo detalle de los datos de entrenamiento. Esto significa que el ruido o las fluctuaciones aleatorias en los datos de entrenamiento son recogidos y aprendidos como conceptos por el modelo. El problema es que estos conceptos no se aplican a nuevos datos y tienen un impacto negativo en la capacidad de los modelos para generalizar.

Este sobre-entrenamiento suele darse con mayor probabilidad en modelos no lineales, por ello muchos de estos algoritmos de aprendizaje autom谩tico tambi茅n incluyen par谩metros o t茅cnicas para limitar y restringir la cantidad de detalles que aprende. Algunos ejemplos de algoritmos no lineales son los siguientes:

  • Decision Trees

  • Naive Bayes

  • Support Vector Machines

  • Neural Networks


    Subajuste


El subajuste hace referencia a un modelo que no puede modelar los datos de entrenamiento ni generalizar a nuevos datos. Un modelo de aprendizaje autom谩tico insuficiente no es un modelo adecuado. Las estrategias para mitigar un ajuste insuficiente son variadas y dependen del contexto.

Como puede deducirse, el subajuste suele darse con mayor probabilidad en modelos lineales, como por ejemplo:

  • Logistic Regression

  • Linear Discriminant Analysis

  • Perceptron

Les presento dos ejemplos de overfitting y underfitting gr谩ficamente. Creo que verlo de manera visual es mucho m谩s entedible:

  • El primero corresponde a una regresi贸n:

  • El segundo:

podr铆an compartir la presentaci贸n, eso seria muy util

Estoy practicando ingles escribir, entonces estoy haciendo los res煤menes en ingles, por fa me ayudan a corregir tanto lo que entend铆 como el ingles dicho esto:

When we have the data, to train the model, we can have two problems the overfitting and underfitting, underfitting happens when the dataset is small and can鈥檛 get the main characteristics of the problem, and overfitting happens when the model only can use in the training set and don鈥檛 take the ideal characteristics of the dataset

Sobreajuste y Subajuste

  • Sobreajuste: Cuando un modelo est谩 muy ajustado a nuestros datos perdi茅ndose as铆 la tendencia de estos.
  • Subajuste: Cuando el modelo falla por falta de datos. No se puede encontrar el patr贸n

Consejos a tener en cuenta

  • Buscar en lo posible dar variedad a los datos buscando todas la posibilidades para as铆 evitar un sesgo en nuestro algoritmo
  • Dividir nuestros datos en datos de aprendizaje y datos de evaluaci贸n (aproximadamente 70-30)

tiene q ser aleatoria y representativos

Sobreajuste o subajuste de los datos.

  • Obligamos a nuestro modelo a ajustarse a los datos de entrada y salida.
    Sobreajuste: overfitting: Los datos con los que se entrena el modelo debe ser elegido de forma variada, de lo contrario habr谩 un entrenamiento muy especializado a cierto tipo de datos.
    Subajuste: El modelo fallar谩 por falta de muestras suficientes.No generaliza el conocimiento.

Sobreajuste: situaci贸n en la cual por falta de variedad de los datos se realiza una predicci贸n solo en un rango Subajuste: situaci贸n en que no hay una cantidad suficiente de muestra de una categor铆a y etiqueta resultando en que el algoritmo no encuentre una generalizaci贸n del conocimiento

Under-fitting, Appropriate-fitting and Over-fitting

ajustar nuestros datos es uno de los pasos mas importantes para hacer en esta labor

Cual es un numero de registros razonable para evitar un subajuste? Gracias!!

Muy buen ejemplo practico de over y under fitting!

<h3>Overfitting.</h3>

When we run our training algorithm on the data set, we allow the overall cost (i.e. distance from each point to the line) to become smaller with more iterations. Leaving this training algorithm run for long leads to minimal overall cost. However, this means that the line will be fit into all the points (including noise), catching secondary patterns that may not be needed for the generalizability of the model.
Referring back to our example, if we leave the learning algorithm running for long, it cold end up fitting the line in the following manner:

<h3>Underfitting</h3>

We want the model to learn from the training data, but we don鈥檛 want it to learn too much (i.e. too many patterns). One solution could be to stop the training earlier. However, this could lead the model to not learn enough patterns from the training data, and possibly not even capture the dominant trend. This case is called underfitting.

Al-Masri, A. (2019, 21 junio). What Are Overfitting and Underfitting in Machine Learning? Medium. https://towardsdatascience.com/what-are-overfitting-and-underfitting-in-machine-learning-a96b30864690