Implementando nuestros modelos de Machine Learning

Clase 19 de 35 • Curso Profesional de Data Science 2016

Resumen

Ahora que dividimos nuestros datos de entrenamiento y nuestros datos de validación para hacer validación cruzada, de nuevo, la idea es imitar el escenario de predicción, para hacernos una idea realista de cómo se desempeñará nuestro modelo al momento de predecir, sin predecir realmente en datos de prueba.

Así que aquí vamos a ajustar un modelo con datos de entrenamiento.

Previamente había dicho que al crear modelos de machine learning probablemente no hagas uno propio, o no, al menos en una situación de producción probablemente no hagas uno propio. La razón es es porque bibliotecas como scikit-learn hacen estos modelos realmente fáciles de usar y han sido "probados en batalla" por muchas organizaciones a lo largo de muchos años.

De modo que instanciar un modelo de machine learning y ajustar ese modelo en scikit-learn es realmente tan fácil como lo siguiente:

Son simplemente dos líneas y uno podría haber pensado que sería un montón de trabajo, ajustar estos modelos pero en realidad no lo es.

Un modelo es este objeto LogisticRegression. Tiene muchos parámetros diferentes, todos ellos con valores por defecto.

Así que al ajustar modelos en scikit-learn usar los valores por defecto nunca es una mala idea.

Por supuesto probablemente queremos desviarnos de esos valores en algún punto del proceso. Pero empezar con lo que scikit-learn pre formula es por lo general una jugada inteligente.

Comentarios

Enmanuel Madrid

student•

Me podrian explicar lo que es la mascara?

Carlos Nexans

student•

Te lo explico con un ejemplo pequeño, supongamos que tienes datos con varias columnas.

Nombre | Edad | Pais
Carlos   | 24      | Ar
Pepe     | 22      | Col
Pablo    | 25      | Col

Si tienes una mascara así

True
False
False

Cuando la aplicas obtienes una tabla así

Carlos   | 24      | Ar

El concepto de mascara asigna un valor booleano a los índices de la tabla, y cuando la aplicas te devuelve los registros en los cuales el indice es True. Es un concepto que se usa con mucha frecuencia en grandes cantidades de datos y en múltiples lenguajes de programación.

Side note: se llaman sparse a los vectors o matrices que contienen muchos ceros o False.

Mauricio Nicolás Arismendi Aedo

student•

Te recuerdo que antes de todo esto, debes hacer:

import numpy as np

Giancarlo Bravo Falabella

student•

¿Hay alguna diferencia entre el método creado en clase: split_data y el método de Scikit-learn: train_test_split?

Diego Forero

Team Platzi•

Aquí encuentras el código fuente de la función de Scikit learn y como puedes observar es completamente diferente.

Enmanuel Madrid

student•

El objeto LogisticRegression, y en general los modelos de machine learning que tiene sklearn, poseen un método llamado score el cual le podemos pasar los datos de test, en este caso los datos de validación (X_validation, y_validation), y nos arrojaria el mismo resultado

Enmanuel Madrid

student•

Pero no tendriamos los metodos del objeto predictions

Serrana Carbajal Muñoz

student•

No estoy pudiendo ver los videos "The media playback was aborted due to a corrupiton problem or because the media used features your broweser did not support. Que debo hacer?

Diego Forero

Team Platzi•

Prueba cambiando de servidor, en el icono del engrane del reproductor lo puedes hacer, si con eso no se soluciona coméntanos que sistema operativo y navegador usas.

Tomás Retamal Venegas

student•

Alguien podría explicarme qué hace el X[mask]?

Francisco Camacho

teacher•

Hola tomasrtml !! gracias por tu pregunta, por poner un ejemplo sencillo: recuerda que cuando tienes un arreglo, digamos X = [1,2,3,4] y escribes X[0] le estas diciendo que de ese arreglo te devuelva el primer elemento solamente entonces sería, algo así:

In [1]: X = np.array([1,2,3,4])
In [2]: print(X)

Out[2]: [1 2 3 4]

In [3]: print(X[0])

Out[3]: 1

Así mismo, cuando quieres seleccionar unos pocos elementos de tu arreglo le puedes decir algo como:

In [4]: print(X[[0,3]])

Out [4]: [1 4]

en este caso le estas diciendo que arme un sub-arreglo usando solamente los elementos ubicados en las posiciones 0 y 3 del arreglo original X. Algo similar puedes hacer usando un mapeo Booleano, por ejemplo el equivalente a X[[0,3]] sería X[[True, False, False, True]], veamos:

In [5]: print(X[[True, False, False, True]])
Out [5]: [1 4]

Entonces, como ves en el video mask es una secuencia de booleanos True y False que se arma basada en la distribución binomial; así, cuando tu tienes tu arreglo de numpy X, escribir X[mask] es construir un sub-arreglo a partir de X donde solo estas seleccionando los elementos cuya posición está marcada con un True.

Implementando nuestros modelos de Machine Learning

Bienvenido al curso

¿Cómo activar los subtítulos para este curso?

Bienvenido al curso profesional de Data Science

Llevar tus cosas a Producción

Llevar tus cosas a producción

Bases de datos: SQL o NoSQL

ETL

Mostrar tus datos mediante dashboards

Repaso por Jupyter Notebook

Ejemplo de inferencia en twitter para producción

Creando nuestro modelo matematico

Automatización

Llevar tus cosas a producción

Machine Learning

Un poco de contexto sobre machine learning

Entrenando un modelo de Machine Learning

Modelos de regresión, clasificación, clustering y reducción de dimensionalidad

Modelos canónicos y para que los usamos

Más modelos canonicos

Itera rápido o muere lento

Recolectando y limpiando nuestros datos

Implementando nuestros modelos de Machine Learning

Creando y ejecutando nuestro pipeline

Machine Learning

Estadística

Estadística y su aplicación en Data Science

Distribuciones de probabilidad

Inferencia estadística

Ejemplo de un modelo estadístico en un Testing A/B

Estadística

Herramientas clave que usa un data scientist

Herramientas que todos necesitamos

Servicios en la nube de Amazon: AWS / EC2

Obteniendo y explorando datos desde nuestra línea de comandos

Git

Construyendo un equipo de data science

Construyendo un equipo de Data Science

Ingenieros de datos, creadores de producto y data scientists

¿Qué sigue?

¿Qué sigue?

Cierre del curso

Contenido complementario