Selección de features y la maldición de la dimensionalidad

Clase 25 de 32 • Curso de Machine Learning Aplicado con Python

Contenido del curso

Introducción al curso

1
Introducción al curso de Machine Learning Aplicado con Python
00:56 min

Cómo definir un problema de Machine Learning

El ciclo de ingeniería de Machine Learning

6
El ciclo de Machine Learning
07:33 min

Montar un ambiente de trabajo Pydata

Preparación de los datos

Modelación y evaluación

Feature Engineering

Modelos y Evaluación más avanzada

Tomar examen

Nicolas Enrique Duque Aguirre

student•

Fue un ejercicio interesante analizar el rendimiento del modelo, en mi caso tuve un nuevo score R2 de 0.89599, mejorando el score del primer módelo que fue de 0.85 cuando se hizo en clase, para el ejercicio decidí no hacer mas modificaciones como creación de features o selección automática de features pues considero que si durante el desarrollo del ejercicio estos cambios no aportaron mejoras sustanciales a la predicción en este caso tampoco lo harán(aunque tal vez mas adelante si lo haga).

Para poder incluir archivo csv opening_df se debe hacer un merge como se hizó con finnancials aprovechando que éste trae la columna title_movies, pero como X no contiene esta columna, basicamente volví hacer toda la preparación de datos de las primeras clases, volviendo hacer toda la separación de datos númericos de textos (objects), haciendo de nuevo el merge de finnancials y haciendo esta vez un segundo merge con opening_df, en este caso, la reducción de datos si es de un 50% ya que opening_df tiene 2272 lineas y otra cosa es que al parecer en opening_df se incluyen nuevas peliculas pues si bien está tiene 2272 lineas, al hacer el merge con movies queda con 2304 lineas, por lo que si bien mejoró el score y además también lo validé con el analisís visual y tanto el scatter normalizado como la función cumulativa obtuvieron mejor rendimiento y menos error, me queda la duda con respecto a lo que dijo el profesor, también como se hizo en clase rellené los datos faltantes con el imputer, pero no vi necesario eliminar datos pues en este caso worldwide_gross no tenia datos faltantes, solo nulos.

Les dejo el código utilizado, yo trabajé en google colab.

# -*- coding: utf-8 -*-
# %matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from google.colab import files
from IPython.display import Image

new_data = pd.read_csv('https://github.com/JuanPabloMF/datasets-platzi-course/raw/master/datasets/peliculas.csv', encoding = 'utf-8')
new_data

new_data.dtypes == float

new_data.dtypes == int

(new_data.dtypes == float) | (new_data.dtypes == int)

new_data.dtypes == object

num = (new_data.dtypes == float) | (new_data.dtypes == int)

num_cols = [c for c in num.index if num[c]]

obj = new_data.dtypes == object
obj_cols = [c for c in obj.index if obj[c]]

new_data_num = new_data[num_cols]

financials = pd.read_csv('https://github.com/JuanPabloMF/datasets-platzi-course/raw/master/datasets/thenumbers.csv')

financials = financials[['movie_title', 'production_budget', 'worldwide_gross']]

new_data_num = pd.concat([new_data_num, new_data['movie_title']], axis=1)

new_data_num.shape

additional_data = pd.read_csv('https://github.com/JuanPabloMF/datasets-platzi-course/raw/master/datasets/opening_df.csv', encoding = 'utf-8')

additional_data.shape

movies_v2 = pd.merge(financials,new_data_num,on='movie_title',how='left')

new_movies = pd.merge(additional_data,movies_v2,on='movie_title',how='left')

new_movies

new_movies.notnull().apply(pd.Series.value_counts)

(new_movies != 0).apply(pd.Series.value_counts)

from sklearn.impute import SimpleImputer as Imputer
imputer = Imputer(missing_values=np.nan, strategy='mean')

new_movies = new_movies.drop('movie_title',axis=1)

new_movies = new_movies.drop('Unnamed: 0',axis=1)

new_movies = new_movies.drop('duration.1',axis=1)

new_movies

values = imputer.fit_transform(new_movies)
values.shape

X = pd.DataFrame(values)
X.columns = new_movies.columns
X.index = new_movies.index

X

X.notnull().apply(pd.Series.value_counts)

(X != 0).apply(pd.Series.value_counts)

"""**Se procede a entrenar y evaluar el modelo con la informacion nueva**"""

y = X['worldwide_gross']

X = X.drop('worldwide_gross',axis=1)

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.4)

print(len(X))
print(len(X_train))
print(len(X_test))

from sklearn.linear_model import Lasso

model = Lasso()

model.fit(X_train,y_train)

predicted = model.predict(X_test)

model.score(X_test,y_test)

residuals = y_test - predicted

plt.scatter(y_test,residuals)

ap_residuals = np.abs(residuals) / y_test

plt.scatter(y_test,ap_residuals)

lap_residuals = np.log(ap_residuals)
plt.scatter(y_test,lap_residuals)

plt.hist(lap_residuals,bins=100, density=1, histtype='step', cumulative=True);

plt.hist(lap_residuals,bins=100, density=1, histtype='step', cumulative=True);
plt.axis((-2,0,0,1)) # Axis desde -2 hasta 1
np.power(np.exp(1)*np.ones(5),np.linspace(-2,0,5))```

Selección de features y la maldición de la dimensionalidad

Introducción al curso

Introducción al curso de Machine Learning Aplicado con Python

Cómo definir un problema de Machine Learning

Importancia de definir el problema en Machine Learning

Predecir el ingreso de películas de IMDB

Terminología de Machine Learning

Materiales del curso: Notebooks de Jupyter

El ciclo de ingeniería de Machine Learning

El ciclo de Machine Learning

Montar un ambiente de trabajo Pydata

Configuración del ambiente de trabajo con Google Collab

Qué es y cómo se utiliza Numpy

Arrays en Numpy

Operaciones aritméticas en Numpy

Preparación de los datos

Cargar los datos necesarios para el proyecto

Inspección de los tipos de datos

Inspección cuantitativa y de salud de los datos

Limpiar los datos

Manejo de datos faltantes

Modelación y evaluación

El objeto estimador de Scikit-Learn

Implementar un modelo de regresión (Lasso)

Ajustando Modelos de Machine Learning, Underfitting y Overfitting

Evaluando el modelo

Feature Engineering

Feedback del modelamiento

Análisis exploratorio

Continuando con el análisis exploratorio

Creación de features

Creando más features

Selección de features y la maldición de la dimensionalidad

Modelos y Evaluación más avanzada

Cross Validation

Selección de modelos

Curvas de aprendizaje

Introducción a Ensembles y Árboles de Decisión

Random Forest y Gradient Boosting Trees

Optimización de hiperparámetros

Conclusiones del curso