Análisis exploratorio

Clase 21 de 32 • Curso de Machine Learning Aplicado con Python

Contenido del curso

Introducción al curso

1
Introducción al curso de Machine Learning Aplicado con Python
00:56 min

Cómo definir un problema de Machine Learning

El ciclo de ingeniería de Machine Learning

6
El ciclo de Machine Learning
07:33 min

Montar un ambiente de trabajo Pydata

Preparación de los datos

Modelación y evaluación

Feature Engineering

Modelos y Evaluación más avanzada

Tomar examen

Nicolas Enrique Duque Aguirre

student•

Quiero hacer algunos aportes que me di cuenta en el estudio del video.

Cuando se construyó X en videos anteriores, al momento de hacer el merge, tambien se creó una columna llamada gross y cuando se guardó esta columna estaba presente, por lo que cuando se carga X además de hacer el drop de worldwide_gross también se debe hacer el drop de gross; extrañamente el X que el profesor carga en el video no trae esta columna gross incluida ya que no le hace drop posteriormente, pero para poder entrenar el modelo en las mismas condiciones que debemos hacer del drop de gross, si cuando ejecutas len(model.coef_) y te da 8 es porque no has hecho el drop aún
Lo que dice el profesor mas adelante (minuto 6:46 al 6:50) hace referencia a que el modelo (Lasso) escoge segun sus criterios internos cuales features son mas importantes segun los datos que tiene, como los datos son aleatorios, cada modelo(osea el codigo de cada alummno que lo corre) puede escoger importancias diferentes, por lo que no te preocupes si tu grafica es o no igual a la del profesor, puede que tus datos sean muy parecidos a los que el tenia y la grafica salga igual o puede que no y que la grafica sea diferente, pero si preocupate si en lugar de 7 features tienes 8 porque eso significa que no dropeaste gross.
En el primer pairplot(que solo es en azul), en la diagonal siempre va haber un un grafico de barras ya que con si misma cada features muestra como esta distribuida (el punto 1 que menciona sobre los metodos de visualización) y en los otros casos (los scatters) muestra es la correlacion con las otras variables, especialmente con la variable objetivo(worldwide_gross), esta última linea es la clave para entender el video al final, ya que como analiza y concluye que production_budget y imdb_score son las variables mas informativas al final es solo se enfoca en esas dos; un dato curioso es que en mi modelo ademas de las variables mencionadas tambien title_year tenia una correlacion tambien grande con la variable objetivo.
Al aplicar pandas.cut esta buscando una manera de ''organizar'' sus datos con el fin de que mas adelante la visualización de los colores sea facil de realizar, aunque me queda la duda si eligio production_budget por estar correlacionada con la variable objetivo o funcionaria igual elegir cualquier otra variable que sea facil de segmentar como budget o incluso el imdb score que tendria una manera de segmentar mucho menor y mas facil.
Recordemos que en el segundo pairplot (el coloreado) el se enfoca solo en las dos variables que tienen mas correlacion con la variable objetivo, las cuales son production_budget y imdb_score, pero en esta ocasión el busca analizar si separando los datos bajo un criterior especifico que es el production_budget (en el primer pairplot no distinguia esto por eso las graficas son diferentes tambien de forma y no solo color) sigue teniendo validez la idea de elegir estas dos variables, dado que sigue existiendo correlacion entre esas y la separacion segun la categoria que eligio (esto se ve porque hay una diagonal y a su vez no hay mezclas de colores), concluye que estas dos variables son imporantes e imagino que en los videos posteriores va a centrar el analisis de su modelo en estas dos variables, de hecho cuando hagas el ejercicio puedes ver que para tu modelo tambien hay variables que tienen correlacion entre si y con la categoria pero si no tienen correlacion con la variable objetivo es mejor descartarlas, en mi caso title_year aunque tenia correlacion con la variable objetivo, su correlacion en base a la categoria no tiene relacion lineal y ademas no esta separada, entonces la descarte y llegue a la misma conclusion que el profesor, esa debe ser la conclusion a la que debes llegar, que estas dos variables son las variables informativas

Julian David Gomez Londoño

student•

gracias, buen aporte.

Omar Andrés Narvaez Ortega

student•

Gracias por tu aporte me ayuda a entender un poco mejor el análisis, aunque en mi caso, parece que el dataset original tiene una columna de más aparte de la que mencionas o quizás te erraste en tu cifra del len, porque yo al retirar gross como bien lo sugieres mi len sigue siendo 8, y creo que esto es por que el len me está contando también el índice, esto se puede verificar visualizando el dataset imprimiendo X.

Saludos!

JOSE DANIEL HERNANDEZ BETANCUR

Sergio Alejandro Elejalde Sanchez

Darvin Orozco

Ana Milena Corena Julio

Arturo Baduna

Angie Caterin Castro Cruz

Jaime Alonso Osorio Palacio

Jean Pierre Giraldo Castañeda

Diego Cesar Lerma Torres

Cristian Orozco Benjumea

Jhon Carlos Romo Ramirez

Luis Carlos Parra Raffán

Franco Colmenarez

HERNAN DARIO VELASQUEZ ORTIZ

Jonathan Alexander Ramos Martínez

Carlos Andrés Mosquera Arria

Jorge Eduardo Romero Amaya

Luis Fernando Ramírez Sánchez

Usuario anónimo

user•

Abel Fernando Becerra Carrillo

Luis Rogelio Reyes Hernandez

Manuel Ignacio Huala Pérez

Johan Andrés Mateus Lamprea

Sara Yaneth Contreras Elías

Jaime Hipólito Cabrera Salcedo

Jimmy Buriticá Londoño

Javier Guevara

FELIX DAVID CORDOVA GARCIA

Raquel Campos

Juan Pablo Guzmán Martinez

Jean Paul

teacher•

Loren Johanna Vásquez Rivera

Dina Luz Silva Villalba

Gustavo Fernando Negrete Arteaga

Mariana Montoya Naranjo

Análisis exploratorio

Introducción al curso

Introducción al curso de Machine Learning Aplicado con Python

Cómo definir un problema de Machine Learning

Importancia de definir el problema en Machine Learning

Predecir el ingreso de películas de IMDB

Terminología de Machine Learning

Materiales del curso: Notebooks de Jupyter

El ciclo de ingeniería de Machine Learning

El ciclo de Machine Learning

Montar un ambiente de trabajo Pydata

Configuración del ambiente de trabajo con Google Collab

Qué es y cómo se utiliza Numpy

Arrays en Numpy

Operaciones aritméticas en Numpy

Preparación de los datos

Cargar los datos necesarios para el proyecto

Inspección de los tipos de datos

Inspección cuantitativa y de salud de los datos

Limpiar los datos

Manejo de datos faltantes

Modelación y evaluación

El objeto estimador de Scikit-Learn

Implementar un modelo de regresión (Lasso)

Ajustando Modelos de Machine Learning, Underfitting y Overfitting

Evaluando el modelo

Feature Engineering

Feedback del modelamiento

Análisis exploratorio

Continuando con el análisis exploratorio

Creación de features

Creando más features

Selección de features y la maldición de la dimensionalidad

Modelos y Evaluación más avanzada

Cross Validation

Selección de modelos

Curvas de aprendizaje

Introducción a Ensembles y Árboles de Decisión

Random Forest y Gradient Boosting Trees

Optimización de hiperparámetros

Conclusiones del curso