Análisis exploratorio
Clase 21 de 32 • Curso de Machine Learning Aplicado con Python
Contenido del curso
Clase 21 de 32 • Curso de Machine Learning Aplicado con Python
Contenido del curso
JOSE DANIEL HERNANDEZ BETANCUR
Sergio Alejandro Elejalde Sanchez
Darvin Orozco
Nicolas Enrique Duque Aguirre
Julian David Gomez Londoño
Omar Andrés Narvaez Ortega
Ana Milena Corena Julio
Arturo Baduna
Angie Caterin Castro Cruz
Jaime Alonso Osorio Palacio
Jean Pierre Giraldo Castañeda
Diego Cesar Lerma Torres
Cristian Orozco Benjumea
Darvin Orozco
Jhon Carlos Romo Ramirez
Luis Carlos Parra Raffán
Franco Colmenarez
HERNAN DARIO VELASQUEZ ORTIZ
Jonathan Alexander Ramos Martínez
Carlos Andrés Mosquera Arria
Nicolas Enrique Duque Aguirre
Nicolas Enrique Duque Aguirre
Jorge Eduardo Romero Amaya
Luis Fernando Ramírez Sánchez
Usuario anónimo
Abel Fernando Becerra Carrillo
Luis Rogelio Reyes Hernandez
Manuel Ignacio Huala Pérez
Johan Andrés Mateus Lamprea
Sara Yaneth Contreras Elías
Jaime Hipólito Cabrera Salcedo
Jimmy Buriticá Londoño
Usuario anónimo
Javier Guevara
FELIX DAVID CORDOVA GARCIA
Raquel Campos
Juan Pablo Guzmán Martinez
Jean Paul
Usuario anónimo
Loren Johanna Vásquez Rivera
Dina Luz Silva Villalba
Gustavo Fernando Negrete Arteaga
Mariana Montoya Naranjo
Comparto Cheat Sheet de diferentes librerías usadas en el curso:
Numpy:
Pandas: y
Matplolib:
Scikit-Learn:
Igualmente, en este otro enlace encuentran un resumen más grande de Cheat Sheets:
Muchas gracis.
Pffff... tremendísimo aporte, muchas gracias amigo!
Quiero hacer algunos aportes que me di cuenta en el estudio del video.
gracias, buen aporte.
Gracias por tu aporte me ayuda a entender un poco mejor el análisis, aunque en mi caso, parece que el dataset original tiene una columna de más aparte de la que mencionas o quizás te erraste en tu cifra del len, porque yo al retirar gross como bien lo sugieres mi len sigue siendo 8, y creo que esto es por que el len me está contando también el índice, esto se puede verificar visualizando el dataset imprimiendo X.
Saludos!
En Python 3.8 utilce la siguiente linea: sns.pairplot(z2,hue='class',diag_kind='hist') y funciona bien...
gracias estaba buscando eso.
Muchas gracias!
Para obtener el gráfico como se muestra en el segundo pairplot en que también se muestra la gráfica para class, se puede ajustar de la siguiente forma:
sns.pairplot(Z2, hue="class", vars=Z2.columns, diag_kind="hist")
En vars incluímos en una lista los nombres de las columnas/features que queremos graficar hue se encarga de separar por colores la gráfica de acuerdo con una columna/feature seleccionada (class en nuestro caso)
como se puede poner imagenes aqui?
jean9484892, se debe guardar la imagen en formato png y arrastrarla hasta el cuadro de texto en el que escribes
En cierta parte mi dataset empezó a dar valores completamente atípicos(-inf) por lo que no pude seguir la clase al pie de la letra. Recomiendo compartir los datasets de cada clase para poder seguir en caso que el nuestro falle.
En total acuerdo, me pagó igual... altamente recomendable compartir los datasets.
Deben revisar bien los archivos que adjuntan, la mayoría tiene problemas al descargar.
Tienes razón, ninguno abre
De hecho el algoritmo que renombra los archivos para ponerles un ID antes de la extensión tiene un pequeño problema, que hay archivos que tienen dos puntos en su extensión, como .tar.gz, entonces después de subirlo el archivo termina llamándose "nombre_original_del_archivo..tarhash_del_ID**.gz**
El tema está complejo, los ejercicios funcionan, pero creo que es necesario mas conocimientos previos acerca de estadísticas y probabilidad.
Cierto.
Si uno va guardando el libro en Google Collab, no tiene por que perderse. Esta clase comienza con X (el data set al que se le agregan las columnas limpias de ingresos mundiales tras el merge con los datos de IMDB) y y (array de resultados). Solo que esta vez se le quita la columna "gross" (que era de por si un buen indicador ya que era cercana al Worldwide gross). Ahora tenemos siete variables que poco o nada tienen que ver con el desempeño y donde el puntaje en IMDB parece pesar mucho y el presupuesto (budget) de hecho tiene casi nula relación. Y es asi por que muchos millones de USD tienen que ver poco peso ya que un dolar no pesa mucho cuando invirtes demasiados millones, pero una decima o 1 punto en IMDB puede ser una gran diferencia. Los datos no están normalizados. Esto el wey chileno no lo explica!
Yo también tengo el mismo predicamente, se esta eliminando budget que en teoria deberia ser importante porque no tendria sentido gastar mucha plata y no evaluar si esto fue rentable o no, sin embargo, el modelo es el que esta decidiendo que variables son mas importantes para la predicción y de esto nos damos cuenta al momento de compararlas con los pairplots, yo hice el ejercicio igual pero con la matriz X original que contiene gross y los pairplots tambien estaban poco relacionados con el worldwide_gross, paradojicamente,
Yo también tengo el mismo predicamente, se esta eliminando budget que en teoria deberia ser importante porque no tendria sentido gastar mucha plata y no evaluar si esto fue rentable o no, sin embargo, el modelo es el que esta decidiendo que variables son mas importantes para la predicción y de esto nos damos cuenta al momento de compararlas con los pairplots, yo hice el ejercicio igual pero con la matriz X original que contiene gross y los pairplots tambien estaban poco relacionados con el worldwide_gross, paradojicamente,
Quien tiene el x.csv que lo pueda adjuntar? Gracias
https://github.com/JuanPabloMF/datasets-platzi-course/raw/master/intermediate_results/X_opening.csv
Puedes usar esta linea para traer los datos desde github
Sería pertinente profundizar mas en la interpretación de resultados, quedan muchos vacíos
No pude usar el hue="class" me da error por mi tipo de dataset , se agradece si comparten su X.csv si se comporta igual que el del profesor
Amigo, solo coloque eso sns.pairplot(Z2, hue = 'class',diag_kind='hist'), el error se debe a la matematica detrás de pairplot por lo que entendí, en fin acá está explicado porqué pasa .
Gracias @mhuala, yo sabía que en los comentarios alguien me podía dar la respuesta!! Ya llevaba un buen tiempo buscando la razón del error: RuntimeError: Selected KDE bandwidth is 0. Cannot estiamte density.
Agregar el argumento diag_kind=‘hist’ lo solucionó!! :)
Obtuve un resultado similar al tuyo. Pudiste arreglarlo?
Si una feature tiene gran correlación con nuestra variable objetivo, quiere decir que es una feature informativa. Esto quiere decir que es muy importante en nuestra predicción.
Toda esta clase tiene su complejidad. Falta mucho por aprender.
A mi no me permite hacer el pd.cut(X['budget'], 8). Todos los valores salen en cero. ¿A alguien le pasa lo mismo?
¿Que no debería ser "production_budget"?
Para obtener el 2do. pairplot con los mismos colores de la 7 clases del Prof, hay que setear el parámetro palette del pairplot así:
sns.pairplot(Z2,hue='class',diag_kind='hist', palette='husl')
Vean, después de dos (2) días sin poder pasar del instante 3:55 me di cuenta de mi error; (creo que hubiera sido útil compartir el código, en fin); ocurre que estaba escribiendo la expresión para implementar el train_test_split y poder formar mis datos de validación y entrenamiento así:
from sklearn.model_selection import train_test_split x_train, y_train, x_test, y_test = train_test_split(x,y)
No me había dado cuenta realmente porque no recibí ningún mensaje de error; por lo que me lié bastante con esto y tenía problemas de "incompatbilidad con la dimensinalidad" de mis arreglos (obviamente); de ésta manera el código realmente es así:
from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x,y)
Lo dejo por ahí si de casualidad hay otro despistado sufriendo por lo mismo, espero le pueda ser de utilidad. Saludos.
El código esta en los materiales del curso y en el github publico del curso. No duden en apoyarse en el.
El codigo lo puedes encontrar por los materiales del curso en la pestaña titulada "Archivos y Enlaces".
Muy interesante e importante poder visualizar los datos para que podamos saber qué features nos funcionarán mejor.
falta mucho estudio para entender esto.
Totalmente de acuerdo, pero la temática es bastante interesante.
Hay que documentarse muy bien sobre interpretación de gráficas para poder hacer un buen análisis exploratorio.