No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Métricas de evaluación y regresión

23/25
Recursos

Aportes 9

Preguntas 2

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

A mi me quedó la inquietud de por qué usamos un Decision Tree Regressor (o en general una regresion) para un problema que es de CLASIFICACION.

Entiendo que las regresiones son para problemas donde queremos calcular valores continuos. Por otra parte, los Clasificadores se usan sobre valores discretos.

Ahora bien, si el objetivo con el dataset Iris era predecir la clase de cada especie (setosa, virginica, versicolor), este output es de tipo discreto (cualitativo), por tanto, se debería haber usado un algoritmo de tipo Clasificacion (no de regresion, según entiendo).

Por ende, como en la clase usamos una regresion para “clasificar”, lo cual pienso que no es adecuado, pues esto conduce a resultados muy sospechosos o erroneos, tal como obtuvimos en la matriz de confusion (linea 28) donde todos los valores dan 1.0 (muy sospechoso…).

En el libro “Python Machine Learning” abordan el problema de clasificacion de iris mediante una regresion logistica (OJO: aunque su nombre dice regresion, éste es en realidad un algoritmo de clasificación).

los datasets, modelos y demas aspectos relacionados, se deben escoger desde un contexto de análisis real, no simplemente algo académico para analizar métricas.

La instructora no tiene capacidades didácticas y el uso de estos recursos para nada facilitan el acercamiento a los conceptos del EDA.

Recomiendo nuevamente la revisíon del texto: https://www.amazon.com/Hands-Exploratory-Data-Analysis-Python/dp/1789537258

UN 90-95% DEL CURSO FUE TOMADO DE ESTE TEXTO.

Deberían replantear completamente este curso

Excelente, comprendí el fundamento de la clase, pero como duda:
Ahora que tenemos el modelo funcionando ¿Cómo podríamos usarlo?
(No me refiero mandarlo a producción, sino como poder hacer pruebas a mano)

No me parece que aporten mucho las últimas 2 clases.

Por si quieren ver de manera mas grafica la matriz de confusion:

import matplotlib.pyplot as plt
import seaborn as sns

matrix_confusion = confusion_matrix(y_test,y_predict)
fig, ax = plt.subplots()

sns.heatmap(pd.DataFrame(matrix_confusion), annot=True ,cmap='Blues_r',fmt ='g')

ax.xaxis.set_label_position('top')
plt.tight_layout()
plt.title('Matriz de confusion', y =1.1)

plt.ylabel('Etiqueta actual')
plt.xlabel('Etiqueta prediccion')

Me logró confundir mucho en el minuto 6:45, María, intenta definir Precisión y Exactitud pero repite la palabra precisión.

🤔

Me llama la atención Regresión en un EDA, bueno tal vez eso ocurre en el mundo de ML porque años trabajando en el mundo académico y el análisis exploratorio de los datos es descriptivo, una regresion es un análisis multivariante, ya eso es otro tema. Para llegar a seleccionar las variables que van en la regresion se pasa por el análisis exploratorio.
¿Un libro de Estadística con EDA incluyendo regresion? no lo recuerdo la verdad…

Cuando se trata de un problema de regresión, las métricas más utilizadas para medir el rendimiento del modelo son MAE (Error Absoluto Medio), MSE (Error Cuadrático Medio) y RMSE (Raíz del MSE), donde, lo fundamental es analizar qué tanta variación existe entre los valores reales y os valores obtenidos mediante la predicción. En cuanto al ejercicio realizado, el problema correspondería a un problema de clasificación, por ende, lo esencial no sería aplicar un DecisionTreeRegressor sino un DecisionTreeClassifier donde se evalúen métricas como las mostradas, ya sea, la matriz de confusión, precisión, exhaustividad, entre otras.

Una forma de visualizar mejor la matriz de confusión

cm = confusion_matrix(y_test, predict_test)

disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                              display_labels=data['names'].unique())
disp.plot()