No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Análisis de correlación y escalabilidad de los datos

6/17
Recursos

Aportes 8

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Si quieren un gráfico más colorido pueden usa seaborn

Hay un concepto en Machine Learning llamado DATA LEAKAGE, que basicamente consiste en que información fuera de los datos de entrenamiento es usada para entrenar el modelo, por ejemplo entrenar un escalador con todos los datos cuando debería ser solo entrenado con los datos de entrenamiento , esto genera que se puedan obtener resultados muy optimistas al entrenar nuestro modelo,pueden leer sobre eso aquí:
https://machinelearningmastery.com/data-leakage-machine-learning/

En todo caso lo correcto sería lo recomendado en este artículo:

Osea lo que mencioné al incio, entrenar y estandarizar la data con los datos de entrenamiento y evaluar el modelo con la data de prueba

Cuando se hace el one hot encoding creo que podríamos liminar ciertos campos que se encuentran estrechamente relacionados entre si, ya que, por ejemplo, se crean dos variables de género (dado que la categoría es de Masculino/Femenino), sin embargo podemos prescindir de una ya que al tener gender_Male con 1 nos da que gender_Female es 0, es decir nunca vamos a tener un 1,1 o un 0,0

En el minuto 3:33, ¿Como sabe que las variables no estan crrelacionadas entre si?. No me quedo claro.

😦

fig = go.Figure()
fig.add_trace(
    go.Bar(
        x=data_corre['index'],
        y=data_corre['Churn'],
        marker=dict(cmax=1, cmin=-1, color=data_corre['Churn'], showscale=True)))

fig.update_xaxes(tickangle=60, tickfont=dict(family='Arial', size=10), automargin='height')
fig.update_layout(title_text='Graphic correlation variable Churn', xaxis_title="Feature", yaxis_title="Correlation")
fig.show()

Aunque algo complejo, este curso cada vez me gusta más. Repetiré las lecciones las veces que sea necesario 😎😅

creo que el dataset ha sido modificado en kaggle y ahora tiene menos columnas