No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

No se trata de lo que quieres comprar, sino de quién quieres ser. Invierte en tu educación con el precio especial

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

11 Días
2 Hrs
35 Min
29 Seg

Análisis de correlación y escalabilidad de los datos

6/17
Recursos

Aportes 12

Preguntas 5

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Si quieren un gráfico más colorido pueden usa seaborn

Hay un concepto en Machine Learning llamado DATA LEAKAGE, que basicamente consiste en que información fuera de los datos de entrenamiento es usada para entrenar el modelo, por ejemplo entrenar un escalador con todos los datos cuando debería ser solo entrenado con los datos de entrenamiento , esto genera que se puedan obtener resultados muy optimistas al entrenar nuestro modelo,pueden leer sobre eso aquí:
https://machinelearningmastery.com/data-leakage-machine-learning/

En todo caso lo correcto sería lo recomendado en este artículo:

Osea lo que mencioné al incio, entrenar y estandarizar la data con los datos de entrenamiento y evaluar el modelo con la data de prueba

Cuando se hace el one hot encoding creo que podríamos liminar ciertos campos que se encuentran estrechamente relacionados entre si, ya que, por ejemplo, se crean dos variables de género (dado que la categoría es de Masculino/Femenino), sin embargo podemos prescindir de una ya que al tener gender_Male con 1 nos da que gender_Female es 0, es decir nunca vamos a tener un 1,1 o un 0,0

😦

En el minuto 3:33, ¿Como sabe que las variables no estan crrelacionadas entre si?. No me quedo claro.
fig = go.Figure()
fig.add_trace(
    go.Bar(
        x=data_corre['index'],
        y=data_corre['Churn'],
        marker=dict(cmax=1, cmin=-1, color=data_corre['Churn'], showscale=True)))

fig.update_xaxes(tickangle=60, tickfont=dict(family='Arial', size=10), automargin='height')
fig.update_layout(title_text='Graphic correlation variable Churn', xaxis_title="Feature", yaxis_title="Correlation")
fig.show()
La multicolinealidad se refiere a la situación en la que dos o más variables independientes en un modelo de regresión están altamente correlacionadas entre sí. Esto puede causar problemas al estimar los coeficientes del modelo, ya que dificulta identificar el efecto individual de cada variable. En esencia, no es solo que "casi representen lo mismo", sino que sus valores cambian juntos de tal manera que se vuelve difícil separar sus efectos en la variable dependiente. En el contexto de la regresión logística, es crucial identificar y manejar la multicolinealidad para asegurar la validez del modelo.
Me encanta trabajar con matplotlib y hacer visuales sencillas pero potentes: ```python import matplotlib.pyplot as plt data_processing.corr()['Churn'].sort_values(ascending=False).plot(kind='bar', figsize=(15, 4)) plt.axhline(y=0, color='black', linestyle='--') plt.show() ``` ![](https://static.platzi.com/media/user_upload/image-add29d27-bb6d-41e0-a4a3-97f963afe236.jpg)
Encontré un dataframe cuyas variables no tienen correlación entre si pero bueno seguiré hasta que encuentre un modelo que se ajuste ![](https://static.platzi.com/media/user_upload/Sin%20t%C3%ADtulo-73c843a8-6af1-409b-a5ea-71cbb4cddf67.jpg)

Es interesante el uso de la correlacion de estos para realizar un completo analisis de regresion logistica. Cada vez se aprende algo nuevo.

Aunque algo complejo, este curso cada vez me gusta más. Repetiré las lecciones las veces que sea necesario 😎😅

creo que el dataset ha sido modificado en kaggle y ahora tiene menos columnas