Cursos Empresas Blog Live Conf Precios

Preparar datos para clusterizar

Clase 19 de 27 • Curso de Clustering con Python y scikit-learn

Contenido del curso

Fundamentos de clustering

K-means

Hierarchical clustering

DBSCAN

Proyecto: resolviendo un problema con clustering

Conclusiones

Preparar datos para clusterizar

int_cols = df.select_dtypes(exclude='object').columns
num_plots = len(int_cols)
rows = 3  # Número de filas deseadas
# Aqui se calcula el numero de columnas a partir de "rows".
# Para divirdir num_plots y rows, se hace lo que es la division entera "//", todo esto para que nos el numero entero que necesita el grafico.
# (num_plots % rows > 0) si tiene un resto mayor a 0 indica que necesitas de una columna extra para tus graficos, si sale exacto no necesita.
# En este caso es 9 / 3 = 3.33 es decir 3, si se llegase a colocar 2, entonces seria 4.5 es decir 4 y en 2 filas seria 8 graficos, lo cual 
# Se tendria que aumentar una columna demas.
cols = num_plots // rows + (num_plots % rows > 0)  
# Aca esta iterando "_" sobre "int_cols", con respecto al df
fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades

for _, col in enumerate(int_cols):
    # En el ax, primero calcula el indice de filas con una division entera "//" _ // cols
    # Para la calcular el indice de "ax", es de la siguiente manera _ % cols, que divide cols / _
    ax = axes[_ // cols, _ % cols] if rows > 1 else axes[_ % cols]  # Obtén el eje correspondiente
    plt.figure(figsize=(8,8))
    sns.boxplot(data=df, y=col, ax=ax)
    ax.set_title(col)  # Opcional: establece el título de cada gráfico

plt.tight_layout()  # Ajusta el espaciado entre los gráficos
plt.show()
```int\_cols = df.select\_dtypes(exclude='object').columns

num\_plots = len(int\_cols)

rows = 3  # Número de filas deseadas

\# Aqui se calcula el numero de columnas a partir de "rows".

\# Para divirdir num\_plots y rows, se hace lo que es la division entera "//", todo esto para que nos el numero entero que necesita el grafico.

\# (num\_plots % rows > 0) si tiene un resto mayor a 0 indica que necesitas de una columna extra para tus graficos, si sale exacto no necesita.

\# En este caso es 9 / 3 = 3.33 es decir 3, si se llegase a colocar 2, entonces seria 4.5 es decir 4 y en 2 filas seria 8 graficos, lo cual&#x20;

\# Se tendria que aumentar una columna demas.

cols = num\_plots // rows + (num\_plots % rows > 0) &#x20;

\# Aca esta iterando "\_" sobre "int\_cols", con respecto al df

fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades



for \_, col in enumerate(int\_cols):

&#x20;   \# En el ax, primero calcula el indice de filas con una division entera "//" \_ // cols

&#x20;   \# Para la calcular el indice de "ax", es de la siguiente manera \_ % cols, que divide cols / \_

&#x20;   ax = axes\[\_ // cols, \_ % cols] if rows > 1 else axes\[\_ % cols]  # Obtén el eje correspondiente

&#x20;   plt.figure(figsize=(8,8))

&#x20;   sns.boxplot(data=df, y=col, ax=ax)

&#x20;   ax.set\_title(col)  # Opcional: establece el título de cada gráfico



plt.tight\_layout()  # Ajusta el espaciado entre los gráficos

plt.show()