Preparar datos para clusterizar

Clase 19 de 27 • Curso de Clustering con Python y scikit-learn

Rafael Rivera

student•

Dejo por acá este codigo para visualizar mejor los boxplot:

import matplotlib.pyplot as plt
import seaborn as sns

int_cols = df_country.select_dtypes(exclude='object').columns
num_plots = len(int_cols)
rows = 3  # Número de filas deseadas
cols = num_plots // rows + (num_plots % rows > 0)  # Número de columnas deseadas

fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades

for i, col in enumerate(int_cols):
    ax = axes[i // cols, i % cols] if rows > 1 else axes[i % cols]  # Obtén el eje correspondiente
    sns.boxplot(data=df_country, y=col, ax=ax)
    ax.set_title(col)  # Opcional: establece el título de cada gráfico

plt.tight_layout()  # Ajusta el espaciado entre los gráficos
plt.show()

Sebastian Gaviria

student•

Muy buen aporte!

Leandro Tenjo

student•

📊 Otra forma de ver los subplots:

num_cols = df.select_dtypes(exclude='object').columns
fig, axs = plt.subplots(3, 3, figsize=(8, 10))
plt.tight_layout(pad=3)

for i, ax in enumerate(axs.flat):
    sns.boxplot(data=df, y=num_cols[i], ax=ax)

Fernando Jesús Núñez Valdez

student•

Para mostrar los países ordenados de mayor inflación a menor.

df_country.sort_values('inflation', ascending=False)

Jovanny Delgado

student•

La inflación es la de Nigeria que pasa de 100

Julián Cárdenas

student•

Gracias!!

Sebastian Gaviria

student•

Si están trabajando con Visual Studio Code y les sale un Future warning, se corrige de la siguiente manera:

fig = plt.figure(figsize=(15,10))
numeric_corr = df_country.corr(numeric_only=True)
sns.heatmap(numeric_corr, annot=True, cmap='coolwarm')
plt.show()

RENÉ CARDOSO

student•

Gracias!!!

Jhonatan Smith Garcia Muñoz

student•

Que metodologia deberia usarse cuando quiero crear clster con variables categoricas?

Digamos quiero segmentar clientes por sexo, tipo de pago, salario y tipo de credito. Que segmentacion se puede hacer?

Andres Sanchez

student•

Reto:

highest_inflation = df_country['inflation'].max()
country_with_highest_inflation = df_country.loc[df_country['inflation'].idxmax(), 'country']

print("The highest inflation value is:", highest_inflation)
print("The country with the highest inflation is:", country_with_highest_inflation)

David Felipe Zabala Castañeda

student•

Siento que un error en los cursos precisamente es normalizar variables altamente correlacionadas cuando se conoce que pueden impactar seriamente el rendimiento de los modelos. Ademas, los datos se deben dividr en entrenamiento y validacin antes de escalar. Es un error escalar toda la data. Lo ideal es hacer el fit_transform del scaler con entrenamiento y luego el transform al test.

Emilio José Chaparro Barrera

student••

Exacto, recomiendo leer un artículo de IBM: What is data leakage in machine learning? y me quedo con una frase del artículo relacionada a lo que comenta David.

"Preprocessing steps such as scaling, imputation or feature selection should be fitted only on the training data and then applied to the validation set, rather than fitting them on the entire dataset before splitting. Misapplying transformers such as scaling or normalization can lead to train-test contamination, especially in neural network models. When these improperly executed preprocessing steps are performed over the whole dataset, it leads to biased predictions and an unrealistic sense of the model's performance."

Rubén Darío Albarracin Caro

student•

Para poder visualizar el heatmap debí usar el siguiente código: # Seleccionar solo las columnas numéricas df_numeric = df_country.select_dtypes(include=['float64', 'int64'])

# Crear el mapa de calor solo con las columnas numéricas fig = plt.figure(figsize=(15,10)) sns.heatmap(df_numeric.corr(), annot=True, cmap='coolwarm') plt.show()

Santiago Ahumada Lozano

student•

Con una inflación de 104, Nigeria es el país con mayor inflación.

max_inflation_data = df[df['inflation']==np.max(df['inflation'])]
max_inflation_country = max_inflation_data['country']
print(max_inflation_country)

Y con una inflación de -4.21, Seychelles(Archipielago situado en África occidental) es el país con menor inflación.

min_inflation_data = df[df['inflation']==np.min(df['inflation'])]
min_inflation_country = min_inflation_data['country']
print(min_inflation_country)

Julián Cárdenas

student•

Así es!!

Juan Acevedo

student•

Mario Alexander Vargas Celis

student•

Preparar los datos adecuadamente es clave para obtener buenos resultados de clustering. Aquí tienes una guía paso a paso para preparar tus datos antes de aplicar algoritmos como K-means, DBSCAN o Hierarchical Clustering:

🧹 1. Cargar y explorar los datos

import pandas as pd

df = pd.read_csv("tu_archivo.csv") # o usa otro método de carga print(df.head()) print(df.info())

🔍 2. Seleccionar las columnas relevantes

El clustering se basa en distancias, por lo tanto, es importante seleccionar solo las características numéricas (o convertir las categóricas).

features = df[['columna1', 'columna2', 'columna3']] # ajusta según tu dataset

🧼 3. Limpiar datos

Eliminar nulos o imputar valores
Eliminar duplicados si es necesario

features = features.dropna() features = features.drop_duplicates()

🧮 4. Escalar los datos (muy importante)

Los algoritmos de clustering dependen de la escala de los datos. Se recomienda usar StandardScaler o MinMaxScaler.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler() X_scaled = scaler.fit_transform(features)

✅ 5. (Opcional) Reducir dimensiones para visualizar

Si tienes más de 2 dimensiones, puedes usar PCA o t-SNE para reducir a 2D y visualizar los clústeres.

from sklearn.decomposition import PCA

pca = PCA(n_components=2) X_pca = pca.fit_transform(X_scaled)

📦 Resultado final listo para clusterizar

Ahora X_scaled (o X_pca) está listo para pasar a:

KMeans().fit(X_scaled)
DBSCAN().fit(X_scaled)
AgglomerativeClustering().fit(X_scaled)

Jhon David Vanegas Guerrero

student•

Hola, alguien tiene alguna idea sobre como preparar una data de artículos científicos, para poder realizar un aprendizaje no supervisado y saber cuales son los temas relevantes con respecto al uso de machine learning en la industria por ejemplo?

Daniel Andres Rojas Paredes

student•

como está relacionado dbscan con kneaest neigthbors

Andres Montes

student•

codigo para encontrar el pais con maYor inflacion

condicion = df['inflation'].max()
df[df['inflation'] == condicion]

Mariano Castelli

student•

Reto:

df[df.inflation > 100]

Juan Felipe Zárate

student•

Hola a todos. ¿alguien sabe porqué si yo quiero mostrar cuál es el valor MÍNIMO de inflación con su respectivo país, aparece un valor de 133 y Seychelles -como país-?

Usé esté código:

# ahora, busquemos cuál es el país que se sale de la media, pero con menos inflación

lowest_inflation = df_country['inflation'].idxmin()

country_wiht_lowest_inflation = df_country.loc[df_country['inflation'].idxmin(), 'country']

print(f"El país que está por fuera de la media es {country_wiht_lowest_inflation},con un valor de: {lowest_inflation}.")

Angel Martínez

student•

Por si no quieren crearse una cuenta en Kaggle y descargar los datos, los pueden leer desde remoto, usando:

df_country = pd.read_csv('https://raw.githubusercontent.com/GOWTHAMJEEVANANTHAM/Unsupervised-Learning-on-Country-Data/main/Country-data.csv')

Felix Gonzales

student•

int_cols = df.select_dtypes(exclude='object').columns
num_plots = len(int_cols)
rows = 3  # Número de filas deseadas
# Aqui se calcula el numero de columnas a partir de "rows".
# Para divirdir num_plots y rows, se hace lo que es la division entera "//", todo esto para que nos el numero entero que necesita el grafico.
# (num_plots % rows > 0) si tiene un resto mayor a 0 indica que necesitas de una columna extra para tus graficos, si sale exacto no necesita.
# En este caso es 9 / 3 = 3.33 es decir 3, si se llegase a colocar 2, entonces seria 4.5 es decir 4 y en 2 filas seria 8 graficos, lo cual 
# Se tendria que aumentar una columna demas.
cols = num_plots // rows + (num_plots % rows > 0)  
# Aca esta iterando "_" sobre "int_cols", con respecto al df
fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades

for _, col in enumerate(int_cols):
    # En el ax, primero calcula el indice de filas con una division entera "//" _ // cols
    # Para la calcular el indice de "ax", es de la siguiente manera _ % cols, que divide cols / _
    ax = axes[_ // cols, _ % cols] if rows > 1 else axes[_ % cols]  # Obtén el eje correspondiente
    plt.figure(figsize=(8,8))
    sns.boxplot(data=df, y=col, ax=ax)
    ax.set_title(col)  # Opcional: establece el título de cada gráfico

plt.tight_layout()  # Ajusta el espaciado entre los gráficos
plt.show()
```int\_cols = df.select\_dtypes(exclude='object').columns

num\_plots = len(int\_cols)

rows = 3  # Número de filas deseadas

\# Aqui se calcula el numero de columnas a partir de "rows".

\# Para divirdir num\_plots y rows, se hace lo que es la division entera "//", todo esto para que nos el numero entero que necesita el grafico.

\# (num\_plots % rows > 0) si tiene un resto mayor a 0 indica que necesitas de una columna extra para tus graficos, si sale exacto no necesita.

\# En este caso es 9 / 3 = 3.33 es decir 3, si se llegase a colocar 2, entonces seria 4.5 es decir 4 y en 2 filas seria 8 graficos, lo cual&#x20;

\# Se tendria que aumentar una columna demas.

cols = num\_plots // rows + (num\_plots % rows > 0) &#x20;

\# Aca esta iterando "\_" sobre "int\_cols", con respecto al df

fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades



for \_, col in enumerate(int\_cols):

&#x20;   \# En el ax, primero calcula el indice de filas con una division entera "//" \_ // cols

&#x20;   \# Para la calcular el indice de "ax", es de la siguiente manera \_ % cols, que divide cols / \_

&#x20;   ax = axes\[\_ // cols, \_ % cols] if rows > 1 else axes\[\_ % cols]  # Obtén el eje correspondiente

&#x20;   plt.figure(figsize=(8,8))

&#x20;   sns.boxplot(data=df, y=col, ax=ax)

&#x20;   ax.set\_title(col)  # Opcional: establece el título de cada gráfico



plt.tight\_layout()  # Ajusta el espaciado entre los gráficos

plt.show()

Federico Arias

student•

Nigeria es el pais con alta Inflacion:

Juan José Mamani Tarqui

student•

<u>OUTLIERS VS STANDARD DEVIATION</u>

Outliers and standard deviation are related concepts, but they are not exactly the same thing. The standard deviation is a measure of the dispersion or spread of a set of values. It gives an idea of how much individual data points deviate from the mean (average) of the data set.

Outliers, on the other hand, are data points that significantly differ from the rest of the data in a dataset. While the presence of outliers can affect the standard deviation, they are not solely determined by it. Outliers can be identified by various statistical methods, and they may not necessarily be located at a certain number of standard deviations from the mean.

In some cases, outliers can have a substantial impact on the standard deviation, especially in smaller datasets. However, relying solely on standard deviation to identify outliers may not be sufficient, and other statistical techniques or domain knowledge may be necessary for a more comprehensive analysis of outliers in a dataset.

import matplotlib.pyplot as plt
import seaborn as sns

int_cols = df_country.select_dtypes(exclude='object').columns
num_plots = len(int_cols)
rows = 3  # Número de filas deseadas
cols = num_plots // rows + (num_plots % rows > 0)  # Número de columnas deseadas

fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades

for i, col in enumerate(int_cols):
    ax = axes[i // cols, i % cols] if rows > 1 else axes[i % cols]  # Obtén el eje correspondiente
    sns.boxplot(data=df_country, y=col, ax=ax)
    ax.set_title(col)  # Opcional: establece el título de cada gráfico

plt.tight_layout()  # Ajusta el espaciado entre los gráficos
plt.show()

num_cols = df.select_dtypes(exclude='object').columns
fig, axs = plt.subplots(3, 3, figsize=(8, 10))
plt.tight_layout(pad=3)

for i, ax in enumerate(axs.flat):
    sns.boxplot(data=df, y=num_cols[i], ax=ax)

highest_inflation = df_country['inflation'].max()
country_with_highest_inflation = df_country.loc[df_country['inflation'].idxmax(), 'country']

print("The highest inflation value is:", highest_inflation)
print("The country with the highest inflation is:", country_with_highest_inflation)

int_cols = df.select_dtypes(exclude='object').columns
num_plots = len(int_cols)
rows = 3  # Número de filas deseadas
# Aqui se calcula el numero de columnas a partir de "rows".
# Para divirdir num_plots y rows, se hace lo que es la division entera "//", todo esto para que nos el numero entero que necesita el grafico.
# (num_plots % rows > 0) si tiene un resto mayor a 0 indica que necesitas de una columna extra para tus graficos, si sale exacto no necesita.
# En este caso es 9 / 3 = 3.33 es decir 3, si se llegase a colocar 2, entonces seria 4.5 es decir 4 y en 2 filas seria 8 graficos, lo cual 
# Se tendria que aumentar una columna demas.
cols = num_plots // rows + (num_plots % rows > 0)  
# Aca esta iterando "_" sobre "int_cols", con respecto al df
fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades

for _, col in enumerate(int_cols):
    # En el ax, primero calcula el indice de filas con una division entera "//" _ // cols
    # Para la calcular el indice de "ax", es de la siguiente manera _ % cols, que divide cols / _
    ax = axes[_ // cols, _ % cols] if rows > 1 else axes[_ % cols]  # Obtén el eje correspondiente
    plt.figure(figsize=(8,8))
    sns.boxplot(data=df, y=col, ax=ax)
    ax.set_title(col)  # Opcional: establece el título de cada gráfico

plt.tight_layout()  # Ajusta el espaciado entre los gráficos
plt.show()
```int\_cols = df.select\_dtypes(exclude='object').columns

num\_plots = len(int\_cols)

rows = 3  # Número de filas deseadas

\# Aqui se calcula el numero de columnas a partir de "rows".

\# Para divirdir num\_plots y rows, se hace lo que es la division entera "//", todo esto para que nos el numero entero que necesita el grafico.

\# (num\_plots % rows > 0) si tiene un resto mayor a 0 indica que necesitas de una columna extra para tus graficos, si sale exacto no necesita.

\# En este caso es 9 / 3 = 3.33 es decir 3, si se llegase a colocar 2, entonces seria 4.5 es decir 4 y en 2 filas seria 8 graficos, lo cual&#x20;

\# Se tendria que aumentar una columna demas.

cols = num\_plots // rows + (num\_plots % rows > 0) &#x20;

\# Aca esta iterando "\_" sobre "int\_cols", con respecto al df

fig, axes = plt.subplots(rows, cols, figsize=(15, 15))  # Ajusta el tamaño de la figura según tus necesidades



for \_, col in enumerate(int\_cols):

&#x20;   \# En el ax, primero calcula el indice de filas con una division entera "//" \_ // cols

&#x20;   \# Para la calcular el indice de "ax", es de la siguiente manera \_ % cols, que divide cols / \_

&#x20;   ax = axes\[\_ // cols, \_ % cols] if rows > 1 else axes\[\_ % cols]  # Obtén el eje correspondiente

&#x20;   plt.figure(figsize=(8,8))

&#x20;   sns.boxplot(data=df, y=col, ax=ax)

&#x20;   ax.set\_title(col)  # Opcional: establece el título de cada gráfico



plt.tight\_layout()  # Ajusta el espaciado entre los gráficos

plt.show()

Preparar datos para clusterizar

Fundamentos de clustering

¿Qué es el clustering en machine learning?

Tu primer clustering con scikit-learn

¿Cuándo usar clustering?

¿Cómo evaluar modelos de clustering?

K-means

¿Qué es el algoritmo de K-means y cómo funciona?

¿Cuándo usar K-means?

Implementando K-means

Encontrando K

Evaluando resultados de K-means

Hierarchical clustering

¿Qué es hierarchical clustering y cómo funciona?

¿Cuándo usar hierarchical clustering?

Implementando hierarchical clustering

Evaluando resultados de hierarchical clustering

DBSCAN

¿Qué es DBSCAN y cómo funciona?

¿Cuándo usar DBSCAN?

Implementando DBSCAN

Encontrar híper-parámetros

Evaluando resultados de DBSCAN

Proyecto: resolviendo un problema con clustering

Preparar datos para clusterizar

Aplicando PCA para clustering

Resolviendo con K-means

Resolviendo con hierarchical clustering

Resolviendo con DBSCAN

Resolviendo con DBSCAN (sin PCA)

Evaluación resultados de distintos modelos de clustering

Conclusiones

Proyecto final y cierre

Comparte tu proyecto de segmentación con clustering y certifícate