Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Clase 11 de 37 • Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Resumen

En nuestra exploración anterior del aprendizaje automático, preparamos nuestros datos para modelos de análisis predictivo, con enfoque en la detección de riesgo de enfermedad cardiaca. La clase de hoy tiene como propósito realizar una clasificación binaria utilizando atributos significativos de los pacientes, tales como edad, sexo, presión sanguínea y más, para prever la presencia o ausencia de una afección cardiaca. El desafío consiste en aplicar y comparar modelos de análisis de componentes principales (PCA) y regresión logística, optimizando así el uso de los datos disponibles. Acompáñame para sumergirnos en el fascinante proceso de extraer información valiosa de conjuntos de datos complejos.

¿Cómo asegurar que nuestros datos de entrenamiento y prueba están correctamente distribuidos?

El primer paso tras la división de nuestros datos en conjuntos de entrenamiento y prueba consiste en confirmar su correcta distribución. Esto se realiza mediante la inspección de la forma de los conjuntos utilizando el atributo .shape en pandas. Asegurarnos de que los conjuntos sean del tamaño apropiado es crucial para el buen funcionamiento de nuestros modelos. Por ejemplo, si nuestra salida esperada es binaria (presencia de enfermedad, sí o no), debemos contar con datos de entrenamiento y prueba consistentes en tamaño para prevenir discrepancias al momento de la evaluación.

¿Cómo funciona el algoritmo PCA y cuál es su propósito?

El algoritmo PCA se utiliza para reducir la dimensionalidad de un conjunto de datos, transformando las variables originales en un nuevo conjunto de variables no correlacionadas llamadas componentes principales. La configuración inicial es sencilla, con la elección del número de componentes como principal parámetro. La selección adecuada de componentes es esencial para capturar la mayor cantidad de información relevante sin caer en la redundancia de datos.

¿Es Incremental PCA una alternativa efectiva al PCA tradicional?

Incremental PCA es una variante del PCA clásico diseñada para conjuntos de datos de gran tamaño o para computadoras con recursos limitados. Este algoritmo divide los datos en bloques menores y los procesa secuencialmente, lo que lo convierte en una opción más viable para aquellas situaciones en las que gestionar la totalidad de los datos a la vez resulta impracticable.

Visualizando la importancia de los componentes con PCA

Para entender mejor la contribución de cada componente principal, es útil graficar la varianza explicada por cada uno. Esto nos ofrece una perspectiva clara sobre qué componentes aportan más a la clasificación y cuáles pueden ser descartados, permitiéndonos así una visualización gráfica de la información más significativa que nos ayuda a simplificar el modelo sin perder precisión.

¿Cómo implementamos el modelo de regresión logística en nuestro estudio?

La regresión logística es una técnica ampliamente utilizada para clasificación binaria. Para incorporar este modelo, debemos primero adecuar nuestros datos de entrenamiento y prueba con los componentes seleccionados del PCA. Posteriormente, ajustar la regresión logística es un proceso relativamente sencillo, pero se deben considerar parámetros específicos recientes, como el solver, para garantizar una configuración adecuada y evitar advertencias o errores.

¿Qué métricas utilizamos para evaluar la efectividad de nuestros modelos?

La evaluación de los modelos se realiza a través de métricas de rendimiento como la precisión (score), que nos da una cuantificación de la capacidad predictiva del modelo. Al aplicar PCA y llevar a cabo la transformación de los conjuntos de datos, podemos comparar directamente el rendimiento de los modelos PCA e Incremental PCA con regresión logística para determinar cuál ofrece mejores resultados.

En resumen, hemos logrado una eficiente reducción de la dimensionalidad de nuestro conjunto de datos original compuesto por trece variables, a solo tres componentes principales. Esto no solo optimiza los recursos computacionales sino que se centra en la información crucial para nuestro modelo predictivo. Sigue explorando y aplicando estas técnicas, y verás la manera en que transforman los datos complejos en entendimiento y decisiones inteligentes. Nos vemos en la próxima clase para continuar avanzando en este viaje de aprendizaje.

Comentarios

Sergio Rubiano

student•

Me toco pasarme al entorno Jupyter por que por consola se mira todo muy mal organizado

Arturo Baduna

student•

si completamente, yo sigo en google colab es mucho mejor lastima que no te muestra los out, cuando lo compartis

Christian Sanclemente

student•

De acuerdo, es mejor usar Colab o Jupyter.

Miguel Angel Velazquez Romero

student•

Aquí les dejo el código comentado por si les genera un error:

# Importamos las bibliotecas generales
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
# Importamos los módulos específicos
from sklearn.decomposition import PCA
from sklearn.decomposition import IncrementalPCA
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
if __name__ == "__main__":
  # Cargamos los datos del dataframe de pandas
  dt_heart = pd.read_csv('data/heart.csv')
  # Imprimimos un encabezado con los primeros 5 registros
  print(dt_heart.head(5))
  # Guardamos nuestro dataset sin la columna de target
  dt_features = dt_heart.drop(['target'], axis=1)
  # Este será nuestro dataset, pero sin la columna
  dt_target = dt_heart['target']
  # Normalizamos los datos
  dt_features = StandardScaler().fit_transform(dt_features)
   # Partimos el conjunto de entrenamiento y para añadir replicabilidad usamos el random state
  X_train, X_test, y_train, y_test = train_test_split(dt_features, dt_target, test_size=0.3, random_state=42)
  # Consultamos la fórmula para nuestra tabla
  print(X_train.shape)
  print(y_train.shape)
  # Llamamos y configuramos nuestro algoritmo pca
  '''EL número de componentes es opcional, ya que por defecto si no le pasamos el número de componentes lo asignará de esta forma:
  a: n_components = min(n_muestras, n_features)'''
  pca = PCA(n_components=3)
  # Esto para que nuestro PCA se ajuste a los datos de entrenamiento que tenemos como tal
  pca.fit(X_train)
  #Como haremos una comparación con incremental PCA, haremos lo mismo para el IPCA.
  '''EL parámetro batch se usa para crear pequeños bloques, de esta forma podemos ir entrenandolos
  poco a poco y combinarlos en el resultado final'''
  ipca = IncrementalPCA(n_components=3, batch_size=10)
  #Esto para que nuestro PCA se ajuste a los datos de entrenamiento que tenemos como tal
  ipca.fit(X_train)
  ''' Aquí graficamos los números de 0 hasta la longitud de los componentes que me sugirió el PCA o que
  me generó automáticamente el pca en el eje x, contra en el eje y, el valor de la importancia
  en cada uno de estos componentes, así podremos identificar cuáles son realmente importantes
  para nuestro modelo '''
  plt.plot(range(len(pca.explained_variance_)), pca.explained_variance_ratio_)
  plt.show()
  #Ahora vamos a configurar nuestra regresión logística
  logistic = LogisticRegression(solver='lbfgs')
  # Configuramos los datos de entrenamiento
  dt_train = pca.transform(X_train)
  dt_test = pca.transform(X_test)
  # Mandamos los data frames la la regresión logística
  logistic.fit(dt_train, y_train)
  #Calculamos nuestra exactitud de nuestra predicción
  print("SCORE PCA: ", logistic.score(dt_test, y_test))
  #Configuramos los datos de entrenamiento
  dt_train = ipca.transform(X_train)
  dt_test = ipca.transform(X_test)
  # Mandamos los data frames la la regresión logística
  logistic.fit(dt_train, y_train)
  #Calculamos nuestra exactitud de nuestra predicción
  print("SCORE IPCA: ", logistic.score(dt_test, y_test))

Joaquín Ricardo Svoboda Abregú

student•

muchas gracias idolo :D

Juan R. Vergara M.

student•

Gracias por el aporte 👍

Rodrigo Urquizo Yepez

student•

Como dijo el profe, si no le damos el numero de componentes a PCA, vamos a obtener el mismo numero de features, es decir, el mismo numero de dimensiones, lo cual no tiene sentido porque no estariamos aprovechando la magia de PCA.

Franco Manca

student•

Comparación entre PCA e IPCA Un compañero subió el siguiente gráfico y me pareció interesante hacerlo, comparto código: !pca-vs-ipca

Utilice los datos que el profesor subió en los archivos. Comento esto, porque me quedo ligeramente diferente que al otro compañero. . Código Al código de la clase anterior le suman el siguiente y obtienen el gráfico de arriba.

    # Configuracion de la regresión logística
    logistic = LogisticRegression(solver='lbfgs')

    pca_data = {'accuracy': [],
                'n_components': []}
    ipca_data = {'accuracy': [],
                'n_components': []}
    # PCA
    for n in range(2, 10):
        pca = PCA(n_components=n)
        pca.fit(X_train)
        df_train = pca.transform(X_train)
        df_test = pca.transform(X_test)
        logistic.fit(df_train, y_train)
        acccuracy = logistic.score(df_test, y_test)
        
        pca_data['accuracy'].append(acccuracy)
        pca_data['n_components'].append(n)
    
    # IPC
    for n in range(2, 10):
        ipca = IncrementalPCA(n_components=n, batch_size=10)
        ipca.fit(X_train)
        df_train = ipca.transform(X_train)
        df_test = ipca.transform(X_test)
        logistic.fit(df_train, y_train)
        acccuracy = logistic.score(df_test, y_test)
        
        ipca_data['accuracy'].append(acccuracy)
        ipca_data['n_components'].append(n)
    
    
    plt.plot(pca_data['n_components'], pca_data['accuracy'], label='PCA')
    plt.plot(ipca_data['n_components'], ipca_data['accuracy'], label='IPCA')
    plt.title('N Components vs Accuracy - PCA vs IPCA')
    plt.xlabel('Number of Components')
    plt.ylabel('Accuracy of Logistic-Regression')
    plt.legend()
    plt.show()

Comparto mis apuntes del curso en un repo de Github

Alfonso Andres Zapata Guzman

student•

fig = go.Figure()

fig.add_trace(go.Scatter(
    x=pca_data['n_components'],
    y=pca_data['accuracy'],
    name="PCA", mode="lines"
))


fig.add_trace(go.Scatter(
    x=ipca_data['n_components'],
    y=ipca_data['accuracy'],
    name="IPCA", mode="lines"
))

fig.update_layout(showlegend=True)

fig.show()

Juan R. Vergara M.

student•

👍

Joel Ricci López

student•

Es interesante ver cómo cambia la exactitud del modelo en función del número de componentes que se elijan tanto para el IPCA como para el PCA. No tenía idea de la influencia que podría tener al hacer el .fit_transform() sobre el X_test. !Imagen

La gráfica es el resultado de aplicar el mismo código de la clase, pero simplemente variando el número de componentes (el random_state=42). No obstante, esto desde luego dependerá del split realizado para obtener el X_train.

Carlos Daniel Pimentel Díaz

student•

Excelente aporte. Lástima que no compartiste el código con el que obtuviste la gráfica.

Franco Manca

student•

En un comentario deje el codigo de como obtener la gráfica, por si te interesa...

Francesco Velásquez

student•

Para los que usáis linux necesitáis instalar una herramienta extra para la visualización tkinter.

sudo apt install python3-tk

johan Stever Rodriguez Molina

student•

Sobre la implementación al calcular el accuracy, recuerden que generalmente, luego de hacer el fit , se hace un predict y el accuracy se calcula comparando (y_test,y_predic). dejo mi codigo para que comparen.

import pandas as pd
import sklearn 
import matplotlib.pyplot as plt 


from sklearn.decomposition import PCA
from sklearn.decomposition import IncrementalPCA

from sklearn.linear_model import LogisticRegression

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

from sklearn.metrics import jaccard_score



if __name__=="__main__":
    dt_heart = pd.read_csv('./data/heart.csv')
    #print(dt_heart.head(5))

    dt_features = dt_heart.drop('target', axis =1) # axis=1  (columas)
    dt_target = dt_heart['target']

    # Normalizando los datos
    dt_features = StandardScaler().fit_transform(dt_features)
    # Get train and test sets
    X_train,X_test, y_train, y_test = train_test_split(dt_features,dt_target, test_size=0.3, random_state=42)

    # por defecto n_components = min(n_columnas, n_filas)
    pca = PCA(n_components=3)
    pca.fit(X_train)
    ipca = IncrementalPCA(n_components=3, batch_size=10)
    ipca.fit(X_train)

    plt.plot(range(len(pca.explained_variance_)), pca.explained_variance_ratio_)
    #plt.show()

    logistic = LogisticRegression(solver='lbfgs')
    dt_train = pca.transform(X_train)
    dt_test = pca. transform(X_test)
    logistic.fit(dt_train, y_train)
    log_predic = logistic.predict(dt_test)
    print('SCORE PCA:', jaccard_score(y_test, log_predic))
    dt_train = ipca.transform(X_train)
    dt_test = ipca.transform(X_test)
    logistic.fit(dt_train, y_train)
    log_predic=logistic.predict(dt_test)
    print('SCORE IPCA', jaccard_score(y_test,log_predic ))

Salvador Cardona Noriega

student•

logreg.score(X_test, Y_test) is equivalent to print(classification_report(Y_test, Y_pred)). But you do not need to calculate Y_pred; that is done internally by the library

Alfonso Andres Zapata Guzman

student•

Usando tu codigo se obtiene:

SCORE PCA: 0.6507936507936508 SCORE IPCA 0.679144385026738

Miguel Angel Velazquez Romero

student•

Un pequeño recordatorio:

Vamos a recordar que estanos estamos trabajando bajo el dataset de pacientes con riesgo a padecer una enfermedad cardiaca, con este dataset pretendemos que utilizando ciertas variables de los pacientes, por ejemplo su edad, su sexo, su presión sanguínea y un indice de dolor que pueden sentir al realizar un ejercicio física. Vamos a intentar hacer una clasificación binaria, entre si el paciente tiene una enfermedad cardiaca o no la tiene, el objetivo de esta clase es hacer una clasificación básica, pero que nos dé una información relevante, maximizando la información de todos estos features.

Conclusión:

El rendimiento de los dos algoritmos es casi exactamente el mismo, pero hay que considerar que nuestro dataset tenia 13 fetures originalmente para intentar predecir una clasificación binaria y utilizando PCA, solo tuvimos que utilizar 3 features artificiales que fueron los que nos devolvió PCA para llegar a un resultado coste computacional y estamos utilizando información que es realmente relevante para nuestro modelo.

johan Stever Rodriguez Molina

student•

Para el diagrama de factores, les recomiendo usar el paquete "prince". Aunque el circulo de correlaciones no se como obtenerlo. Seria un buen aporte.

Diego Jurado

student•

Que buena recomendación!! Muchas Gracias

Waltter Valdez

student•

Tenía entendido que era una buena práctica realizar el escalamiento/estandarización de los datos de forma separada para los datos de entrenamiento y de prueba, de esta manera se aseguraba que no se estuviera "pasando" información.

francisco flores

student•

poner un numero al azar en los componentes (n_components =3) puede estar errado si antes no hacemos un estudio previo para ver que tanta varianza explican esos 3 componentes , en este caso esos 3 componentes estan explicando aprox un 45% de varianza es decir se pierde mucha informacion , una solucion para eso es colocar un numero decimal por ejemplo (n_components = 0.90) y python va a asumir que quieres los componentes que conserven entre todos un 90% de la informacion o el porcentaje que desees

o hacer una grafica para ver con cada componente cuanta varianza se conserva o se explica!

Tomas Dale

student•

Os dejo un grafico que muestra que tan correlacionada estan los 2 componentes principales, creo que es importante, vemos que no estan correlacionados, y eso nos dice que al ser independientes los 2 componentes aportan mucho

from sklearn.decomposition import PCA

pca = PCA(n_components=2) principalComponents = pca.fit_transform(dt_features)

principalDf = pd.DataFrame(data = principalComponents , columns = ['Principal 1', 'Principal 2'])

dt_target = dt_heart['target'] dt_target.columns =['target']

finalDf = pd.concat([principalDf, dt_target], axis = 1)

fig = plt.figure(figsize = (8,8)) ax = fig.add_subplot(1,1,1)

ax.set_xlabel('Principal Component 1', fontsize = 15) ax.set_ylabel('Principal Component 2', fontsize = 15)

ax.set_title('2 component PCA', fontsize = 20)

#valores de target 0- No tiene problemas, 1- TIene problemas targets = [0, 1] titulos = ['Sin Problema','Con Problema']

colors = ['r', 'g']

for target, color in zip(targets,colors): indicesToKeep = finalDf['target'] == target ax.scatter(finalDf.loc[indicesToKeep, 'Principal 1'], finalDf.loc[indicesToKeep, 'Principal 2'], c = color, s = 50)

ax.legend(titulos) ax.grid()

María José Medina

student•

Por si alguien se pregunta de donde viene o qué es el variace_explained_ratio:

# Get variance explained by singular values
explained_variance_ = (S ** 2) / (n_samples - 1)
total_var = explained_variance_.sum()
explained_variance_ratio_ = explained_variance_ / total_var

donde S viene de:

U, S, V = linalg.svd(X, full_matrices=False)

y X viene siendo la matriz de entrada, es decir las features X_train.

Referencia:

Scikit-Learn

Iram Martinez

student•

Para quien se encuentre trabajando en Windows Subsystem for Linux con Ubuntu y no le muestre la ventana de matplotlib esto me funcionó:

Primero descargué VcXsrv

Con esta configuración

Despues en el cmd de windows corres ipconfig para que conozcas tu IP local

Y finalmente en la consola corres esta línea export DISPLAY=aqui_tu_ip:0

Como extra puedes guardar la última linea en ~/.bashrc para que se guarde y no tengas que correr la línea después

Carlos Daniel Jiménez

student•

pca = PCA(n_components=3)
pca.fit(X_train)
ipca =IncrementalPCA(n_components=3,batch_size=10)
ipca.fit(X_train)
X_reduced = pca.transform(X)
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()
ax = Axes3D(fig)
ax.set_title('Heart Dataset by PCA', size=14)
ax.scatter(X_reduced[:,0],X_reduced[:,1],X_reduced[:,2], c=y, cmap=cmap)
ax.set_xlabel('First eigenvector')
ax.set_ylabel('Second eigenvector')
ax.set_zlabel('Third eigenvector')
ax.w_xaxis.set_ticklabels(())
ax.w_yaxis.set_ticklabels(())
ax.w_zaxis.set_ticklabels(())
plt.show()

johan Stever Rodriguez Molina

student•

Mucho cuidado con las visualizaciones 3d. muchos expertos en data viz recomiendan no usarlas por generar errores de concepciones

Arturo Baduna

student•

si manejas campos escalares, no hay problema,creo. de ultima si pobras con todo y no funciona, graficas diferente.

Laura Torres

student•

De esos 13 features los 3 que usa PCA cuales son? cómo los identifico?

Marlon Marin

student•

Compañeros, sé que trabajar en consola puede reventar los ojos para ver los outputs de nuestros códigos, pero recuerden que ya debemos estar pensando en llevar a producción nuestros modelos.

Abinadi Contreras

student•

y yo sigo usando jupiter :(

Santiago Restrepo Escalante

student•

Aún no me queda claro como seleccionar el n_components del PCA. Como debo interpretar la grafica para saber si debo adicionar un punto adicional a este parametro o quitarle.

Cesar supo

student•

Prueba y error, con SCORE PCA vez que tan bien te sirvió y tu n_components será el que mejor score tenga.

Josue Noha Valdivia

student•

Hola, no se me generan los gráficos de matplotlib y no me aparece error, hay algún plugin para las gráficas o algo así? :thi

JESUS ALBERTO CARREÑO MARTINEZ

student•

Hola Podrías colocar tu código completo para ayudarte? Saludos

Josue Noha Valdivia

student•

Creo que es el mismo código del curso, no me genera ningún error (en terminal) pero no se genera el plot

Geovany Uribe Aguirre

student•

Muy bien el ejercicio para aprender a usar sklearn, sin embargo, se debe entender el dataset que se está manejando, deberían transformar las columnas “cp” y “thal” a variables dicótomas, ya que a pesar de éstas ser numéricas, no tienen ningún orden de jerarquía (es decir, que tener cp tipo 2 no es peor o mejor que tener cp tipo 0). Pueden hacer algo de este estilo:

for i in ['cp', 'thal']:
	dt_features[i] = dt_features[i].astype('category')
dt_features = pd.get_dummies(dt_features)

Y solamente con ese cambio ganan 3% más de accuracy.

Camilo Andrés Hurtado Erasso

student•

Gran aporte, efectivamente eso debe realizarse antes de empezar todo el proceso de PCA y regresión logística.

Además, al hacer eso nos damos cuenta de que hay un valor de "thal" en 0, lo cual no tiene sentido pues el PDF indica que esta variable va de 1 a 3. Por tanto, creo que se trata de un error en los datos, y eso es algo que también debería solucionarse antes de aplicar el modelo.

Clasificación de Enfermedad Cardiaca con PCA y Regresión Logística

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales

Reducción de Dimensionalidad y Regresión Logística con Python