Reducción de Dimensionalidad y Regresión Logística con Python

Curso Profesional de Machine Learning con scikit-learn

Contenido del curso

Aprender los conceptos clave

1
Curso Completo de Machine Learning con Scikit-learn para Principiantes
07:31 min
2
Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo
04:18 min
3
Problemas de Clasificación, Regresión y Clustering con Scikit-learn
06:13 min
4
Fundamentos Matemáticos para Machine Learning Avanzado
04:52 min

Iniciar un proyecto con sklearn

Optimización de features

Regresiones robustas

Métodos de ensamble aplicados a clasificación

Clustering

Optimización paramétrica

Salida a producción

Tomar examen

Reducción de Dimensionalidad y Regresión Logística con Python

Resumen

¿Cómo comienza el proceso de codificación?

Damos inicio a la codificación al importar las librerías necesarias. Comenzamos con pandas, utilizando el alias pd para simplificar su referencia en el código. A continuación, importamos Scikit-learn (sklearn) que es esencial para la implementación de algoritmos de aprendizaje automático. Para la visualización de gráficos, se emplea matplotlib.pyplot con el alias plt. Estas herramientas son fundamentales para manejar y procesar datos de manera eficiente.

¿Qué módulos de Scikit-learn son esenciales?

Dentro de scikit-learn, utilizamos módulos específicos para descomposición y clasificación. Del módulo de descomposición, importamos el algoritmo PCA y su variación incremental IncrementalPCA. Estos módulos son vitales para efectuar reducciones de dimensionalidad, optimizando el rendimiento de nuestros modelos sin perder información relevante. Además, implementamos un algoritmo de clasificación sencillo, la regresión logística, proveniente del submódulo linear_model.

PCA e IncrementalPCA: Permiten comparar la eficacia de estas dos técnicas, garantizando resultados casi idénticos.
Regresión logística: Aunque confusa por su nombre, actúa como un clasificador, no como un modelo de regresión.

Además, preparamos los datos importando otros dos módulos: uno para normalizar los datos, asegurando que se encuentren en una escala común, y otro para dividir estos datos en conjuntos de prueba y entrenamiento.

¿Cómo identificar el script principal?

Para asegurar la ejecución correcta de scripts, especialmente cuando trabajamos con múltiples archivos, utilizamos la directiva:

if __name__ == '__main__':
    # Código a ejecutar

Esta línea de código es crucial. Indica que el script actual es el principal, responsable de coordinar la ejecución del flujo total. Si este script llama a otros, estos no tendrán esta variable asignada, lo que previene la ejecución inadecuada de scripts secundarios al ser importados.

¿Cómo cargar y preparar los datos?

Una vez listas nuestras librerías, el siguiente paso es cargar los datos en un DataFrame de pandas. Se recomienda guardar los datos en una carpeta específica, como 'data', facilitando su identificación y manipulación.

Cargando los datos:

Usamos la función read_csv para cargar archivos .csv, asegurando que la ruta al archivo se especifica correctamente.

df = pd.read_csv('./data/heart.csv')
print(df.head())

Estos comandos cargan los datos y verifican su correcta lectura imprimiendo las primeras filas del DataFrame.

¿Cómo se transforman y dividen los datos?

Con los datos cargados, es esencial prepararlos antes del entrenamiento del modelo. Esto implica la normalización y la división en conjuntos de entrenamiento y prueba.

Normalización:

El módulo StandardScaler de Scikit-learn normaliza los datos.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features_scaled = scaler.fit_transform(features)

División de datos:

Una vez normalizados, los datos se dividen utilizando train_test_split. Esta función esencial garantiza una repartición balanceada y aleatoria de los datos.

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(features_scaled, target, test_size=0.3, random_state=42)

Aquí, especificamos que el 30% de los datos sean destinados a pruebas, mientras que el 70% restante se usará para entrenamiento. El uso de random_state asegura replicabilidad en experimentos futuros.

Al seguir estos pasos, los datos están listos para aplicar PCA y eventualmente ejecutar la regresión logística, lo que facilitará una correcta clasificación y análisis de las variables involucradas. ¡Continúa aprendiendo y perfeccionando tus habilidades en ciencia de datos!

Miguel Angel Velazquez Romero

Estudiante

¿Qué es normalizar los datos en ML?

Para que funcionen mejor muchos algoritmos de Machine Learning usados en Data Science, hay que normalizar las variables de entrada al algoritmo. Normalizar significa, en este caso, comprimir o extender los valores de la variable para que estén en un rango definido. Sin embargo, una mala aplicación de la normalización, o una elección descuidada del método de normalización puede arruinar tus datos, y con ello tu análisis.

Ejemplo visto en clase:

Escalado estándar (Standard Scaler)

Una alternativa al escalado de variables es usar otra técnica conocida como escalado estándar (a cada dato se le resta la media de la variable y se le divide por la desviación típica).

Éste método funcionaría para normalizar la señal de la fibra óptica del ejemplo anterior, conservando su forma, pero, ¿qué pasará con otras señales?. Los dos estadísticos que se usan (media y desviación típica) son muy sensibles a valores anómalos (muy grandes o muy pequeños con respecto al resto).

Imaginemos otro ejemplo. Vamos a medir cuánto se usa la palabra “resaca” en publicaciones de Facebook (datos reales). La frecuencia de uso de esta palabra tiene picos durante el fin de semana y valles entre semana. Los datos tienen valores anormalmente altos en fiestas como Halloween y Navidad.

Antes de normalizar, calculamos la media (5.55) y la desviación típica (10.53). Ya podemos ver que la media está en torno a 5, cuando nuestros datos sin anomalias no pasan de valores en torno al 4 (mala señal). Si aplicamos ahora la normalización estándar, tenemos lo siguiente.

Lo primero que vemos es que no hemos conseguido normalizar entre 0-1 con este método. Además ahora tenemos valores negativos, cuando antes no los teníamos. Por si esto fuera poco, nuestros valores pico y valle han quedado muy atenuados por culpa de las anomalías. Una solución a esto sería eliminar las anomalías antes de normalizar (tema para otro post).

Análisis similares se puede hacer para otros métodos de normalización: escalar sobre máximo, normalizer, escalado robusto, etc. Puedes consultar una versión extendida de este análisis en este enlace.

Bibliografía:

Precauciones a la hora de normalizar datos en Data Science

Miller Puentes

Estudiante

Excelente aporte, me hubiera gustado que el profesor explicara porqué debía normalizar.

Luciano Vicidomini

Estudiante

Hay un curso de esto ! es uno de esos de matemáticas que tiene Platzi.

Tomas Dale

Joaquín Ricardo Svoboda Abregú

Diego Cesar Lerma Torres

Bryan Castano

Luis Eduardo Chacón Wilches

Giovany samaca

Cesar Augusto Morales Godoy

Rodrigo Urquizo Yepez

Luis Mario Rivas Hernández

Henry Mendiburu Díaz

jonathan marin

Fernando Jesús Núñez Valdez

ALEJANDRO ESPINAL RESTREPO

Christian Sanclemente

Geraldine León

David Romero

Juan Jose Sepulveda Calderon

Diego Alejandro Hernandez Londono

David Duque Uribe

Claudio Chavarría Altamirano

Jason Sepulveda

Juan Acevedo

Salvador Cardona Noriega

CRISTIAN BARBERO PÉREZ

Mario Emiliano Gordon Pico

Gersonrpq

Ariel Ortiz Beltrán

Profesor

Alexander Velasco

Carlos Isael Ramírez González

Julián Cárdenas

david jurado

Reducción de Dimensionalidad y Regresión Logística con Python

Aprender los conceptos clave

Curso Completo de Machine Learning con Scikit-learn para Principiantes

Tipos de Aprendizaje en Machine Learning: Supervisado, No Supervisado y por Refuerzo

Problemas de Clasificación, Regresión y Clustering con Scikit-learn

Fundamentos Matemáticos para Machine Learning Avanzado

Iniciar un proyecto con sklearn

Configuración Profesional de Entorno de Trabajo para Python

Instalación y configuración de librerías para Python

Análisis de Datos para el Bienestar y la Felicidad Humana

Optimización de features

Selección de Variables en Modelos de Aprendizaje Automático

Reducción de Dimensionalidad con Análisis de Componentes Principales