¿Qué hay más allá de la linealidad?

Clase 16 de 18 • Curso de Regresión Lineal con Python y scikit-learn

Comentarios

Eduardo Carrillo

student•

sería excelente un curso avanzado de machine learning

Víctor Alejandro Regueira Romero

student•

¡Ya lo hay! La escuela de Data Science e Inteligencia Artificial tiene un montón de cursos avanzados.

Gerardo Mayel Fernández Alamilla

student•

aquí hay algunos, también hay otros muy buenos que aunque son más antiguos son muy completos, en el buscador de platzi hay varios recursos más

https://platzi.com/cursos/scikitlearn/ https://platzi.com/cursos/laboratorio-machine-learning-prod/ https://platzi.com/cursos/ml-ops/ https://platzi.com/cursos/regresion-logistica/ https://platzi.com/cursos/clustering/

Augusto Mas

student•

Si por favor un curso avanzado de Machine Learning!

Juan R. Vergara M.

student•

😅

Gerardo Mayel Fernández Alamilla

student•

aquí hay algunos, también hay otros muy buenos que aunque son más antiguos son muy completos, en el buscador de platzi hay varios recursos más

Cristian Enrique Cuevas Mercado

student•

sin duda es necesario un curso avanzado de modelos, pero rescatando la teoría Estadística, al fin y al cabo los comando están en la documentación oficial de la librería

Andrés Fernández

student•

Por supuesto que necesitamos más cursos avanzados! Que está bien ampliar los básicos, pero hay que equilibrar y Platzi aún tiene grandes oportunidades en ese sentido!

Gerardo Mayel Fernández Alamilla

student•

aquí hay algunos, también hay otros muy buenos que aunque son más antiguos son muy completos, en el buscador de platzi hay varios recursos más

Rafael Rivera

student•

Claro que necesitamos mas cursos avanzados, me uno a la petición.

Alberto Gonzalez

student•

Acá estoy yo también! Desde Portugal me uno al pedido!

Antonio Demarco Bonino

student•

Por supuesto que todos nos quedamos esperando ese curso avanzado de ML. De mientras dejo estos conceptos para que todos los que quieran los estudien con un buen detenimiento:

Modelo: Regresión Polinomial
- Se usa para: Capturar relaciones no lineales en los datos aumentando el grado de las variables de entrada (como X², X³).
- Ejemplo: Modelar la relación entre la edad y el ingreso donde el ingreso crece rápidamente al principio, se estabiliza en la madurez y decrece en la vejez.
Modelo: Árboles de Decisión
- Se usa para: Dividir los datos en subconjuntos más pequeños, tomando decisiones basadas en las características más importantes.
- Ejemplo: Predecir si un paciente tiene una enfermedad basándose en parámetros médicos como presión sanguínea y colesterol.
Modelo: Random Forest
- Se usa para: Mejorar la predicción mediante la combinación de múltiples árboles de decisión (bagging), reduciendo el sobreajuste.
- Ejemplo: Predecir el precio de una casa utilizando múltiples árboles de decisión con características como el número de habitaciones, tamaño, y ubicación.
Modelo: Gradient Boosting
- Se usa para: Crear un modelo secuencial donde cada árbol nuevo corrige los errores del anterior, mejorando la precisión.
- Ejemplo: Clasificar correos electrónicos como spam o no spam basándose en una serie de reglas aprendidas de iteraciones anteriores.
Modelo: Regresión Logística
- Se usa para: Clasificar eventos binarios, como sí/no o verdadero/falso, a partir de una o varias variables independientes.
- Ejemplo: Determinar si un cliente comprará o no un producto basado en su historial de compras y comportamiento de navegación.
Modelo: Redes Neuronales
- Se usa para: Capturar relaciones extremadamente complejas entre las variables de entrada y salida mediante capas neuronales conectadas.
- Ejemplo: Reconocimiento de imágenes donde se aprende a identificar objetos como coches o personas en fotografías.
Modelo: Máquinas de Soporte Vectorial (SVM) con Kernel
- Se usa para: Transformar datos no lineales en un espacio dimensional superior, haciéndolos linealmente separables.
- Ejemplo: Clasificar tipos de flores en función de sus características como el largo y ancho de los pétalos y sépalos.
Modelo: Regresión Ridge
- Se usa para: Ajustar un modelo lineal controlando el sobreajuste mediante la penalización de coeficientes grandes.
- Ejemplo: Predecir los precios de propiedades ajustando un modelo que no dependa tanto de características influyentes extremas.
Modelo: Regresión Lasso
- Se usa para: Similar a Ridge, pero también puede reducir coeficientes a cero, seleccionando automáticamente las variables más importantes.
- Ejemplo: Seleccionar las características clave para predecir los ingresos anuales de una persona eliminando aquellas irrelevantes.
Modelo: Elastic Net

Se usa para: Combinar Ridge y Lasso para ajustar un modelo que penaliza tanto coeficientes grandes como innecesarios.
Ejemplo: Predecir el rendimiento académico de estudiantes basándose en múltiples factores, eliminando variables irrelevantes y limitando el sobreajuste.

Mauricio Combariza

student•

Yo lo que veo es que antes de tener cursos más abanzados, seria mejor profundizar en las bases. Se dejan muchas cosas para que se hagan de forma mecanica sin una base real de por que se debe hacer de una forma u otra.

Diego Moreno Gallón

student•

También existe la aplicación de transformaciones de kernel para seguir usando modelos lineales. Con la idea de los kernels se puede explicar de manera muy bonita lo que es una red neuronal. Les recomiendo el libro "deep learning book" de ian goodfellow.

Ricardo Félix Díaz López

student•

Este es uno de los cursos mas top que he tomado en plataforma de Platzi, seria genial que pudieran hacer un curso de machine learning avanzado.

Matías Collado

student•

Entonces es de muy bajo nivel la información de platzi.

Andres felipe Rojas parra

student•

esos temas de curso "avanzado" deberían estar en el curso básico son esenciales para que uno pueda tener una comprensión completa detrás de lo que pasa en el código...

teoría
práctica

Mauricio Escobar

student•

Me uno a la petición para un curso avanzado! Sin duda lo tomaría

Dick Saide Suárez Blanco

student•

😎----->Análisis de regresión multivariable<---- Todo este tiempo hemos aprendido la manera en la que se manejan los modelos de regresion lineal, mas cuando no se tiene un modelo asi, hay que acudir a los Modelos Polinomiales. Donde ya no es solo variables simples como x1 o x2 sino, tamb con variables con exponentes. Haciendo asi que las lineas sean curvas (en forma de ondas). Sin embargo, con estas graficas no solo se puede llegar a predecir un modelo, sino que en algunos casos su precision llega a ser incluso mejor que la de un modelo de regresion lineal. Ya qu edebido a la variaza que estos modelos tienen, llegan a cubrir mucho mejor la varianza que hay en los resultados. A este tipo de modelos se le conoce como de varianza, y a los tradicionales que hemos visto en este curso se les llama de sesgo.

σ Despues, Luis explica que al usar machine learnig, buscamos usar modelos de regularizacion para reducir el sesgo y varianza que tenga nuestro modelo. Lo que se hace, entonces, es reducir la vairanza que tenga un modelo, aunque esto aumente su sesgo, ya que es aceptable la inperfeccion en un sesgo.

σ Conitnuando, la manera en la que se agrega un modelo de regularizacion, es a traves de poner una penalizacion

Víctor Alejandro Regueira Romero

student•

Me encanta que siempre nos permitan conocer que más herramientas nos sirven a futuro.

Ciertamente la Regresión lineal es indispensable, pero conocer la mayoría mejora nuestro catálogo de modelos.

Joel Orellana

student•

para ser un curso introductorio, esta super bueno!!!

Diego Alejandro Torreblanca Cordova

student•

Con respecto a lo que mencionas, sería útil un curso más avanzado del tema. Recién estuve desarrollando un modelo con regresión multivariable para estimar las métricas de un problema pero los resultados son muy "parejos" y suena buena la propuesta de regularización y uso de polinomios, hubiera sido bueno tener ejemplos prácticos de eso

Anthony Stive Tomasto Montañez

student•

Claro que se necesitaría mas cursos como estos, donde expliquen la teoría de estadística y la aplicación con machine learning, como: Regresión Logística , Árbol de decisión , etc. Por otro lado, me gusto mucho este curso.

Pedro Alvarado Garcia

student•

Sin duda es lo que le falta a platzi para ser aún mejor, cursos avanzados y de larga duración.

Últimamente los cursos son muy básicos y su duración es muy baja. Así que abogo por cursos avanzados y más largos.

Luis Francisco Rascón Carrasco

student•

Si, por su puesto me gustaría ver mas curso avanzados sobre machine learning y toda una escuela si es posible

Bryan Castano

student••

Hola Chicos, esto para Reflexionar.

IMPORTANT!

Vamos a explorar juntos la Ecuación de Costo y la Geometría (círculo vs. rombo). proque su geometria deice mucho sobre Regularizacion l1 vs l2.

El Escenario de Optimización :

Como mencionamos, la regresión regularizada busca el conjunto de coeficientes ($\beta$) que minimice esta fórmula:

$$\min_{\beta} \left[ \text{MSE}(\beta) + \lambda \times \text{Penalización}(\beta) \right]$$

$\text{MSE}(\beta)$: Es el Error Cuadrático Medio. Es la parte que quiere que el modelo se ajuste bien a los datos.
$\lambda$ (o alpha): Es la fuerza de la penalización.
$\text{Penalización}(\beta)$: Es lo que mantiene los coeficientes bajo control.

Para simplificar la visualización geométrica, podemos reescribir la minimización como un problema de optimización con restricciones (constrained optimization).

En lugar de minimizar el costo total, buscamos los coeficientes $\beta$ que minimizan el $\text{MSE}$, sujeto a una restricción sobre la suma de los coeficientes:

Ridge (L2): Minimizar $\text{MSE}(\beta)$ sujeto a $\sum_{j=1}^{p} \beta_{j}^{2} \le c$
Lasso (L1): Minimizar $\text{MSE}(\beta)$ sujeto a $\sum_{j=1}^{p} |\beta_{j}| \le c$

Aquí, $c$ es un valor que está inversamente relacionado con $\lambda$ (un $\lambda$ más grande implica un $c$ más pequeño).

La Intuición Geométrica (El Porqué del Cero)

En un gráfico donde los ejes son los coeficientes del modelo ($\beta_1, \beta_2$), la solución óptima es el punto donde la curva del error (MSE) toca por primera vez la región de restricción (la penalización).

1. La Región de Restricción L2 (Ridge) ⚪

La restricción $\sum_{j=1}^{p} \beta_{j}^{2} \le c$ define una región circular (o una esfera/hiperesfera en más dimensiones).

Forma: Un círculo (o esfera) beta~².
Efecto: El punto de mejor ajuste (mínimo MSE) generalmente se encuentra fuera de este círculo. Al ser forzado a moverse a la frontera del círculo, los coeficientes se encogen de manera uniforme. Como el círculo no tiene esquinas, es muy poco probable que el punto de contacto ocurra exactamente sobre el eje, donde un coeficiente es cero. Siempre se acercan, pero no llegan a cero.

2. La Región de Restricción L1 (Lasso) ♦️

La restricción Sumatoria de j =1 hasta p, ||beta|| < c ,define una región en forma de diamante o rombo.

Forma: Un rombo (o un octaedro en 3D).
Efecto Clave: ¡El rombo tiene esquinas! Las esquinas del rombo se encuentran precisamente sobre los ejes, lo que significa que en esos puntos, uno de los coeficientes es cero .

El área de menor error (las líneas de contorno elípticas del MSE) es mucho más probable que toque primero una de estas esquinas del rombo que cualquier otro punto en su borde. Al tocar la esquina, la solución se establece con el coeficiente correspondiente a cero, realizando la selección de características.

¿qué p asaría si el valor de lambda fuera cero ($lambda = 0$)? ¿Cómo se verían en el gráfico la región de restricción L1 o L2?

RTA: Si lambda (λ) fuera 0, la penalización por regularización desaparecería. En el gráfico, las regiones de restricción L1 o L2 (diamante o círculo) se expandirían infinitamente, dejando que el modelo encuentre los coeficientes que minimicen solo el error de mínimos cuadrados sin ninguna restricción.

Cuando $\lambda = 0$, la fuerza de la restricción desaparece, y la región de restricción L1 o L2 se vuelve infinita. La solución, en ambos casos, recae en el centro de las elipses de error del MSE. Esto es, de hecho, la solución exacta de la Regresión por Mínimos Cuadrados Ordinarios (OLS), sin regularización.

a Geometría en Acción: Rombo vs. Círculo

La comprensión de la geometría es clave. Enfocándonos en el L1 (el rombo ♦️) y su habilidad para anular coeficientes:

La forma del L2 (Círculo/Esfera): La frontera es suave y curva. Si un coeficiente es empujado cerca de cero, el otro también lo es, pero el punto de contacto entre la elipse de error y el círculo rara vez caerá exactamente sobre un eje (donde $\beta_j = 0$).
La forma del L1 (Rombo/Octaedro): La frontera tiene esquinas agudas sobre los ejes. Estos puntos representan soluciones donde al menos un coeficiente es cero.

El Impacto de las Esquinas

La naturaleza convexa de las elipses de error (MSE) hace que sea mucho más probable que el punto óptimo de contacto ocurra en una de estas esquinas en lugar de en el medio de un borde.

Piensa en esto: si estás buscando el punto de menor error y la restricción te obliga a elegir un punto dentro o sobre el rombo, el lugar donde el error es mínimo es muy a menudo una esquina, lo que automáticamente implica que el coeficiente en ese eje se ha anulado. Esta anulación es lo que llamamos modelo disperso (sparse model) y es el mecanismo de selección de características.

La regresión lineal simple puede sobreajustarse (overfitting) si hay ruido o muchas variables: el modelo se ajusta demasiado a los datos de entrenamiento y falla en nuevos datos. La regularización añade una "penalización" a los coeficientes grandes para simplificar el modelo y evitar overfitting.

Función de costo general: En OLS, minimizamos SSE. Con regularización, minimizamos SSE + λ * Penalización, donde λ es un hiperparámetro que controla la fuerza de la penalización.

5. Regresión Ridge (L2 Regularization)

Idea: Penaliza la suma de los cuadrados de los coeficientes (||β||²). Esto encoge los coeficientes hacia cero, pero no los hace exactamente cero. Es útil cuando hay multicolinealidad (variables correlacionadas).
Ecuación: Minimizar SSE + λ Σ(β_j²) para j=1 a k (no penaliza β₀).
Efecto: Los coeficientes se hacen más pequeños, reduciendo la varianza del modelo.
Entrenamiento: Similar a OLS, pero la solución es β = (X^T X + λI)^(-1) X^T Y (donde I es la matriz identidad). Esto hace que la matriz sea invertible incluso con multicolinealidad.

Regresión Lasso (L1 Regularization)

Idea: Penaliza la suma absoluta de los coeficientes (|β|). Esto puede hacer que algunos coeficientes sean exactamente cero, actuando como selección de características (feature selection).
Ecuación: Minimizar SSE + λ Σ|β_j| para j=1 a k.
Efecto: Elimina variables irrelevantes, haciendo el modelo más interpretable y sparse.
Entrenamiento: No tiene solución cerrada como Ridge; se usa optimización numérica (e.g., gradiente descendente o coordinate descent). En Python, scikit-learn lo maneja.

L1 vs L2: Comparación

Penalización:
- L1 (Lasso): Suma absoluta (|β₁| + |β₂| + ...). Forma un "diamante" en el espacio de coeficientes, lo que tiende a poner coeficientes en cero (esquinas).
- L2 (Ridge): Suma de cuadrados (β₁² + β₂² + ...). Forma un "círculo", encoge coeficientes uniformemente sin eliminarlos.
Diferencias clave:
- Selección de características: L1 sí (puede eliminar variables). L2 no (solo las encoge).
- Multicolinealidad: L2 es mejor porque distribuye la penalización entre variables correlacionadas. L1 elige una y pone las otras a cero.
- Interpretabilidad: L1 da modelos más simples (menos variables).
- Sensibilidad: L1 es más robusto a outliers en coeficientes; L2 es más estable.
- Cuándo usar:
  - Usa Lasso (L1) si sospechas que muchas variables son irrelevantes (e.g., en datasets con miles de features).
  - Usa Ridge (L2) si todas las variables son relevantes pero hay correlaciones altas.
  - Hay un híbrido: Elastic Net (L1 + L2) para lo mejor de ambos.
Elección de λ: Usa validación cruzada (cross-validation) para probar diferentes valores y elegir el que minimice el error en datos de validación.

Es importante la vision geometrica para entneder el mecanisco de cada una l1 vs l2, y su efecto sobre los coeficientes betas.

Mario Alexander Vargas Celis

student•

Más allá de la linealidad en los modelos de regresión, existen métodos que permiten capturar relaciones más complejas y no lineales entre las variables. Aquí te explico las principales alternativas y conceptos clave:

🔹 1. Regresión Polinómica

Transforma las variables originales en potencias (cuadrado, cubo, etc.).
Ejemplo: en vez de ajustar una línea recta, ajusta una curva.
Útil cuando la relación entre X e Y es curvilínea.

from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LinearRegression

poly = PolynomialFeatures(degree=2) X_poly = poly.fit_transform(X) model = LinearRegression().fit(X_poly, y)

🔹 2. Modelos No Paramétricos

Árboles de Decisión, Random Forest, Gradient Boosting y XGBoost: modelan relaciones complejas sin suponer una forma funcional explícita.
Flexibles, pero pueden sobreajustar si no se regulan.

🔹 3. Regresión con Splines

Divide el dominio de la variable en tramos y ajusta funciones diferentes (por ejemplo, polinomios) en cada tramo.
Es suave y flexible para capturar formas no lineales.

🔹 4. Modelos Basados en Kernels

SVM con kernel RBF, Kernel Ridge Regression, entre otros.
Usan transformaciones no lineales implícitas para separar/predicir datos en espacios de mayor dimensión.

🔹 5. Redes Neuronales

Capturan relaciones altamente no lineales.
Útiles con muchos datos y relaciones complejas.
Requieren más recursos y tiempo de entrenamiento.

🔹 6. Transformaciones de Variables

Aplicar funciones como logaritmos, raíces, exponenciales a las variables para linealizar relaciones no lineales.

📌 En resumen:

Cuando la relación entre variables no es lineal, puedes:

Usar regresión polinómica.
Aplicar transformaciones.
O directamente cambiar a modelos más flexibles, como árboles o redes neuronales.

¿Qué hay más allá de la linealidad?

Introducción al curso

Tu primera regresión lineal con scikit-learn

Análisis de datos para tu primera regresión lineal

Entrenando un modelo de regresión lineal con scikit-learn

Cómo funciona la regresión lineal

¿Qué es la regresión lineal?

Cuándo utilizar un modelo de regresión lineal

Función de pérdida y optimización: mínimos cuadrados

Evaluando el modelo: R^2 y MSE

Regresión lineal multivariable

Regresión lineal multivariable

Análisis de regresión multivariable

Proyecto práctico

Regresión lineal para predecir los gastos médicos de pacientes

Exploración y preparación de datos

Análisis de correlación de los datos

Entrenamiento del modelo

Evaluando el modelo

Mejorando el modelo

Pasos siguientes

¿Qué hay más allá de la linealidad?

Siguientes pasos en modelos de inteligencia artificial

Comparte tu proyecto de regresión lineal y certifícate