Regresión lineal para predecir los gastos médicos de pacientes

Curso de Regresión Lineal con Python y scikit-learn

Contenido del curso

Introducción al curso

Cómo funciona la regresión lineal

Regresión lineal multivariable

Proyecto práctico

Pasos siguientes

Tomar examen

Regresión lineal para predecir los gastos médicos de pacientes

Mario Alexander Vargas Celis

Estudiante

La regresión lineal es una técnica muy útil para predecir los gastos médicos de pacientes si cuentas con variables numéricas relevantes como:

Edad (age)
IMC (bmi)
Número de hijos (children)
Sexo (sex)
Fumador (smoker)
Región (region)

Estas variables se pueden usar como características (X) para predecir el gasto médico (charges).

🧠 ¿Por qué usar regresión lineal?

Porque es una forma de modelar cómo distintas características influyen en el resultado (en este caso, los gastos médicos). Por ejemplo:

Fumar puede aumentar el gasto.
Mayor edad también suele estar asociada a mayores gastos.
Un IMC alto podría correlacionarse con más problemas de salud.

✅ Ejemplo básico con Python y scikit-learn

import pandas as pd import numpy as np from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler, OneHotEncoder from sklearn.compose import ColumnTransformer from sklearn.pipeline import Pipeline

# Carga de datos (puedes usar un dataset como el de 'insurance.csv') df = pd.read_csv('insurance.csv')

# Variables numéricas y categóricas numeric = ['age', 'bmi', 'children'] categorical = ['sex', 'smoker', 'region']

# Separar variables predictoras y objetivo X = df[numeric + categorical] y = df['charges']

# Preprocesamiento: estandarizar numéricas y one-hot encoding a categóricas preprocessor = ColumnTransformer([ ('num', StandardScaler(), numeric), ('cat', OneHotEncoder(drop='first'), categorical) ])

# Pipeline con regresión lineal model = Pipeline([ ('preprocess', preprocessor), ('regressor', LinearRegression()) ])

# División de los datos X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenamiento model.fit(X_train, y_train)

# Evaluación from sklearn.metrics import r2_score, mean_squared_error

y_pred = model.predict(X_test) print('R²:', r2_score(y_test, y_pred)) print('MSE:', mean_squared_error(y_test, y_pred))

📊 Interpretación

R² indica qué tan bien el modelo explica los datos (más cerca a 1 = mejor).
MSE indica el error medio al predecir los gastos (menor = mejor).

Regresión lineal para predecir los gastos médicos de pacientes

Introducción al curso

Tu primera regresión lineal con scikit-learn

Análisis de datos para tu primera regresión lineal

Entrenando un modelo de regresión lineal con scikit-learn

Cómo funciona la regresión lineal

¿Qué es la regresión lineal?

Cuándo utilizar un modelo de regresión lineal

Función de pérdida y optimización: mínimos cuadrados

Evaluando el modelo: R^2 y MSE

Regresión lineal multivariable

Regresión lineal multivariable

Análisis de regresión multivariable

Proyecto práctico

Regresión lineal para predecir los gastos médicos de pacientes

Exploración y preparación de datos

Análisis de correlación de los datos

Entrenamiento del modelo

Evaluando el modelo

Mejorando el modelo

Pasos siguientes

¿Qué hay más allá de la linealidad?

Siguientes pasos en modelos de inteligencia artificial

Comparte tu proyecto de regresión lineal y certifícate