Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Regresión lineal para predecir los gastos médicos de pacientes

10/17
Recursos

Aportes 3

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

viendo el dataset se me ocurriría analizar la edad, pues tengo la curiosidad de saber si a mayor edad los cargos de los gastos médicos serán altos, o si a mayor cantidad de hijos serán altos esos gastos, también me gustaría analizar que sexo es el que predomina en gastos médicos, o también si la ubicación en este caso la region influye sobre el cargo.

Función para detectar valores atípicos en las variables numéricas continuas del dataset:

def detect_otliers(x):
    Q3 = Datos[x].quantile(0.75)
    Q1 = Datos[x].quantile(0.25)
    IQR = Q3 - Q1
    superior = Q3 + (1.5 * IQR)
    inferior = Q1 - (1.5 * IQR)
    out_sup = Datos[Datos[x] > superior].index
    out_inf = Datos[Datos[x] < inferior].index
    outliers = []
    for i in out_sup:
        outliers.append(i)
        for j in out_inf:
            outliers.append(j)
    
    size = len(outliers)
        
    return (f'Hay {size} valores atípicos en la variable {x}, y corresponden a los índices: {outliers}')

detect_otliers('bmi')

'Hay 8 valores atípicos en la variable bmi, y corresponden a los índices: [115, 285, 400, 843, 856, 1043, 1084, 1310]'

Para que no busques el dataset, está en el siguiente link directamente

https://www.kaggle.com/datasets/mirichoi0218/insurance